朴素贝叶斯法
朴素贝叶斯法的学习与分类
基本方法
设输入空间 $\mathcal{X} \in \mathbb{R}^n$ 为 $n$ 维向量的集合,输出空间类标记集合 $\mathcal{Y} = \{c_1, c_2, \cdots, c_K \}$。训练数据集
由 $P(X, Y)$ 独立同分布产生。
朴素贝叶斯法通过训练数据集学习联合概率分布 $P(X, Y)$。具体地,学习以下先验概率分布及条件概率分布。先验概率分布
条件概率分布
于是学习到联合概率分布 $P(X, Y)$。
由条件独立性假设得
朴素贝叶斯法分类时,对给定的输入 $x$,通过学习到的模型计算后验概率分布 $P(Y = c_k |X = x)$,将后验概率最大的类作为 $x$ 的类输出。后验概率计算如下:
也就是:
这是朴素贝叶斯法分类的基本公式。于是,朴素贝叶斯分类器可表示为
注意到分母对所有 $c_k$ 都是相同的,所以,
后验概率最大化的含义
朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择 0-1 损失函数:
式中 $f(X)$ 是分类决策函数。这时,期望风险函数为
期望是对联合分布 $P(X, Y)$取的。由此取条件期望:
为了使期望风险最小化,只需对 $X = x$ 逐个极小化,由此得到:
朴素贝叶斯法的参数估计
学习与分类算法
输入:训练数据 $T = \{(x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)\}$,其中 $x_i = (x_i^{(1)}, x_i^{(2)}, \dots, x_i^{(n)})$,$x_i^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征,$x_i^{(j)} \in \{a_{j1}, a_{j2}, \cdots, a_{jS_j}\}$ 是特征 $x_i^{(j)}$ 的可能取值,$y_i \in \{c_1, c_2, \cdots, c_K\}$。
输出:实例 $x$ 的分类。
(1)计算先验概率及条件概率
(2)对于给定实例 $x = (x^{(1)}, x^{(2)}, \dots, x^{(n)})$,计算:
(3)确定实例 $x$ 的类
贝叶斯估计
用极大似然估计可能会出现所要估计的概率值为 $0$ 的情况。这是采用贝叶斯估计。
常取 $\lambda = 1$