本文来自我的个人博客 https://www.zhangshenghai.com/posts/62831/
朴素贝叶斯的学习与分类
训练数据集
由独立同分布产生。其中,
,
为第
个特征向量(实例),
为
的类标记,
是定义在输入空间
上的随机向量,
是定义在输出空间
上的随机变量。
是
和
的联合概率分布。
朴素贝叶斯法对条件概率分布作了条件独立性的假设,条件独立性假设是
即,用于分类的特征在类确定的条件下都是条件独立的。
朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布,将后验概率最大的类作为x的类输出,后验概率计算根据贝叶斯定理进行:
朴素贝叶斯分类器可表示为
朴素贝叶斯算法的参数估计
极大似然估计
-
先验概率
的极大似然估计是
-
设第
个特征
可能取值的集合为
,条件概率
的极大似然估计是
其中,是第
个样本的第
个特征;
是第
个特征可能取的第
个值;
是指示函数。
朴素贝叶斯算法
输入:线性可分训练数据集,其中
,
是第
个样本的第
个特征,
,
是第
个特征可能取的第
个值,
;实例
;
输出:实例的分类
-
计算先验概率及条件概率
-
对于给定的实例
,计算
-
确定实例
的类
贝叶斯估计
用极大似然估计可能会出现所要估计的概率值为0的情况,这时会影响到后验概率的计算结果,解决这一问题的方法是采用贝叶斯估计。
-
先验概率的贝叶斯估计
-
条件概率的贝叶斯估计
式中。当
时,是极大似然估计;当
时,称为拉普拉斯平滑。
网友评论