总结
本节从贝叶斯公式出发,通过最小化错误分类概率得到贝叶斯决策理论。进一步定义决策面和决策函数,基于正态分布讨论了贝叶斯分类的样子,但实际情况下,不一定是正态分布的,此时就需要对概率密度函数进行估计。最经典的,如果数据点都来自同一个分布,就是使用最大似然估计,如果数据点不是来自同一个分布,我们引入混合模型,采用EM算法来非线性迭代优化求解。之前都是假设属于某个分布来计算参数,但我们如果在没有假设基于什么分布的情况下,一维我们用直方图统计,高维时用超立方体,但是这是个非连续的阶跃函数,进一步引入了有更好的数学性质的核。这叫做核密度估计,这个过程中,围绕点
的volume时固定的,落在这个里面的点数时变化的,如果把这个过程反过来,就成了KNN密度估计,直观上来说是给定某个点,统计距它最近的k个点的类别,判断这个点为类别数最多的那个类。最后讨论了极端情况假设,各个特征分量相互独立,称为朴素的贝叶斯分类器,这个条件太苛刻,在实际情况下少见,所以引入贝叶斯网络,能够让我们能够在两个极端的任意位置停留。
贝叶斯决策理论
贝叶斯公式
先验概率,类
的概率密度函数
。给定贝叶斯公式
,其中
那么根据贝叶斯分类法则,将
分类到
。
分类错误概率
分类器若把空间分为两部分,
示意图
那么如果但判别为类,且则就算产生了错误分类。那么总的错误概率为:
最小化错误分类概率
被分类到
是被错误分类的概率是
那么按贝叶斯分类则变成了最小化错误分类
最小化风险
假设是本属于第
类的样本错分到第
类的风险。
那么原有的最小化分类错误概率
变成最小化平均风险
总共个样本,第
类
个样本,第
类错误分到第
类的样本数
带来的惩罚
错误分类的总惩罚为
平均惩罚是
考虑拒绝分类
拒绝分类的一般惩罚矩阵:
决策面和决策函数
决策面
对于类问题,最小化错误概率会将特征空间分为
个区域,
,若恰巧
是临近的,那么把它们划分开,使错误概率最小化的决策面是
判别函数
有时不直接使用概率,而是从数学角度直接等价使用概率的函数
正态分布下的贝叶斯分类器
多元高斯分布x维空间的多元高斯概率密度函数是
其中是
的均值,
是
的协方差矩阵
。
两个例子:
例1.
image.png
例2.
image.png
高斯分布下的判别函数
使用判别函数
在高斯分布下变为了
其中
为常数
在的情况下,对应的决策曲线是二次曲线,此时贝叶斯分类器是二次分类器。特别的,协方差矩阵相同时,决策面
变成一个超平面。
然而,概率密度函数通常是未知的,可能并非正态分布,此时就需要估计。
概率密度函数的估计
最大似然估计
关于
的似然函数
,任务为通过一组已知特征向量来估计未知的参数
。
最大似然估计,使似然函数取最大值,为了使似然函数最大化,
。进一步,使用对数似然函数
,它关于
的导数为0,
。
混合模型
- 假设
是以
的概率分别从
个分布中抽取出来的。
- 那么未知的
可以写成多个密度函数的线性组合
,其中
。
- 首先要选择参数形式合适的密度函数
,然后基于一组训练样本
计算未知参数
和
- 然后根据参数
和
最大化似然函数
。
- 未知参数以非线性方式进入最大化任务中,因此需要采用非线性优化迭代技术。
存在问题:
- 训练样本的哪个样本属于
个分布的哪一个分布是未知的。
- 如果是已知的,那么最大化任务就可以分解为
个最大似然估计任务。
- 这种未知使得现在的问题变成一个不完整数据集问题。一个完整的数据样本是
,
表示
是属于第
个分布的,但
是未知的。
EM算法
- E-step:在第(t+1)轮迭代中,
是已知的,这一步计算期望值
把换成
,
- M-step:通过最大化期望值计算第(t+1)轮迭代的
值,即
。
求使得期望最大化的,即
。
考虑约束,利用拉格朗日乘数法可以求出
。而
的计算依赖于具体分布。
- 初始估计
开始迭代,直到参数稳定。
假设分布为正态分布。
由得
,
为进行迭代,需要计算
。
直方图
一维情况,将x轴划分为长度为的
,假设总的样本数为
,有
落在某个
里,那么对应的概率近似为
。
若为这个
的中心点,在这个
里的概率密度值近似为
。
核密度估计(parzen窗)
因高维不能取大小为的bin,把
维空间划分为边长为
,容积为
的超立方体,令
为可用的特征向量。定义函数
,
。
换句话说,在以原点为中心的单位超立方体内部,这个函数等于1,在外部等于0.
那么处的概率密度变为
,即取一个以
为中心的边长为
的超立方体,看看有多少
在这个超立方体里面。
原来的是非连续的阶跃函数,现在考虑将
改成平滑函数,它满足
。
高斯核是一个典型的核,此时概率密度的展开为
,也就是说,
的估计是
个高斯的均值,每个高斯以训练集的不同样本为中心。
在核密度估计中,围绕点的
是固定的,而落在这个
里的特征点数量
在不同点之间是变化的。现在反过来,固定
,而每次调节围绕
的
的大小使它包含
个点。
KNN密度估计
调节围绕的
使它包含
个点,假设这个
的大小为
,概率密度的估计值可以写为
。
概率密度最大,即使最小。
KNN估计变体及KNN分类器
- 在N个训练向量中,找出最近的k个,不管其类标注
- 在k个样本中,识别出属于
的样本数
。很明显,
。
- 假设包含这k个样本的volume大小为V,则
。
KNN分类器:
是最大的,那么
就属于
.
朴素的贝叶斯分类器
- 为了得到好的对概率密度函数
的估计结果,就要求训练集的样本数足够多。
- 如果一维空间里需要
个样本,才能确保得到准确的估计,那么
维空间就至少需要
个样本。需要的样本数随着维数增大呈指数量级上升。
- 假设各特征分量相互独立,那么
。
- 如果这样的话,我们只需要为每个类估计l个一维概率密度函数,为了得到好的估计,
个点就够了,这种独立性假设得到的分类器就是朴素贝叶斯分类器。
朴素贝叶斯分类器让我们从一个极端走向另一个极端,完全相互依赖的特征到相互独立。而贝叶斯网络让我们停留在两个极端之间的某个位置。
贝叶斯网络
贝叶斯网络:通过表示变量之间的依赖关系来表示完全联合概率分布。
概率链式规则
image.png












网友评论