来自课程讲义
1 大纲:
- 有监督学习
- 损失函数
- 平方损失函数
- 线性模型的平方损失函数
- 参数家族
- 假设
- 极大似然
- 极大似然参数估计的渐进结果
2 有监督学习
框架里包含这些元素:数据,标签
,联合分布
,预测函数
,通常有下界比如非负的损失函数
。
期望风险(expected risk)、期望损失(expected loss)、总体损失(population risk)说的都是一回事:
这个损失越小越好。通常我们无法穷尽所有的,只能在几个家族
里搜寻。这个框架有两种问题可以考虑:回归和分类。回归的
,分类的
。
3 回归和平方损失
平方损失函数顾名思义就是,于是期望损失的具体形式就是
。
Lemma 1 (平方损失的分解)
平方损失可以分解成偏差平方+方差,也就是
第二项是无法缩小的,它是我们能达到的平方损失的下界;第一项非负,是我们期望减小的,要能达到就完美了。
4 以平方损失为目标的线性回归
我们把的决策空间缩小至线性函数:
,
这样我们可以把损失进一步分解成三部分:标签的方差+线性模型的最小偏差平方+估计线性模型和最优线性模型的偏差。
5 参数家族的假设
线性模型是比较特殊的参数模型,参数模型的损失函数一般一点的写法是
如果要用极大似然来估计参数,那么损失函数就是
当是正态分布的时候,不难推导出它的极大似然损失函数是
。所以在正态的假设下,MLE和squared loss等价。
6 训练集损失函数
不知道真实就用经验分布代替:
,那么训练出来的参数就是令经验损失最小的值
定理1
(极大似然估计的渐进性质)假设的海森矩阵满秩。
是极大似然估计,并且定义Fisher information matrix:
假设,加上一些regularity conditions我们能得到:
、
,其中
是参数的维度。
引理 1
定理1的第一个结果说明,第二个结果说明
,因为
随机数的期望是
。
网友评论