美文网首页
斯坦福统计学习CS229T/STATS231第一课·数学框架

斯坦福统计学习CS229T/STATS231第一课·数学框架

作者: 顾劝劝 | 来源:发表于2020-06-08 21:14 被阅读0次

来自课程讲义

1 大纲:

  • 有监督学习
  • 损失函数
    • 平方损失函数
    • 线性模型的平方损失函数
  • 参数家族
    • 假设
    • 极大似然
    • 极大似然参数估计的渐进结果

2 有监督学习

框架里包含这些元素:数据x\in \mathcal{X},标签y\in \mathcal{Y},联合分布(x^{(i)},y^{(i)})\stackrel{i.i.d}{\sim} P,预测函数f: \mathcal{X}\rightarrow \mathcal{Y},通常有下界比如非负的损失函数l:\mathcal{Y}\times \mathcal{Y}\rightarrow \mathbb{R}

期望风险(expected risk)、期望损失(expected loss)、总体损失(population risk)说的都是一回事:
L(f)\stackrel{\Delta}{=}\mathbb{E}_{(x,y)\sim P}[l(f(x),y)]
这个损失越小越好。通常我们无法穷尽所有的f,只能在几个家族\mathcal{F}里搜寻。这个框架有两种问题可以考虑:回归和分类。回归的\mathcal{Y}=\mathbb{R},分类的\mathcal{Y}=\{1,\ldots,k\}

3 回归和平方损失

平方损失函数顾名思义就是l(\hat y - y) = (\hat y - y)^2,于是期望损失的具体形式就是L(f) = \mathbb{E}_{(x,y)\sim P} [(f(x)-y)^2]

Lemma 1 (平方损失的分解)

平方损失可以分解成偏差平方+方差,也就是
L(f) = \mathbb{E}_{x\sim P_x}[f(x)-\mathbb{E}[y|x])^2] + \mathbb{E}_{x\sim P_x}[Var(y|x)]
第二项是无法缩小的,它是我们能达到的平方损失的下界;第一项非负,是我们期望减小的,要能达到f(x)=\mathbb{E}[y|x]就完美了。

4 以平方损失为目标的线性回归

我们把f的决策空间缩小至线性函数:
\mathcal{F} = \{f:\mathbb{R}^d\rightarrow \mathbb{R} | f(x) = w^Tx, w \in \mathbb{R}^d\}
这样我们可以把损失进一步分解成三部分:标签的方差+线性模型的最小偏差平方+估计线性模型和最优线性模型的偏差。
L(\hat w) = \mathbb{E}_x[Var(y|x)] + \mathbb{E}_x[(\mathbb{E}[y|x]-w^{*T}x)^2] + \mathbb{E}_x[(w^{*T}x - \hat w ^T x)^2]

5 参数家族的假设

线性模型是比较特殊的参数模型,参数模型的损失函数一般一点的写法是
l(f_\theta(x),y) = l((x,y),\theta)
如果要用极大似然来估计参数,那么损失函数就是
l((x,y),\theta) = -\log P_\theta(y|x)
y|x是正态分布的时候,不难推导出它的极大似然损失函数是\dfrac{(y-\theta^Tx)^2}{2} + c。所以在正态的假设下,MLE和squared loss等价。

6 训练集损失函数

不知道真实P就用经验分布代替:
\hat L(\theta) \stackrel{\Delta}{=}\dfrac{1}{n}\sum_{i=1}^n l((x^{(i)},y^{(i)}),\theta),那么训练出来的参数就是令经验损失最小的值
\hat \theta \in \arg\min_{\theta \in \Theta}\hat L(\theta)

定理1

(极大似然估计的渐进性质)假设L(\theta^*)的海森矩阵满秩。\hat \theta是极大似然估计,并且定义Fisher information matrix:
Q \stackrel{\Delta}{=} \mathbb{E}_{(x,y)\sim P}[\triangledown_\theta(\log p_\theta(y|x))(\theta^*)\triangledown_\theta(\log p_\theta(y|x))^T]
假设\hat \theta = \hat \theta_n \stackrel{p}{\rightarrow}\theta^*,加上一些regularity conditions我们能得到:
\sqrt{n}(\hat\theta - \theta^*) \stackrel{d}{\rightarrow}N(0,Q^{-1})n(L(\hat\theta)-L(\theta^*))\stackrel{d}{\rightarrow}\dfrac{1}{2}\chi^2(p),其中p是参数的维度。

引理 1

定理1的第一个结果说明\hat \theta - \theta \rightarrow 0,第二个结果说明L(\hat\theta) - L(\theta^*)\approx p/2n,因为\chi^2(p)随机数的期望是p

相关文章

网友评论

      本文标题:斯坦福统计学习CS229T/STATS231第一课·数学框架

      本文链接:https://www.haomeiwen.com/subject/vpmltktx.html