李宏毅机器学习——误差和梯度下降

作者: migugu | 来源:发表于2022-05-19 15:24 被阅读0次

[机器学习入门] 李宏毅机器学习笔记-3 （Gradient D
李宏毅机器学习——误差和梯度下降
[机器学习入门] 李宏毅机器学习笔记-4（Where does
T7-总结
《李宏毅 - 深度学习》笔记
李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gr
[机器学习入门] 李宏毅机器学习笔记-5（Classificat
[李宏毅机器学习]系列文章
[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervi
[机器学习入门] 李宏毅机器学习笔记-24（introducti

误差

误差的来源

在机器学习中，误差=偏差+方差(Error=Bias+Variance)。

Error反映整个模型的准确度

Bias反映模型在样本上的输出与真实值之间的误差，即模型本身的精准度

Variance反映模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性

Bias的计算

估计μ: $m=\dfrac{1}{n} \sum_{n} {x^n} \neq μ$

$E(m)=E(\dfrac{1}{n} \sum_{n} {x^n}) = \dfrac{1}{N}\sum_n E(x^n)=μ$

$m$ 分布对于 $μ$ 的离散程度(方差): $Var(m)=\dfrac{σ^2}{N}$

Var的计算

估计 $\sigma ^ 2$ :

$m=\dfrac{1}{N} \sum_{n} x^{n}$

$s^{2}=\dfrac{1}{N} \sum_{n}\left(x^{n}-m\right)^{2}$

$E\left[s^{2}\right]=\dfrac{N-1}{N} \sigma^{2} \neq \sigma^{2}$

下面这张图可以更直观地显示Bias和Variance的区别。

Bias vs Variance

比较简单的model var小（受数据的影响小），var大；复杂的model var大，bias小。

简单模型拟合能力不如复杂模型，所以对一些偏差较大的值不太敏感。

简单模型是偏差比较大造成的误差，这种情况叫做欠拟合，而复杂模型是方差过大造成的误差，这种情况叫做过拟合。

过拟合和欠拟合

欠拟合：模型没有很好的训练训练集，偏差过大。
过拟合：模型在训练集上得到很小的错误，但是在测试集上得到很大的错误。

处理方式

偏差大-欠拟合：重新设计模型，加入更多的函数，或者考虑更复杂的模型。

方差大-过拟合：更多的数据（可以采用数据增强方法）；正则化。

模型的选择

权衡偏差和偏差，使得总误差最好，但是公共测试集的数据往往是不可靠的，所以不要做下面这张图片的事。

Model Selection

交叉验证
将训练集分为训练集和验证集，根据验证集上的error选择模型。

Cross Validation1

N-折交叉验证
将训练集分为N份，在每一份上分别训练模型，最后再用全部训练数据上训练较好的模型。

Cross Validation 2

梯度下降

梯度下降法

在回归问题中需要解决最优化问题，使得 $Loss$ 最小。

gd1.png

这里的parameters是复数，即 $\theta$ 。需要找一组参数 $\theta$ ，让损失函数越小越好，可以用梯度下降法解决。

$\theta$ 有里面有两个参数 $θ_1,θ_2$ ，随机选取初始值；
分别计算偏微分，得到梯度，根据学习率更新参数

gd2.png

学习率的调整

将参数改变对损失函数的影响进行可视化（右图）。

gd3.png

自适应学习率

随着次数的增加，通过一些因子来减少学习率

通常刚开始，初始点会距离最低点比较远，使用大一点的学习率
update好几次参数之后，比较靠近最低点了，减少学习率

学习率不能是一个值通用所有特征，不同的参数需要不同的学习率

Adagrad

每个参数的学习率都把它除上之前微分的均方根。

普通的梯度下降
$\mathrm{w}^{\mathrm{t}+1} \leftarrow \mathrm{w}^{\mathrm{t}}-\eta^{\mathrm{t}} \mathrm{g}^{\mathrm{t}}$
$\eta^{\mathrm{t}}=\frac{\eta^{\mathrm{t}}}{\sqrt{\mathrm{t}+1}}$
Adagard
$\mathrm{w}^{\mathrm{t}+1} \leftarrow \mathrm{w}^{\mathrm{t}}-\frac{\eta^{\mathrm{t}}}{\sigma^{\mathrm{t}}} \mathrm{g}^{\mathrm{t}}$
$\mathrm{g}^{\mathrm{t}}=\frac{\partial \mathrm{L}\left(\theta^{\mathrm{t}}\right)}{\partial \mathrm{w}}$

$\sigma ^ t$ : 之前参数的所有微分的均方根，对于每个参数都是不一样的。

具体的参数更新过程

adagard.png

对 Adagard 式子进行化简，得到
$w^{t+1} \leftarrow w^t - \dfrac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}$

adagard2.png

Adagard存在的矛盾？

adagard3.png

Gradient越大的时候，分母越大，更新的步伐越小？

Adagard考虑的是Gradient的反差
计算过去Gradient的平方和

不一定gradient越大，距离loss最低点越远

最佳的步伐应该是 $\dfrac{一次微分}{二次微分}$

对于 ${\sqrt{\sum_{i=0}^t(g^i)^2}}$ ，就是希望再尽可能不增加过多运算的情况下模拟二次微分。

（如果计算二次微分，在实际情况中可能会增加很多的时间消耗）

随机梯度下降SGD

随机梯度下降损失函数不需要用到全部的训练数据，而是随机选取一个例子计算损失函数，并且更新梯度。

传统梯度下降

$\mathrm{L}=\sum_{\mathrm{n}}\left(\hat{\mathrm{y}}^{\mathrm{n}}-\left(\mathrm{b}+\sum \mathrm{w}_{\mathrm{i}} \mathrm{x}_{\mathrm{i}}^{\mathrm{n}}\right)\right)^{2}$
$\theta^{\mathrm{i}}=\theta^{\mathrm{i}-1}-\eta \nabla \mathrm{L}\left(\theta^{\mathrm{i}-1}\right)$

随机梯度下降

$\mathrm{L}=\left(\hat{\mathrm{y}}^{\mathrm{n}}-\left(\mathrm{b}+\sum \mathrm{w}_{\mathrm{i}} \mathrm{x}_{\mathrm{i}}^{\mathrm{n}}\right)\right)^{2}$
$\theta^{\mathrm{i}}=\theta^{\mathrm{i}-1}-\eta \nabla \mathrm{L}^{\mathrm{n}}\left(\theta^{\mathrm{i}-1}\right)$

不需要对所有数据进行处理，更新速度更快。

特征缩放 Feature Scaling

对特征数量较多的时候，将不同的feature范围缩放到一致，保证这些特征具有相近的尺度（无量纲化），可以使梯度下降法更快的收敛。

Feature Scaling的方法

Min-Max Normalization（min-max标准化）
$x^{*}=\frac{x-\min (x)}{\max (x)-\min (x)}$
Mean normalization（mean归一化）
$x^{*}=\frac{x-\operatorname{mean}(x)}{\max (x)-\min (x)}$
Standarddization（z-score标准化）
$x^{*}=\frac{x-x}{\sigma}$
max标准化
$x^{*}=\frac{x}{\max (x)}$

norm.png

梯度下降的理论基础

math (1).PNG

如何在小圆圈内快速找到最小值？

泰勒展开式

若 $h(x)$ 在 $x=x_0$ 点的某个领域内有无限阶导数（即无限可微分，infinitely differentiable），有

math (2).PNG

math (3).PNG
多变量泰勒展开式

math (4).PNG

利用泰勒展开式简化

如果红色圈圈足够小，那么损失函数可以用泰勒展开式进行简化：

math (5).PNG

math (6).PNG

math (7).PNG

梯度下降的限制

微分值为0的地方，可能是局部极值或者不是极值点（可能实际上当微分值小于某一个数值就停下来了，并不是极值点）

作业————PM2.5预测

参考资料

李宏毅机器学习笔记

李宏毅机器学习视频课

[机器学习入门] 李宏毅机器学习笔记-3 （Gradient D
[机器学习入门] 李宏毅机器学习笔记-3 （Gradient Descent ；梯度下降） Review 梯度下降...
李宏毅机器学习——误差和梯度下降
误差误差的来源在机器学习中，误差=偏差+方差(Error=Bias+Variance)。 Error反映整个模...
[机器学习入门] 李宏毅机器学习笔记-4（Where does
[机器学习入门] 李宏毅机器学习-4（Where does the error come from? ；误差分析）...
T7-总结
通过学习李宏毅老师的课程，明白了为什么要学习机器学习，对机器学习有了一定的了解。重温了回归、梯度下降等经典方法和模...
《李宏毅 - 深度学习》笔记
学习资源视频：李宏毅深度学习完整版别人的中文笔记：李宏毅机器学习笔记(LeeML-Notes)李宏毅机器学习笔...
李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gr
引言：这个系列的笔记是台大李宏毅老师机器学习的课程笔记视频链接（bilibili）：李宏毅机器学习(2017)另...
[机器学习入门] 李宏毅机器学习笔记-5（Classificat
[机器学习] 李宏毅机器学习笔记-5（Classification: Probabilistic Generati...
[李宏毅机器学习]系列文章
介绍本系列文章为台湾大学李宏毅老师机器学习课程的个人学习笔记。参考资料 datawhale-李宏毅机器学习笔记...
[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervi
[机器学习入门] 李宏毅机器学习笔记-15 （Unsupervised Learning: WordEmbeddi...
[机器学习入门] 李宏毅机器学习笔记-24（introducti
[机器学习入门] 李宏毅机器学习笔记-24（introduction of Structured Learning...