PyTorch学习笔记5 实现L1，L2正则化以及Dropout

作者: 小新_XX | 来源:发表于2019-04-14 21:11 被阅读0次

Pytorch 任务五
PyTorch学习笔记5 实现L1，L2正则化以及Dropout
深度学习dropout作用与原理
pytorch实现L2和L1正则化regularization的
正则化方法
标签平滑 Label Smoothing 详解及 pytorch
吴恩达深度学习笔记(32)-Dropout正则化Dropout
防止过拟合
Logistic模型及其Scikit-learn实现
DL4J中文文档/开始/速查表-2

本期作业主要涉及深度学习中的几个技巧：L1, L2正则化以及dropout。

1. L1, L2正则化

1.1 正则化的概念

在机器学习中，正则化的主要目的是防止训练出现过拟合的情况。当我们采用经验风险最小化(Empirical Risk Minimization, ERM, 如极大似然估计）原则来优化模型时，如果样本容量不够大，模型很容易学习到数据的一些无关特征（噪声等），造成过拟合的现象。结构风险最小化(Structural Risk MInimization, SRM)就是针对过拟合问题而提出的策略。SRM等价与于正则化, 即在ERM的损失函数上加上表示模型复杂度的正则化项(regularization).可以用如下公式表示：
$R_{srm}(f) = \frac{1}{N}\sum_{i=1}^{N}L(y_{i}, f(x_{i})) + \lambda J(f) \tag{1})$
这里第一部分是经验风险，即通常意义上的误差函数； $J(f)$ 是正则化项，代表模型的复杂度； $\lambda \geqslant 0$ 是系数，用来权衡经验风险和模型复杂度。加入正则化项后，我们使用结构风险最小化的策略来优化模型：即预测结果需要（1）中的第一项和第二项同时小，才能获得较好的预测精度，有效地防止了因模型复杂度太高而导致的过拟合问题。

1.2 L1 和L2正则化

1.2.1 概念

L1和L2正则化是最常用的正则化方法。网上关于这两种方法的介绍很多，下面按照PRML(<<Pattern Recognition and Machine learning>> )一书中的思路来解释一下这两种正则化的方法。
考虑一个多项式回归问题，待回归函数为:
$y(x, \mathbf w) = w_{0} + w_{1}x + w_{2}x^{2} + ... + w_{M}x^{M} = \sum_{j=1}^{M}w_{j}x^{j}\tag{2}$
当我们使用经验误差最小化的方法来解决回归问题，其平方误差函数为
$E(\mathbf w )=\frac{1}{2}\sum_{n=1}^{N}\{y(x_{n}, \mathbf w )-t_{n}\}\:^2\tag{3}$
一般来说，我们会在误差项上加入一个惩罚项（正则化项）来防止过拟合，如式(4)中所示：
$E(\mathbf w )'=J_{0} +\frac{\lambda}{2}\sum_{j=1}^{M}|w_{j}|^{q}\tag{4}$
其中 $J_{0}$ 为(3)中的经验风险函数 $J_{0} = \frac{1}{2}\sum_{n=1}^{N}\{y(x_{n}, \mathbf w )-t_{n}\}\:^2$ .
当 $q=1$ 时，正则化项是参数 $w$ 的L1范数时，称之为L1正则化；当 $q=2$ 时，正则化项是参数 $w$ 的L2范数时，称之为L2正则化，

在线性回归问题中，L1正则化又称为Lasso回归；L2正则化，又称为Ridge回归。

1.2.2 L1正则化和权值稀疏

L1正则化可以使得学到的模型权值矩阵较为稀疏，有助于特征选择，去除无用特征。下面介绍其原理。
最小化结构风险(4)相当于在正则化项不超过一个门限值 $\eta$ 的前提下最小化经验风险 $J_{0}$ .即：
$\begin{equation}\begin{split} \mathbf {Minimize} \:\:\:\:\:\:\:\:J_{0}\\ s.j. \:\:\frac{\lambda}{2}\sum_{j=1}^{M}|w_{j}|^{q} < \eta \end{split}\end{equation} \tag{5}$
假设 $\mathbf w\:\:$ 是二维函数，即 $\mathbf w=(w_{1}, w_{2})$ .我们画出经验损失函数 $J_{0}$ 和L1损失项 $\frac{\lambda}{2}|\mathbf w|\:\:$ 的图像如下：

图1 损失函数和正则化项图([1])
由图1所示，蓝色的线表示的等值线，在原点处的图形表示正则化项的图像：
左图表示L2正则化, 右图表示L1正则化项. 当的等值线第一次和正则化项的轮廓相交时，结构风险(4)达到最小值。我们可以看到，当时，正则化项的图像是一个矩形，其最小值在轴上取到，即。这是在二维空间中的情况，当我们扩展到高维空间时，会有更多的分量为0，因此采用L1正则化后学习得到的参数是一个很多分量为0的稀疏矩阵。至于L2正则化，正则化项的图像是一个圆形，和等值线的交点一般不会在坐标轴上，降低了分量为0的可能性，因此不具备稀疏性的特征。

1.2.2 L2正则化和权值衰减

如果采用梯度下降法进行线性回归，则权值更新的公式为：
$\mathbf w = \mathbf w - \alpha\frac{d \mathbf E}{d\mathbf w}\tag{7}$
其中 $\mathbf E$ 为正则化项。当采用L2正则化时，公式(7)中的导数项为 $\mathbf w$ 的一次函数。每次更新权值时，相当于从原有的 $\mathbf w$ 中移除了 $x\%$ ,使得 $\mathbf w$ 向着0靠近。因此L2正则化又被称为权值衰减(weight decay).

2. Dropout(随机失活)

2.1 dropout简介

Dropout是神经网络中一个正则化方法，能够有效地防止过拟合的情况。dropout的具体方法如下：在训练阶段，随机地以概率 $p$ 让一部分神经元激活，另一部分神经元被“丢弃”；在测试阶段，每一个单元的输出要乘以 $p$ ，来得到相同scale的输出。如图2和图3所示：

图2 dropout示意图[2]

图3 训练阶段和测试阶段[3]

2.2 inverted dropout

在目前的深度学习研究中，另外一种反向dropout (inverted dropout)方法更为流行，具体做法为：

在训练，执行了dropout的层，其输出激活之要除以 $p$
在测试阶段不执行任何操作

其实传统的dropout和inverted dropout在数学原理上是一样的，采用inverted dropout的优点是可以不用改动测试阶段的网络结构。一般来说在测试阶段，网络已经训练好了，为了更快的得到测试结果，把dropout的操作放在训练过程，更有实用意义。而且inverted dropout只有训练阶段需要调整参数 $p$ ，而传统dropout在训练和测试两个阶段都要同时调整参数 $p$ ，比较麻烦。

2.3 dropout为什么能够防止过拟合

关于dropout为什么有效，有两种观点可以解释

ensemble learning
dropout相当于ensemble learning的机制。每次dropout后得到的模型都不同，相当于每次训练一个不同的网络。最后将不同的模型进行ensemble, 可以有效地防止过拟合。
减少神经元之间复杂的共适应关系
dropout强迫一个神经单元，和随机挑选出来的其他神经单元共同工作，减弱了神经元节点间的联合适应性，迫使网络去学习更加鲁棒的特征，增强了泛化能力。换句话说假如我们的神经网络是在做出某种预测，它不应该对一些特定的线索片段太过敏感，即使丢失特定的线索，它也应该可以从众多其它线索中学习一些共同的模式。从这个角度看，dropout类似于L1正则化，使某些权重 $\mathbf w$ 为0从而可以学习更加鲁棒的特征。

参考文献

[1] <<Pattern Recognition and Machine Learning>>, C. M. Bishop
[2] 百度百科，“随机失活”词条
[3] https://blog.csdn.net/stdcoutzyx/article/details/49022443

Pytorch 任务五
PyTorch实现L1，L2正则化以及Dropout
PyTorch学习笔记5 实现L1，L2正则化以及Dropout
本期作业主要涉及深度学习中的几个技巧：L1, L2正则化以及dropout。 1. L1, L2正则化 1.1 正...
深度学习dropout作用与原理
Dropout 作用：避免过拟合。 Dropout与L1和L2正则化区别： L1和L2正则化通过在损失函数上增加...
pytorch实现L2和L1正则化regularization的
pytorch实现L2和L1正则化regularization的方法 ————————————————版权声明：本...
正则化方法
正则化的作用正则化是为了防止过拟合采取的策略，主要的正则化方法有L1、L2、dropout、dropconnec...
标签平滑 Label Smoothing 详解及 pytorch
定义标签平滑（Label smoothing），像L1、L2和dropout一样，是机器学习领域的一种正则化方法...
吴恩达深度学习笔记(32)-Dropout正则化Dropout
dropout 正则化（Dropout Regularization）除了L2正则化，还有一个非常实用的正则化方...
防止过拟合
方法有三： L1和L2正则 Dropout early stop 1. L1和L2正则：模型权重越小，复杂度越低...
Logistic模型及其Scikit-learn实现
penalty:正则化参数，可选l1或l2，分别对应l1正则化和l2正则化，默认为l2正则化。一般来说l2正则化可...
DL4J中文文档/开始/速查表-2
正则化 L1/L2 正则化 L1和L2正则化可以容易地通过配置：.l1(0.1).l2(0.2)添加到网络中。注意...

PyTorch学习笔记5 实现L1，L2正则化以及Dropout

1. L1, L2正则化

1.1 正则化的概念

1.2 L1 和L2正则化

1.2.1 概念

1.2.2 L1正则化和权值稀疏

1.2.2 L2正则化和权值衰减

2. Dropout(随机失活)

2.1 dropout简介

2.2 inverted dropout

2.3 dropout为什么能够防止过拟合

参考文献

相关文章

Pytorch 任务五

PyTorch学习笔记5 实现L1，L2正则化以及Dropout

深度学习dropout作用与原理

pytorch实现L2和L1正则化regularization的

正则化方法

标签平滑 Label Smoothing 详解及 pytorch

吴恩达深度学习笔记(32)-Dropout正则化Dropout

防止过拟合

Logistic模型及其Scikit-learn实现

DL4J中文文档/开始/速查表-2

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读