Pytorch-反向传播

作者: 残剑天下论 | 来源:发表于2020-02-11 14:58 被阅读0次

手推CNN，DNN算法流程和反向传播
神经网络之反向传播（BP）算法代码实现
Deep learning-Lecture 2
神经网络之反向传播算法（BP）详细公式推导
神经网络
反向传播算法之要点(Backpropagation)
机器学习基础之反向传播
TensorFlow系列专题（五）：BP算法原理
神经网络的反向传播算法
反向传播

在以前的章节中介绍多输出单层感知机的求导：

$j$ 的取值为 $0,1,..., n$ ; $k$ 的取值为 $0, 1, ..., m$ ;
$\frac{\partial E}{\partial w_{jk}}$ 只与 $O_k$ 、 $t_k$ 以及 $x_j^0$ 有关；
通过该公式可以计算出所有的导数 $\frac{\partial E}{\partial w_{(j=\{0, ..., n\})(k=\{0, ..., m\})}}$ ;
我们就假定 $w^1_{jk}$ 是属于第一层 $x^1$ 的权重；

接下来讨论多层感知机的反向传播过程：

我们可以轻易求出 $K$ 层所有的权重 $w_{jk}^{K}$ 的导数

我们可以将 $J$ 层的输出 $O^{J}_{i}$ 当作多输出单层感知机中的输入层，这样根据如下公式 $\frac{\partial E }{\partial w_{jk}^K } = (O_k - t_k)O_k(1 - O_k)O_j^{J}$ ，轻易求出 $K$ 层所有的权重 $w_{jk}^{K}$ 的导数。

令 $\delta _{k}^{K} = (O_k - t_k)O_k(1 - O_k)$ ，则有
$\frac{\partial E }{\partial w_{jk}^K } = \delta _{k}^KO_j^{J} ，（1）$

接着求 $J$ 层所有的权重 $w_{ij}^{J}$ 的导数

$E = \frac{1}{2} \sum_{k=0}^{m} (O^K_{k} - t_k)^2，（2）$

$\frac{\partial E}{\partial w_{ij}^{J}} = \sum_{k=0}^{m} (O^K_{k} - t_k) \frac{\partial O^K_{k}}{\partial w_{ij}^{J}} ，（3）$

$\frac{\partial E}{\partial w_{ij}^{J}} = \sum_{k=0}^{m} (O^K_{k} - t_k) \frac{\partial O^K_{k}}{\partial x^K_{k}} \frac{\partial x^K_{k}}{\partial w_{ij}^{J}} = \sum_{k=0}^{m} (O^K_{k} - t_k) \sigma (x^K_{k}) (1 - \sigma (x^K_{k})) \frac{\partial x^K_{k}}{\partial w_{ij}^{J}} ，（4）$

$\frac{\partial E}{\partial w_{ij}^{J}} = \sum_{k=0}^{m} (O^K_{k} - t_k) O^K_{k} (1 - O^K_{k})\frac{\partial x^K_{k}}{\partial w_{ij}^{J}} ，（5）$
对于式(5)，前向传播可计算出 $\sigma (x^K_{k}) = O^K_{k}$ 。

$\frac{\partial E}{\partial w_{ij}^{J}} = \sum_{k=0}^{m} (O^K_{k} - t_k) O^K_{k} (1 - O^K_{k}) \frac{\partial x^K_{k}}{\partial O^J_{j}} \frac{\partial O^J_{j}}{\partial w_{ij}^{J}}，（6）$

$\frac{\partial E}{\partial w_{ij}^{J}} = \sum_{k=0}^{m} (O^K_{k} - t_k) O^K_{k} (1 - O^K_{k}) w^K_{jk} \frac{\partial O^J_{j}}{\partial w_{ij}^{J}}，（7）$

$\frac{\partial E}{\partial w_{ij}^{J}} = \frac{\partial O^J_{j}}{\partial w_{ij}^{J}} \sum_{k=0}^{m} (O^K_{k} - t_k) O^K_{k} (1 - O^K_{k}) w^K_{jk} ，（8）$

对于式（8）， $\frac{\partial O^J_{j}}{\partial w_{ij}^{J}} = \frac{\partial O^J_{j}}{\partial x^J_{j}} \frac{\partial x^J_{j}}{\partial w_{ij}^{J}} = O^J_{j}(1 - O^{J}_j)x_i^{0}$

所以有，
$\frac{\partial E}{\partial w_{ij}^{J}} = x_i^{0} O^J_{j}(1 - O^{J}_j)\sum_{k=0}^{m} (O^K_{k} - t_k) O^K_{k} (1 - O^K_{k}) w^K_{jk} ，（9）$

对于式(9)，显然其中的 $x_i^{0}$ 表示 $J$ 层前一层的输出，可以更通用的表示为 $O_i^{I}$

则有，

$\frac{\partial E}{\partial w_{ij}^{J} } = O_i^{I} O^J_{j}(1 - O^{J}_j)\sum_{k=0}^{m} (O^K_{k} - t_k) O^K_{k} (1 - O^K_{k}) w^K_{jk} ，（10）$

将 $\delta _{k}^{K} = (O_k - t_k)O_k(1 - O_k)$ 带入(10)，则有

$\frac{\partial E}{\partial w_{ij}^{J} } = O_i^{I} O^J_{j}(1 - O^{J}_j)\sum_{k=0}^{m} \delta _{k}^{K} w^K_{jk} ，（11）$

在式（11）中可以看出，对 $J$ 层的权重求导，与 $J$ 层前一层的输出、 $J$ 层的输出、 $J$ 层后一层的输出、 $J$ 层的权重有关。依次类推，便可以从后往前，计算出所有层的权重导数。

反向传播总结

反向传播，从输出层权重开始，从后往前计算权重的导数；
输出层的权重导数：

对于输出层的每一个节点 $k \in K$ ，有

$\frac{\partial E}{\partial w_{jk}} = O_j \delta_{k}$

其中， $\delta_{k} = O_k (1 - O_k) (O_k - t_k)$

隐藏层的权重导数：

对于隐藏层的一个节点 $j \in J$ ，有

$\frac{\partial E}{\partial w_{ij}} = O_i \delta_{j}$

其中， $\delta_{j} = O_j (1 - O_j) \sum_{k=0}^{m} \delta _{k} w_{jk}$

手推CNN，DNN算法流程和反向传播
DNN 反向传播 DNN算法流程卷积层反向传播池化层反向传播 C NN算法流程
神经网络之反向传播（BP）算法代码实现
反向传播算法实战本次的反向传播算法是基于上篇文章神经网络之反向传播算法（BP）详细公式推导实现的，如果对反向传播...
Deep learning-Lecture 2
*反向传播 *Word representation *Sequence modeling *反向传播 Revie...
神经网络之反向传播算法（BP）详细公式推导
反向传播算法详细推导反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种...
神经网络
神经网络的正向&&反向传播通过正向传播后得到的误差来进行反向传播，反向传播时通过求导的方式更新权值，获得误差更小...
反向传播算法之要点(Backpropagation)
反向传播算法之要点(Backpropagation Algorithm) Introduction 反向传播是一个...
机器学习基础之反向传播
机器学习基础二-反向传播神经网络之所以可以训练，得益于与Hinton在1986年提出的反向传播算法。反向传播背后...
TensorFlow系列专题（五）：BP算法原理
一．反向传播算法反向传播算法[1]（Backpropagation Algorithm，简称BP算法）是深度学习...
神经网络的反向传播算法
1. 前言本文为学习反向传播算法时的总结。 2. 反向传播算法 2.1 示例及初始数据举例说明反向传播算法的计...
反向传播
如何让多层神经网络学习呢？我们已了解了使用梯度下降来更新权重，反向传播算法则是它的一个延伸。以一个两层神经网络为例...