美文网首页
优化函数框架

优化函数框架

作者: ltochange | 来源:发表于2021-08-02 23:19 被阅读0次

框架

该总结框架来自知乎文章:一个框架看懂优化算法之异同 SGD/AdaGrad/Adam

给定参数w,损失函数f(w), 学习率 \alpha,对于第t个step:

  1. 计算目标函数关于当前参数的梯度: g_{t}=\nabla f\left(w_{t}\right)
  2. 根据历史梯度,计算一阶动量和二阶动量:
    一阶动量:m_{t}=\phi\left(g_{1}, g_{2}, \cdots, g_{t}\right)
    二阶动量:V_{t}=\psi\left(g_{1}, g_{2}, \cdots, g_{t}\right)
  3. 计算当前时刻的下降梯度:\quad \eta_{t}=\alpha \cdot m_{t} / \sqrt{V_{t}}
  4. 根据下降梯度更新参数: w_{t+1}=w_{t}-\eta_{t}

其中:

一阶动量:当前时刻梯度值的指数移动平均
m_{t}=\phi\left(g_{1}, g_{2}, \cdots, g_{t}\right) =\beta m_{t-1}+(1-\beta) g_{t}

二阶动量:之前所有时刻梯度值的平方和

V_{t}=\psi\left(g_{1}, g_{2}, \cdots, g_{t}\right)=\sum_{i=1}^{t} g_{i}^{2}

相关文章

网友评论

      本文标题:优化函数框架

      本文链接:https://www.haomeiwen.com/subject/iflsvltx.html