一些符号:
m:训练集数量
x:输入 y:输出
(x,y):一个样本
第i个输入
第i个输出
模型参数
假设函数
学习率
代价函数:
(此处为:平方误差代价函数)
至于为什么乘以1/2,是为了在求偏导时约去2,也有人说是为了降低极端值的影响
梯度下降:
始于某一点,then
repeat until 收敛{
(j=0或j=1)
}
如图,在向最小值下降的过程中,斜率越来越接近于0,变化的速度越来越慢。故一般不需要改变的值
过小会导致收敛速度很慢,过大会导致无法收敛或发散:
image.png
<注意>同步更新:
错误:
第二行要影响第三行














网友评论