1. 判断梯度下降是否收敛
上图是梯度下降算法的公式,在公式中不难看出α的选择至关重要。
回想一下,梯度下降的任务就是找到能够使得代价函数J最小化的参数w和b。
有两种方式来判断梯度下降是否收敛:
1.1 做一个学习曲线图
1.2 自动收敛测试
使得 ε = 0.001 当每次梯度下降的幅度小于ε 那么我们就认为J函数接近最小值了。
2. 如何设置学习率
学习率要设置的刚好才行,如果太小,梯度学习运行太慢,如果太大,可能永远都不会收敛。
如果梯度下降执行时候发现J忽大忽小,或者说并没有逐步的减小,那么就要判断是α选择的过大还是过小的问题。
选择学习率的时候,我们可以从0.001开始尝试,每次三倍的增加尝试,之后是0.003,0.01,0.03。
直到找到一个合适的学习率。既不小的导致梯度下降过慢,也不大的反复横跳忽大忽小。









网友评论