动量梯度下降

动量梯度下降与梯度下降相比,就是对梯度使用指数加权平均,其他的都保存一致。

Vdw=\beta Vdw+(1-\beta)dw

Vdb=\beta Vdb+(1-\beta)db

dw与db表示本次迭代的梯度,Vdw和Vdb表示指数加权平均的梯度。


如果不用指数加权平均的话,每次迭代更新使用的梯度都只与本次迭代的样本有关,每次迭代的样本有好有坏,会使迭代接近最小值的不断波动,导致下降速度慢。加入指数加权平均后,本次梯度影响减少,波动情况也就会减小,直观上面理解就是左右波动抵消,那么下降速度也就自然更快。动量梯度下降比梯度下降收敛速度要快。

物理意义理解:在下降的过程中, (1-\beta)dw 相当于加速度, \beta Vdw 相当于摩擦,加速度可以是下降加快,而摩擦不会让加速一直进行下去。(不是很理解)

引入一个参数: \beta ,一般去0.9效果就会不错,具体意义可以参见指数加权平均那篇文章。

编辑于 2017-11-04