首发于深度学习

深度学习优化算法总(SGD,AdaGrad,Adam等)

动量(Momentum)算法

带动量的 SGD

引入动量(Momentum)方法一方面是为了解决“峡谷”和“鞍点”问题;一方面也可以用于SGD 加速,特别是针对高曲率、小幅但是方向一致的梯度。

  • 如果把原始的 SGD 想象成一个纸团在重力作用向下滚动,由于质量小受到山壁弹力的干扰大,导致来回震荡;或者在鞍点处因为质量小速度很快减为 0,导致无法离开这块平地。
  • 动量方法相当于把纸团换成了铁球;不容易受到外力的干扰,轨迹更加稳定;同时因为在鞍点处因为惯性的作用,更有可能离开平地。
  • 动量方法以一种廉价的方式模拟了二阶梯度(牛顿法)

参数更新公式

\begin{array}{l}{v_{t}=\alpha v_{t-1}-\epsilon g_{t}} \\ {\Delta \theta \leftarrow v_{t}} \\ {\theta_{t+1} \leftarrow \theta_{t}+\Delta \theta}\end{array}

g_t 为梯度

  • 从形式上看, 动量算法引入了变量 v 充当速度角色,以及相相关的超参数 α(0.9)。
  • 原始 SGD 每次更新的步长只是梯度乘以学习率;现在,步长还取决于历史梯度序列的大小和排列;当许多连续的梯度指向相同的方向时,步长会被不断增大;

动量算法描述


  • 如果动量算法总是观测到梯度 g,那么它会在 −g 方向上不断加速,直到达到最终速度v \leftarrow \alpha v-\epsilon g \quad \Rightarrow \quad v \leftarrow \frac{-\epsilon g}{1-\alpha}
  • 在实践中, α 的一般取 0.5, 0.9, 0.99,分别对应最大 2 倍、10 倍、100 倍的步长
  • 和学习率一样,α 也可以使用某种策略在训练时进行自适应调整;一般初始值是一个较小的值,随后会慢慢变大。自适应学习率的优化方法

NAG 算法(Nesterov 动量)

  • NAG 把梯度计算放在对参数施加当前速度之后
  • 这个“提前量”的设计让算法有了对前方环境“预判”的能力。Nesterov 动量可以解释为往标准动量方法中添加了一个修正因子
  • NAG 算法描述


自适应学习率的优化算法

AdaGrad

  • 该算法的思想是独立地适应模型的每个参数具有较大偏导的参数相应有一个较大的学习率,而具有小偏导的参数则对应一个较小的学习率
  • 具体来说,每个参数的学习率会缩放各参数反比于其历史梯度平方值总和的平方根
  • AdaGrad 算法描述


    • 注意:全局学习率 ϵ 并没有更新,而是每次应用时被缩放


AdaGrad 存在的问题

  • 学习率是单调递减的,训练后期学习率过小会导致训练困难,甚至提前结束
  • 需要设置一个全局的初始学习率

RMSProp

  • RMSProp 主要是为了解决 AdaGrad 方法中学习率过度衰减的问题—— AdaGrad 根据平方梯度的整个历史来收缩学习率,可能使得学习率在达到局部最小值之前就变得太小而难以继续训练;
  • RMSProp 使用指数衰减平均(递归定义)以丢弃遥远的历史,使其能够在找到某个“凸”结构后快速收敛;此外,RMSProp 还加入了一个超参数 ρ 用于控制衰减速率。
  • 具体来说(对比 AdaGrad 的算法描述),即修改 r
    r \leftarrow \mathbb{E}\left[g^{2}\right]_{t}=\rho \cdot \mathbb{E}\left[g^{2}\right]_{t-1}+(1-\rho) \cdot g^{2}
    R M S[g]_{t}=\sqrt{\mathbb{E}\left[g^{2}\right]_{t}+\delta}
    \Delta \theta_{t}=-\frac{\epsilon}{R M S[g]_{t}} \odot g_{t}
    其中 E 表示期望,即平均;δ 为平滑项,具体为一个小常数,一般取 1e-8 ~ 1e-10(Tensorflow 中的默认值为 1e-10
  • RMSProp 建议的初始值:全局学习率 ϵ=1e-3,衰减速率 ρ=0.9
  • RMSProp 算法描述


  • Nesterov 动量RMSProp


  • 经验上,RMSProp 已被证明是一种有效且实用的深度神经网络优化算法。
  • RMSProp 依然需要设置一个全局学习率,同时又多了一个超参数(推荐了默认值)。

Adam

  • Adam 在 RMSProp 方法的基础上更进一步:
    • 除了加入历史梯度平方的指数衰减平均r)外,
    • 还保留了历史梯度的指数衰减平均s),相当于动量
    • Adam 行为就像一个带有摩擦力的小球,在误差面上倾向于平坦的极小值。
  • Adam 算法描述

偏差修正

  • 注意到,sr 需要初始化为 0;且 ρ1ρ2 推荐的初始值都很接近 10.90.999
  • 这将导致在训练初期 sr 都很小(偏向于 0),从而训练缓慢。
  • 因此,Adam 通过修正偏差来抵消这个倾向。
发布于 2019-04-10

文章被以下专栏收录