当前位置: 代码迷 >> 综合 >> SGD,Momentum,Adagard,Adam的原理
  详细解决方案

SGD,Momentum,Adagard,Adam的原理

热度:4   发布时间:2024-02-21 16:41:22.0

SGD为随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行更新。

Momentum参考了物理中动量的概念,前几次的梯度也会参与到当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。

Adagard在训练的过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习率与以往的参数模和的开方反比

Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,在经过偏置的校正后,每一次迭代后的学习率都有个确定的范围,使得参数较为平稳。

  相关解决方案