SGD，Momentum，Adagard，Adam的原理

热度：4 发布时间：2024-02-21 16:41:22.0

SGD为随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行更新。

Momentum参考了物理中动量的概念,前几次的梯度也会参与到当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。

Adagard在训练的过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习率与以往的参数模和的开方成反比。

Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,在经过偏置的校正后,每一次迭代后的学习率都有个确定的范围,使得参数较为平稳。

查看全文

相关解决方案

adam-4024的DI口如何用
梯度优化 SGD， BGD，MBD，Adagrad，Adadelta，Momentum，NAG，牛顿法
优化方法总结：Adam那么棒，为什么还对SGD念念不忘? (SGD，Adagrad，Adadelta，Adam，Adamax，Nadam)
【超详细】对比10种优化函数BGD、SGD、mini-batch GD、Momentum、NAG、Adagrad、RMSProp、Adadelta、Adam、AMSgrad
tensorflow中各种优化器解析（SGD、Momentum、Adam等）
【代码】优化算法BGD、SGD、Momentum、Adam算法python实现
深度学习框架tensorflow学习与应用6（优化器SGD、ADAM、Adadelta、Momentum、RMSProp比较）
torch.optim.Adam(parameters, lr)什么含义
【论文】Adam
神经网络优化算法：梯度下降法、Momentum、RMSprop和Adam
SGD、Momentum、RMSProp、Adam等优化算法比较
【调参炼丹】深度学习中优化方法对比（BGD,SGD,Mini-batch gradient descent，Momentum, RMSProp, Adam）
【推荐算法】常见优化算法总结（BGD、SGD、Momentum、Nesterov、Adagrad、AdaDelta、Adam）
Tensorflow入门教程(三十三)优化器算法简介（Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）
梯度下降法及其优化算法(优化器Momentum,Adagrad,Adadelta,Adam)
《机器学习从入门到入职》-不同梯度下降算法的比较-‘sgd‘, ‘rmsprop‘, ‘adagrad‘, ‘adadelta‘, ‘adam‘, ‘nadam‘
[work] 深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）
[work] 优化方法总结：SGD，Momentum，AdaGrad，RMSProp，Adam
基于Pytorch的深度学习优化器(Adagrad/RmsProp/Momentum/Adam)的总结分析
pytorch学习笔记（三十七）：Adam
SGD，Momentum，Adagard，Adam的原理
Momentum Contrast for Unsupervised Visual Representation Learning
不同算法的差异SGD/AdaGrad/AdaDelta/Adam/Nadam