讲师博文
动量方法与Adam优化器的比较 来源 : 华清远见     2025-02-20

优化器(optimizer)

目标:  最小化损失函数

过程: 在反向传播中,  根据学习率(lr)来对参数进行更新,最终逐步降低损失函数的大小, 使得神经网络输出更好(函数拟合的更好)


优点:

1. 前后梯度一致时能够加速学习

2. 前后梯度不一致时能够抑制震荡, 越过局部最小值

缺点:

1. 引入一个额外的参数 y

思想: 结合Momentum和RMSprop两种优化器的算法, 并引入一阶矩估计和二阶矩估计。

优点:

1. Adam能够自动调整每个参数的学习率, 能够很好地处理噪声和非平稳的训练数据

2. 相较于其他可变学习率(AdaGrad)的优化器, 提高了训练速度

总结:

如果在未知模型上进行训练, 可以先考虑使用Adam确保损失函数能够找到最小值, 即模型拟合的函数能够收敛,然后切换回SGD进行训练, 快速达到对应的值。

扫码申领本地嵌入式教学实录全套视频及配套源码

上一篇:一文读懂基于压缩感知的数据压缩技术

下一篇:没有了

400-611-6270

Copyright © 2004-2024 华清远见教育科技集团 版权所有
京ICP备16055225号-5京公海网安备11010802025203号