优化器演进笔记:从动量梯度下降到 AdamWMay 03, 2026Deep LearningOptimizerAdamAdamWTech Blog系统梳理深度学习优化器的演进路径:动量梯度下降抑制震荡、RMSProp 自适应步长、Adam 融合二者、AdamW 解耦权重衰减。