当前位置: 首页 > news >正文

Adaptive Learning Rate(自适应学习率) - -一叶知秋

Adaptive Learning Rate(自适应学习率)

Adaptive Learning Rate(自适应学习率) 是指在模型训练过程中,学习率会根据参数更新的反馈自动调整,而不是使用一个固定值。其核心思想是:
👉 不同参数或不同训练阶段,最优的学习率应该不同。

当 Loss 不在下降,Gradient 不一定是 0

而是梯度太大,在最低的 Loss 中徘徊image-20251016105805233

不同的参数需要不同的学习速率

different parameters needs different learning rate

在深度学习中,模型的各层参数承担的角色不同,它们的梯度分布、敏感度、训练目标往往不一样。
如果所有参数都用同一个学习率,会导致:

  • 有的参数更新太快,导致训练不稳定;
  • 有的参数更新太慢,导致收敛变慢甚至停滞。

因此,针对不同参数设定不同学习率,可以让模型收敛更平稳、更快。

Root Mean Square

i 是第 i 个参数,上角标是第几次更新

平方和相加取平均在开根号

image-20251020174027543

RMSProp

加上一个参数控制权重

image-20251020174608401

目前常用的

image-20251020174829143

横向累计了很多,当累计到一定程度的时候,就暴走了产生纵向的

image-20251020175510545

解决上面的办法:加入 $n^t$,随着时间 $n^t$ 逐渐变小,学习率变小

image-20251020175543403

Warm Up

黑科技(目前没有权威解释):先增加,再减小

其中一个解释:先开始很小探索周围,逐渐扩大,然后再慢慢变小收到 Loss 低点

image-20251020180424905

http://www.zskr.cn/news/25642.html

相关文章:

  • 新学期每日总结(第12天)
  • 17 线程的创建
  • 2025.10.20总结 - A
  • 一般公共预算收入 + 全国政府性基金收入
  • 傻瓜式处理kauditd0病毒程序记录
  • 软件工程第二次团队作业
  • 好用的网址
  • 低代码赋能业务创新:打破数字鸿沟,释放业务潜能
  • 10/20/2025杂题 关于在线性时间内求解低次多项式的幂
  • 计算机毕业设计 基于EChants的海洋气象数据可视化平台设计与建立 Python 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】
  • ZR 2025 NOIP 二十连测 Day 5
  • 关于单片机内部ADC采样率,采样精度的理解与计算整理 - 实践
  • Mac版PDF Squeezer v4.5.1安装教程(DMG文件下载+详细步骤)​
  • 详细揭秘:马拉车算法
  • 黑马程序员Java基础笔记
  • 实用指南:linux磁盘空间爆满排查与清理
  • 详细介绍:从零开始的C++学习生活 2:类和对象(上)
  • 【aigc】chrome-devtools-mcp怎么玩? - 指南
  • 记账:流水报表
  • 英伟达微型AI工作站的架构解析与性能突破
  • 20232418 2025-2026-1 《网络与系统攻防技术》实验二实验报告
  • CF1777E Edge Reverse
  • 2025年市面上高杆灯品牌前十强推荐榜:选购指南与行业洞察
  • 2025年国内高杆灯十大品牌权威推荐榜单
  • 2025年市面上高杆灯品牌及国内公司推荐榜单
  • 2025年给汤机/重力铸造自动化/机加工自动化厂家推荐榜单:专业设备与智能解决方案权威解析
  • 2025年发电机厂家权威推荐榜:柴油发电机组/康明斯/玉柴/高压/大功率发电机组专业选购指南
  • 强网杯s9初赛 PolyEncryption wp
  • 目标检测概述 - 实践
  • 基于TPS5450DDAR的24V转12V降压电路设计