当前位置：首页 > news >正文

为什么 MoE 模型的 RL 训练比 Dense 模型难得多？

news 2026/6/12 1:35:59

从 VERL 源码出发，拆解 MoE 强化学习训练的五重困境

**本文要点：**MoE 模型的 RL 训练面临 Dense 模型不存在的五重结构性挑战——路由不一致、IS ratio 失效、辅助损失冲突、Router 更新困境、显存与通信压力。本文基于 VERL 框架源码（github.com/volcengine/verl）及 arXiv:2510.11370、2510.23027、2507.18071 等最新论文，给出具体证据与当前工程解法。

01 引言：一次让 MoE 跌破 base 模型的 RL 实验

2025 年 10 月，两篇独立发表的论文同时报告了一个令人不安的现象：

对Qwen3-30B-A3B（MoE 架构）直接使用 GRPO 做 RL 训练，最终均分从 base 模型的74.2掉到了71.5——训练完比没训还差。RSPO 论文（arXiv:2510.23027）同期记录了 MoE 模型在 GRPO 训练后期出现 reward 明显下滑的崩溃现象。

同样的 GRPO 算法，作用在 Qwen3-8B（Dense 模型）上效果相当稳定。

MoE 模型的 RL 训练，究竟遭遇了哪些 Dense 模型不会碰到的特有问题？

MoE 架构回顾

MoE 用一个**路由网络（Router）**在每个 token 上动态选择少量专家（Expert）：

Router(x) → top-K experts → Weighted sum of expert outputs

以 DeepSeek-V3 为例：671B 总参数，每个 token 激活约 37B，使用 top-8/256 路由。这带来计算稀疏性，但并不带来内存稀疏性——所有专家权重需要分片存储在 GPU 集群的显存中，无法像计算那样按 token 稀疏激活来省去存储开销。

正是这个"离散路由 + 全量存储"的设计，在 RL 训练中引发了一系列连锁反应。

· · ·

02 挑战一：训练与推理的路由不一致（最核心的问题）

🔀 Train-Inference Router Mismatch

为什么 RL 会暴露这个问题？

RL 训练的典型流程分两个阶段：

Rollout（推理阶段）
：用 vLLM / SGLang 高效采样，生成轨迹
Training（训练阶段）
：用 Megatron-LM 计算梯度，更新参数

PPO/GRPO 的标准重要性采样（IS）比值是：

rt(θ) = πθ(yt | x, y<t) / πθ_old(yt | x, y<t)

分子是当前策略（训练中），分母是生成 rollout 数据时的旧策略。理论上，分母 πθ_old 应该与 rollout 时实际计算出的概率完全一致。

但 RL 训练的架构决定了这个等式在 MoE 模型上会被打破：rollout 由 vLLM / SGLang 执行，而重新计算 πθ_old 时用的是 Megatron 训练引擎。两套引擎对完全相同的参数和输入，可能给出不同的专家路由决策——CUDA 核实现差异、浮点非确定性、tie-breaking 规则不同，都可能导致路由翻转。一旦翻转，该 token 被完全不同的专家处理，Megatron 算出的 πθ_old 与 rollout 时的实际概率产生跳跃式偏差，IS ratio 随之失效。

对于 Dense 模型，不同引擎的输出差异仅来自浮点精度，几乎可以忽略。MoE 的离散路由将这种微小差异放大为专家选择的跳变——性质截然不同。

量化的差距：冷冰冰的数字

论文Stabilizing MoE RL by Aligning Training and Inference Routers（arXiv:2510.11370）给出了严格测量：

6.4×10⁻⁴ Qwen3-8B（Dense）训练-推理 KL 散度	1.54×10⁻³ Qwen3-30B-A3B（MoE）训练-推理 KL 散度（高 2.4×）
10% 出现路由差异的 MoE 层比例	94% 在至少一层经历路由差异的 token 比例

更惊人的是：即使在同一框架内（Megatron）连续跑两次相同的前向，由于 CUDA 核的浮点非确定性，KL 散度也有 8.4 × 10⁻⁴。MoE 的离散路由会将微小的浮点差异放大为专家选择的翻转。

为什么 Dense 模型没这个问题？

维度	Dense 模型	MoE 模型
参数更新对 log-prob 的影响	连续、平滑变化	可能触发路由翻转→跳跃式变化
不同引擎的输出差异	仅浮点精度，极小	路由决策不同→输出天差地别
IS ratio 偏离 1.0 的程度	微小扰动	可能大幅偏离，触发频繁裁剪

路由是一个离散决策，在连续参数空间上不连续——这是 MoE RL 所有问题的根源。

· · ·

03 挑战二：重要性采样失效与训练崩溃

📉 IS Ratio Instability

PPO 裁剪机制在 MoE 上反噬

PPO 用 clip 操作限制策略更新幅度：

ℒCLIP = 𝔼[min(wt · rt, clip(wt, 1−ε, 1+ε) · rt)]

裁剪窗口通常 ε = 0.1 ∼ 0.2，设计用于防止策略更新过猛。但 MoE 的路由不一致导致大量 token 的w_t严重偏离 1.0，裁剪被大量误触发——有效梯度信号被丢弃，学习信号淹没在噪声中。

**这就是 GRPO 在 Qwen3-30B-A3B 上跌破 base 模型的根本原因：**有用的梯度信号不断被裁剪掉，模型不但学不会，还在噪声梯度下退化。

实验数据的冲击

配置	均分	说明
Qwen3-30B-A3B（base，无 RL）	74.2	参照基准
+ GRPO（标准）	71.5	低于 base，训练崩溃
+ GRPO（无 R3，SFT 起点）	62.23	严重崩溃
+ GRPO + R3（路由回放）	71.83	+9.6 分
+ GSPO（序列级 IS）	76.4	稳定，超越 base
+ RSPO（路由感知 IS）	77.1	当前最优

来源：arXiv:2510.11370, 2510.23027, 2507.18071

· · ·

04 挑战三：辅助损失与 RL 梯度的内在矛盾

⚖️ Auxiliary Loss vs. RL Gradient Conflict

预训练阶段的负载均衡设计

MoE 预训练通过 **Auxiliary Loss（辅助损失）**防止 Expert Collapse——强迫 Router 均匀分配 token，避免某些专家因饥饿而退化：

ℒaux = α · Σi=1N fi · pi

其中 fi 是专家 i 接收到的 token 比例，pi 是路由概率，α 是均衡系数。在 SFT 中，辅助损失与主任务梯度方向大致相容，共同约束路由行为。

进入 RL 阶段：两个梯度方向的冲突

辅助损失
的梯度方向：让所有专家平均接收 token
RL 梯度
的方向：让高奖励的 token 序列概率更高

两者优化目标不同，同时存在时相互干扰，导致训练不稳定。这个矛盾在 VERL 源码中留下了清晰的工程痕迹。

VERL 的决策：直接关掉辅助损失

verl/models/mcore/config_converter.py的 Qwen2 MoE 配置转换器（第 202 行）：

turn off aux_loss as it hurts perf in RL

“moe_router_load_balancing_type”: “none”,

相同的模式在 Mixtral（第 233 行）和 Qwen3 MoE（第 268 行）均有出现，注释一模一样。运行时还有一层兜底，verl/workers/megatron_workers.py第 202-203 行强制覆盖：

override load balancing config for RL training

moe_router_load_balancing_type = “none”

唯一的例外是 DeepSeek-V3（第 339 行），使用moe_router_load_balancing_type="seq_aux_loss"，配合aux_loss_alpha=0.001。序列级辅助损失粒度更细，与 RL 梯度的干扰更小，是 DeepSeek 团队经过大规模训练探索出的折衷方案。

关掉辅助损失的代价

辅助损失关闭后，负载均衡完全依赖预训练阶段学到的路由模式。但 RL 探索会生成分布外的推理链（如长思维链、自我验证），改变各专家接收的 token 分布，潜在导致：

高奖励 token 持续路由到同一批专家 →Expert Collapse（专家坍缩）
部分专家持续过载，其他专家闲置 →计算效率下降

这也是为什么 VERL v0.8.0 新增了MoE 负载均衡监控——实时跟踪各专家接收的 token 数，发现失衡时主动告警。

· · ·

05 挑战四：冻结路由器 vs 路由漂移的两难

🧊 Router Update Dilemma

Router 更新为什么危险？

允许 Router 权重在 RL 中更新，会导致路由决策从预训练模式漂移，加剧上面描述的 IS ratio 失效和 Expert Collapse 问题。VERL 提供了freeze_moe_router选项来冻结 Router 权重（verl/models/mcore/model_initializer.py第 200-203 行）：

if freeze_moe_router:

for layer in model.decoder.layers:

if hasattr(layer.mlp, “router”):

layer.mlp.router.weight.requires_grad = False

但这个选项的默认值因模型和配置而不同，反映了社区尚未形成统一共识：

YAML 配置层
（ppo_megatron_trainer.yaml）：freeze_moe_router: False——默认不冻结
Qwen2/Qwen3/DeepSeek-V3 模型初始化器
：代码注释为"Qwen default freeze_moe_router: true"，倾向冻结
MiMo-V2-Flash 模型初始化器
：默认 False，注释明确写道：“MiMo-V2-Flash 使用 R3 保持路由一致性，Router 保持可训练；仅在 R3 不可用时才设为 True 作为备选”

这一分歧本身就说明了问题的难度：冻结 Router 是一个保守但有效的保障手段，R3 路由回放则提供了另一条路——在保持路由一致性的同时允许 Router 继续学习。两者代表了不同的工程取舍。

冻结的代价

冻结 Router 意味着路由策略无法随 RL 训练优化。RL 本可以学会更智能地分配 token——让擅长推理的专家处理推理密集型 token，让擅长知识检索的专家处理事实性 token。冻结 Router 放弃了这一潜力。

这是当前阶段的一种工程取舍，MoE RL 的理论上限尚未触及。

· · ·

06 挑战五：显存与通信的双重压力

💾 Memory & Communication Bottleneck

计算稀疏 ≠ 内存稀疏

MoE 的核心卖点是每个 token 只激活少量专家，计算量低——但所有专家权重必须同时驻留在 GPU 显存中：

模型	总参数	激活参数	BF16 显存
Qwen3-8B（Dense）	8B	8B（100%）	~16 GB
Qwen3-30B-A3B（MoE）	30B	3B（10%）	~60 GB（等价 30B Dense）
DeepSeek-V3（MoE）	671B	37B（5.5%）	~1.3 TB（整集群）

PPO 训练需要同时加载 Actor + Reference + Critic + Reward 多个模型；GRPO 省去 Critic，RLVR（基于规则/验证器的 RL）可进一步省去独立 Reward 模型。但无论哪种配置，至少需要 Actor + Reference 两份完整模型权重。在 MoE 场景下，这两份权重加上优化器状态的显存总需求已极为惊人。

VERL 的分析文档（analysis/megatron-fp8-offload-issue.md）记录了一个典型工程困境：

对于大型 MoE 模型，FP8 权重存储和优化器 CPU Offload无法同时使用——Grouped-GEMM Expert 产生的None占位符会导致HybridDeviceOptimizer崩溃。两种最重要的省显存手段相互排斥。

All-to-All 通信：RL 长序列的隐性税

Expert Parallelism（EP）将不同专家分布到不同 GPU 上。每次 MoE 层的前向/反向传播都需要两次All-to-All 通信：

Dispatch
：将 token 表示发送到持有对应专家的 GPU
Combine
：将专家输出发回原 token 所在的 GPU

这在 VERL 源码中体现为默认配置（config_converter.py第 89 行）：

“moe_token_dispatcher_type”: “alltoall”

All-to-All 通信带宽受拓扑制约明显：节点内 NVLink（DeepSeek-V3 报告为 160 GB/s）远快于跨节点 InfiniBand（约 50 GB/s）。模型规模越大、专家越多，跨节点 All-to-All 成为显著瓶颈，直接压低 GPU 利用率（MFU）。

RL 训练的 Rollout 阶段产生极长序列（DeepSeek-R1 最长 32,768 tokens），每个 token 都触发一次路由和 All-to-All，通信压力远超 SFT。内部文档描述 MiMo-V2-Flash（256 专家）的情形：

256 专家 × 2 个权重矩阵 × TP 分片 = 跨 48 层约24,000 次广播操作。每次模型从推理引擎（SGLang/vLLM）切换到训练引擎（Megatron），都需要重新分片。

这也是 VERL 专门设计3D-HybridEngine的原因——在 RL 的 rollout 与 training 两个阶段之间高效切换，消除冗余的模型重新分片开销。v0.6.1 起还加入了moe_a2a_overlap，将 All-to-All 通信与计算异步重叠，进一步隐藏延迟。

· · ·

07 工程解法：三条路，各有侧重

解法 1：R3——路由回放（Rollout Routing Replay）

核心思路：既然路由不一致是问题根源，那就在 Rollout 时把路由决策记录下来，Training 时强制复现。

VERL 在verl/utils/megatron/router_replay_patch.py用猴子补丁将 Megatron 的 TopKRouter 改为三模式：

RECORD: 推理时记录 topk_indices

REPLAY_FORWARD: 训练前向时复现路由

REPLAY_BACKWARD: 训练反向时复现路由

全局存储每个 MoE 层的topk_indices，训练时直接复用，跳过 Router 的 top-K 计算。

效果：训练-推理 KL 散度从 1.54×10⁻³ 降至 7.5×10⁻⁴，回到 Dense 模型水平；无 R3 时 GRPO 得 62.23，加 R3 后得71.83（+9.6 分）。

v0.7.1+ 支持 vLLM / SGLang 后端 v0.8.0 加入负载均衡监控

**R3 的局限：**固定了路由决策，就放弃了让 Router 随 RL 学习的可能性。同时需要存储每个 token 在每个 MoE 层的路由索引，显存开销不可忽视。

解法 2：RSPO——路由感知的 IS 重加权

核心思路：不强制复现路由，而是在 IS 权重中感知路由漂移量，对变化大的 token 降低梯度贡献。

定义路由偏移比（arXiv:2510.23027）：

γi,t = exp(−1/L · Σl 1/K · Σk |log rφ(ei,t) − log rφ_old(ei,t)|)

路由变化越大（γ 越小），该 token 的梯度贡献被相应下调。RSPO 允许 Router 同时更新，比 R3 更灵活。

效果：Qwen3-30B-A3B 上 RSPO 得77.1，GRPO 仅 71.5，+5.6 分，且不需要固定路由。

解法 3：GSPO——序列级别的重要性采样

核心思路：将 token 级 IS ratio 替换为序列级归一化 IS ratio，用几何平均平滑掉路由翻转引起的局部尖峰。

si(θ) = (πθ(yi|x) / πθ_old(yi|x))1/|yi|

GSPO 论文（arXiv:2507.18071）及 Qwen 官方博客指出，正是 GRPO 在大规模 MoE 模型上的稳定性问题催生了 GSPO：

“我们遇到了使用 GRPO 训练大型语言模型时严重的稳定性问题，往往导致不可逆的模型崩溃”（Qwen GSPO 官方博客）——这一问题在 MoE 架构上尤为突出，因为路由翻转会放大 token 级 IS ratio 的方差。

效果：Qwen3-30B-A3B 上 GSPO 得76.4（vs GRPO 71.5），GSPO 已被 Qwen 团队用于最新 MoE 模型的 RL 训练。

· · ·

08 总结：五重困境，三条出路

挑战	Dense 模型	MoE 模型	当前解法
训练-推理一致性	天然一致	路由不一致，KL 高 2.4×	R3（路由回放）
IS ratio 稳定性	平滑变化	路由翻转→跳跃式变化	GSPO / RSPO
辅助损失兼容性	不存在	与 RL 梯度冲突	VERL 直接关闭（+监控告警）
Router 更新策略	不存在	更新导致漂移崩溃	可选冻结（Qwen/DSv3 倾向）；或 R3 允许更新
显存与通信	线性扩展	全量驻留 + All-to-All	HybridEngine + A2A overlap + FP8（受限）

MoE 的 RL 训练难，本质上是离散路由决策与连续策略优化之间的结构性张力。Dense 模型的参数更新对 log-prob 的影响连续平滑；MoE 通过"路由"这个开关引入了不连续性——微小的参数变化可能触发专家路由翻转，产生跳跃式的概率变化，破坏 RL 所依赖的重要性采样假设。

R3、RSPO、GSPO 三条路在 2025 年 10 月到 2026 年初密集涌现，是这个领域高速演进的写照。随着 DeepSeek-V3、Qwen3-235B 等超大规模 MoE 模型持续被推向 RL 训练的前沿，这些挑战正在收到工业界的正面回应——但 MoE RL 的理论上限，远未触及。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～