OPID:在线策略技能蒸馏,让智能体学习无需外部记忆

OPID:在线策略技能蒸馏,让智能体学习无需外部记忆

OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

作者:Shuo Yang, Jinyang Wu, Zhengxi Lu, Yuhao Shen, Fan Zhang, Lang Feng, Shuai Zhang, Haoran Luo, Zheng Lian, Zhengqi Wen, Jianhua Tao
核心发表机构:论文源码未明确标注或暂未可靠识别
论文链接:arXiv:2606.26790v1
发布于:arXiv 预印本(cs.CL)

—|------|----------|----------|------|
| Qwen2.5-3B | ALFWorld | 75.0 |84.3| +9.3 |
| | Search-based QA | 36.4 |45.0| +8.6 |
| | WebShop | 63.3 |74.2| +10.9 |
| Qwen2.5-7B | ALFWorld | 81.2 |90.0| +8.8 |
| | Search-based QA | 42.0 |49.2| +7.2 |
| | WebShop | 72.6 |79.7| +7.1 |
| Qwen3-1.7B | ALFWorld | 46.1 |58.9| +12.8 |
| | WebShop | 38.3 |64.8| +26.5 |

在搜索QA任务上,Qwen3-1.7B的OPID性能(40.4)与GRPO(40.8)相当,其余设置均有显著提升。下图的总体性能对比展示了OPID在多个基准上的平均表现最优:

OPID的一个重要特性是它将技能内化到策略参数中,而无需在推理时依赖技能提示。与Skill-GRPO*(推理时注入技能)相比,OPID在多数设置下仍能超越或匹配其性能。例如在Qwen2.5-3B上,OPID在ALFWorld达到84.3,高于Skill-GRPO的80.5;在搜索QA上,OPID达到45.0,也显著高于Skill-GRPO的36.1。而当验证时移除技能,Skill-GRPO性能大幅下降(如Qwen2.5-3B ALFWorld下降14.8分),而OPID无此落差。

训练动态曲线进一步揭示了OPID的收益来源:


在中后期阶段,OPID与GRPO发生分歧,并持续保持优势。同时,OPID将平均回合长度减少到15-16步,而GRPO为17-18步,说明OPID学到了更直接的行动序列。

在样本效率分析中,OPID在所有训练数据比例下均优于GRPO,绝对增益在9.3到20.3分之间。更值得注意的是,使用60%数据时OPID达到71.9,接近GRPO全数据(75.0);使用80%数据时,OPID已超越GRPO全数据(78.9 vs 75.0):

在跨域泛化(ALFWorld Unseen场景)上,OPID平均成功率为78.6,超过GRPO的70.9,提升了7.7分:

定性分析进一步揭示了OPID的优势。在一个“清洁锅铲并放入餐桌”的ALFWorld任务中,GRPO智能体在第4步产生“幻觉目标”错误,试图从台面拿取不存在的锅铲,随后用勺子替代,最终在30步限制内未能完成放置。而OPID智能体遵循连贯的“定位-清洁-放置”工作流,每一步都基于当前观察进行接地操作,在6步内完成任务:

下图展示了OPID在训练过程中值得关注的两个定量特征:平均关键步骤数,以及两种优势信号(episode-level outcome advantage和skill-guided advantage)的幅度变化:

4.3 消融实验 / Ablation Study

分层技能的影响。在Qwen2.5-3B-Instruct上的消融实验验证了两种粒度技能的互补性:

方法ALFWorld Avg.WebShop Score/Succ.
OPID(全)84.385.0 / 74.2
w/o episode skill74.178.4 / 67.2
w/o step skill79.180.2 / 65.6

移除任一种技能粒度均导致显著性能下降,其中移除episode-level技能的影响尤其明显(ALFWorld下降10.2,WebShop成功率下降7.0),说明全局工作流和失败规避规则提供了重要的默认信号。移除step-level技能同样带来约5-9个点的下降,证明局部关键决策知识不可或缺。

关键优先路由的影响。与非路由变体(每个步骤同时注入episode-level和step-level技能)比较:

方法ALFWorld Avg.
OPID(关键优先路由)84.3
w/o Routing(叠加)77.5

移除关键优先路由机制导致平均性能下降6.8分,验证了其必要性。直接叠加两种技能可能引入冲突或信息冗余,而关键优先的选择性路由确保了最合适的指导粒度。

五、相关工作 / Related Work

结果驱动强化学习。以GRPO为代表的方法通过组相对标准化提供稳定的序列级奖励信号,但在长时域交互中,稀疏的轨迹级奖励无法提供中间步骤的信用分配。OPID保留了RL作为主要优化目标,在此基础上增加token级监督信号。

On-policy自蒸馏与技能蒸馏。以往的自蒸馏方法(如OPSD、RLSD、SDAR)通常使用辅助token级损失或外部技能上下文。Skill-GRPO在训练和推理时可能依赖技能提示,导致训练-测试不一致。OPID通过从当前策略的on-policy轨迹中提取层级后见之明技能,并通过整合到优势函数中与RL目标融合,无需外部记忆或检索。

技能条件智能体学习。现有方法依赖外部技能库或持久化记忆,存在维护成本高和分布不匹配的问题。OPID直接从当前策略的已完成轨迹中提取技能,保证了分布匹配,且推理时无需技能库。

六、局限性与展望 / Limitations & Future Work

尽管OPID在多个基准上取得了显著提升,但仍存在一些局限性和未来改进方向:

临界性检测的依赖性。OPID的有效性依赖于分析器A \mathcal{A}A对关键时间步的准确识别。理论分析表明,关键优先路由的性能退化受教师专业化误差Γ \GammaΓ与检测错误率Pr ⁡ ( z ^ i ≠ z i ⋆ ) \Pr(\widehat z_i \ne z_i^\star)Pr(zi=zi)的乘积控制。目前,分析器通过LLM提示实现,其检测准确率在任务间存在差异。未来工作可以探索更鲁棒的、无需显式分析的临界性检测方法,例如利用学习到的状态价值函数或注意力模式来隐式识别关键步骤。

理论差距。理论分析指出,未经裁剪的OPID技能损失在行为策略处局部近似于反向KL蒸馏,但在全局范围内并不等价。这意味着不当的λ s k i l l \lambda_{\mathrm{skill}}λskill选择或大更新步长可能导致策略概率的坍缩(collapsing)。虽然PPO裁剪和实际实现中的约束条件在一定程度上缓解了这一问题,但设计能够精确匹配反向KL蒸馏的同时保持on-policy稳定性的方法,仍是一个有价值的研究方向。

计算开销。虽然推理时无额外开销,但训练时引入的分析器A \mathcal{A}A(一个额外的LLM调用)和技能增强上下文下的重复评分(对每个采样响应进行两次前向传播)增加了计算成本。尤其是在大规模batch或长响应场景下,这种开销可能变得显著。未来的工作可以探索更轻量的技能提取方法,或通过并行计算、异步流水线等方式优化训练效率。

性能差异。在Qwen3-1.7B上,OPID在搜索QA任务中的性能与GRPO相当而非超越,表明方法在较小模型和某些任务组合上可能增益有限。这可能是因为小模型的容量限制了其内化复杂、多层次技能的能力。

七、总结 / Conclusion

OPID提出了一种新颖的on-policy技能蒸馏框架,通过直接从当前策略的已完成轨迹中提取层次化后见之明技能,并利用关键优先路由机制将技能转化为密集的自蒸馏监督信号,解决了结果RL的稀疏奖励信用分配问题和外部技能库的分布不匹配问题。该方法保留了RL作为主要优化目标,在ALFWorld、WebShop和Search-based QA三个基准上一致提升了智能体性能、样本效率和鲁棒性,且推理时无需外部技能库或特权上下文,实现了技能的内化。OPID证明了智能体的历史轨迹不仅是奖励优化的样本,更是可重复使用的决策知识记录,为长时域agentic任务提供了一种更有效的信用分配机制。

原文摘要:Outcome-based reinforcement learning provides a stable optimization backbone for language agents, but its sparse trajectory-level rewards provide little guidance on which intermediate decisions should be reinforced or suppressed. On-policy self-distillation offers dense token-level supervision, yet existing skill-conditioned variants often rely on external skill memories or retrieved privileged context, which are costly to maintain and can be mismatched with the state distribution induced by the current policy in multi-turn interaction. We propose \textbf{OPID} (\textbf{O}n-\textbf{P}olicy Sk\textbf{i}ll \textbf{D}istillation), a framework that extracts skill supervision directly from completed on-policy trajectories. OPID represents trajectory hindsight as hierarchical skills: episode-level skills capture global workflows or failure-avoidance rules, while step-level skills capture local decision knowledge at critical timesteps. A critical-first routing mechanism uses step-level skills when critical decisions are identified and falls back to episode-level skills as default guidance otherwise. The selected skill is injected into the interaction history, allowing the old policy to re-score the same sampled response under both original and skill-augmented contexts. The resulting log-probability shift yields a token-level self-distillation advantage, which is combined with the outcome advantage for policy optimization. OPID thus preserves RL as the primary training objective while introducing dense, distribution-matched hindsight supervision. Experiments on ALFWorld, WebShop and Search-based QA demonstrate that OPID generally improves agent performance, sample efficiency, and robustness over outcome-only RL and existing skill-distillation baselines. Our code is available at https://github.com/jinyangwu/OPID/tree/main.

PDF链接:https://arxiv.org/pdf/2606.26790v1

部分平台可能图片显示异常,请以我的博客内容为准