当前位置：首页 > news >正文

华东师范与美团龙猫团队联手：让AI智能体“学以致用“的训练新方法

news 2026/6/4 2:21:44

这项由华东师范大学数据科学与工程学院与美团龙猫团队联合开展的研究，于2026年5月以预印本形式发布在arXiv平台，论文编号为arXiv:2605.28424。研究提出了名为Skill0.5的新型智能体强化学习框架，旨在解决AI智能体在面对从未见过的新任务时表现急剧下滑的痼疾。

**一、从一个让人头疼的老问题说起**

假设你新入职了一家公司，公司给你发了一本厚厚的操作手册，上面写满了各种规则和流程。第一天工作时，你把手册摆在桌上，遇到问题翻手册——这倒还好用。但如果手册越来越厚，里面的内容越来越杂，你翻着翻着就糊涂了，不知道该执行哪一条。

另一种情况是，公司让你把手册上的内容全背下来，之后就把手册收走了。你确实把那些流程刻进了脑子，工作起来得心应手。但某天你被调到一个新部门，业务逻辑完全不同——而你脑子里全是老部门的习惯，新规则摆在你面前，你偏偏按着老习惯来，结果一团糟。

这两种困境，精确地对应了当下AI智能体领域里两条主流训练路线的问题。AI研究者们长期以来在这两条路之间左右为难，而华东师大与美团联合团队的这项研究，给出了一个迥然不同的第三条路。

在正式理解这条新路之前，有必要先搞清楚这里说的"AI智能体"到底是什么。简单说，就是一个能够与环境交互、自主做出决策的AI系统——比如一个能在虚拟家居环境里帮你找东西、拿东西、加热食物的机器人，或者一个能在网上购物平台里帮你搜索商品、筛选选项、完成购买的购物助手。为了让这些智能体做得更好，研究者们会给它们配备一套"技能手册"，里面写着各种操作规则和经验总结。

**二、技能手册的两种极端用法，以及它们各自的麻烦**

沿着"把手册摆桌上"这条路走下去，就是学术界所说的"完全外置化"策略。智能体每次工作时，都把完整的技能手册塞进自己的上下文窗口（可以理解为工作记忆），边看手册边干活。

这种方法的直接问题是，手册太长了。当一个AI系统的"注意力"同时被几千个词的手册内容占据时，它处理实际任务的能力会大幅下降。麻省理工学院早期的研究就发现，语言模型在面对特别长的上下文时，往往会"遗失"中间部分的内容，也就是说，手册越厚，它反而越记不住关键的地方。对于需要做十几步甚至几十步连续操作的复杂任务，这个问题尤为致命。

另一条路，也就是"完全内置化"策略，则要求智能体通过大量训练，把手册上的所有内容都"消化"进自己的神经网络参数里。训练结束后，手册就可以彻底扔掉，智能体凭借内化的知识独立行事。

这条路的问题出在遇到新情况时。现实世界里，技能手册的内容会不断更新——新的任务域会带来全新的操作规则，这些规则在训练时根本不存在。当智能体遇到一条和它内化知识相矛盾的新规则时，它往往无法正确执行新规则，反而会按着老习惯行动。这就是研究者所说的"知识冲突"——脑子里刻着的旧程序，干扰了对新指令的遵从。

华东师大与美团团队发现，这两种极端策略之所以都有问题，根本原因在于它们没有区分对待两种性质截然不同的技能。

**三、所有技能都一样吗？——一个被忽视的关键区分**

仔细想想那本操作手册，里面的内容其实可以分成两类。一类是放之四海而皆准的通用原则，比如"完成任务前要逐项核对所有目标"、"出错后要先撤回上一步再重试"——这些规则在任何部门、任何情境下都适用，而且一旦学会了就很少需要更新，但通常写得比较长、比较抽象。另一类是针对特定任务的具体操作规程，比如"操作微波炉时，先放入物品，再执行加热指令"——这类规则高度具体，不同任务域之间差异巨大，而且会随着新业务的上线不断扩充。

研究团队给这两类技能起了名字：第一类叫"通用技能"，第二类叫"特定技能"。他们的核心论断是：这两类技能需要完全不同的处理方式。通用技能篇幅长、使用频繁、内容稳定，最好的处置方式是通过训练把它们彻底内化进智能体的"本能"，这样既省去了每次工作时塞进上下文的空间开销，也避免了它们与任何新任务规则发生冲突；特定技能则恰恰相反——它们变化快、域间差异大，而且在面对全新任务时，恰好是智能体最需要参考的现成指引，因此应该保持"随取随用"的外置状态，随着任务的不同动态替换。

这个区分听起来简单，但正是从这里出发，研究团队构建了整个Skill0.5框架。

**四、Skill0.5框架：像培训新员工一样训练AI**

Skill0.5这个名字颇有趣味——介于"完全外置"（可以理解为Skill1，手册全在桌上）和"完全内置"（可以理解为Skill0，手册全在脑里）之间，它代表了一种折中但精准的处理方式：一半内化，一半外用。

框架的整体运作方式，可以用培训新员工的比喻来理解。一家公司有一批老员工和一批新任务。每到一个训练周期，公司会先评估每个员工对手头任务的掌握程度，再根据掌握程度给出不同的训练安排。完全不会的就送去接受系统性的思维方法培训；有点基础但还不熟练的就继续在实践中摸索；已经熟练的则要接受特殊的"防偷懒"测试，确保他们真的是用了正确方法在做事，而不是靠走捷径凑出了表面上的好成绩。

具体到Skill0.5的训练流程，分为两个阶段串联运行。

第一阶段叫"难度感知路由"。在每个训练步骤里，对于批次中的每个任务，系统都会让智能体在仅携带"特定技能"（不带通用技能）的条件下，独立尝试完成任务若干次，统计它的成功率。随后，系统根据这个成功率，把任务分进三个层次：成功率为零的划入"困难层"，成功率高于一个动态计算的阈值的划入"简单层"，介于两者之间的划入"中等层"。这个动态阈值不是拍脑袋定的，而是通过一个"滑动窗口"机制，取最近若干个训练步骤里全部任务平均成功率的均值，这样能更稳健地反映智能体的整体水准，不会因为某一批任务特别难或特别简单而失真。

第二阶段叫"分层定制优化"。针对三个层次的任务，系统分别采用完全不同的训练信号。

对于困难层的任务，智能体暴露出的是最根本的能力缺失——连基本的环境交互逻辑都没掌握。这时候，单纯靠让它自己试错是没有用的，因为它怎么试都是零分，没有任何梯度信号可以用来改进。为了打破这个死局，系统引入了一个"教师智能体"——这个教师和学生用的是同一个模型，但它在工作时被赋予了完整的通用技能作为辅助。教师在通用技能的加持下完成任务，产生成功的轨迹；然后，系统让学生（不带通用技能）去模仿教师的每一步推理过程。具体的技术手段是计算学生和教师在每个推理步骤上的概率分布差异，优化目标是让学生的行为分布尽可能贴近教师——但整个过程里，通用技能始终只存在于教师的上下文里，学生从未在显式上下文中看到它们，却在不断模仿中把这些思维方式吸收进了自己的参数。这个过程被称为"特权蒸馏"，因为教师拥有学生没有的"特权信息"，而蒸馏的目标正是把这份特权内化到学生的本能里。

对于中等层的任务，智能体有一定基础但尚未稳定，最好的训练方式就是标准的强化学习：让它多次尝试，成功了给正向激励，失败了不给奖励，通过奖励信号引导它逐渐找到更好的策略。这里采用的是一种叫GRPO的算法，原理是每次对同一个任务采样多条轨迹，然后比较这几条轨迹的相对好坏来计算优势信号。没有复杂的改造，直接复用了第一阶段收集的轨迹数据，非常高效。

对于简单层的任务，情况反而最微妙。随着训练推进，那些对智能体来说越来越容易的任务，恰恰是最危险的训练陷阱所在。当一个任务变得"太简单"，智能体很容易学会一种偷懒方式：直接把任务指令和动作之间建立一个"死记硬背"的映射，完全绕开特定技能的指引，凭借记忆里的老套路就能凑出正确答案。这种行为被称为"走捷径"，在训练集上看起来成绩还不错，但一旦换成从未见过的新任务，那些捷径全部失效，智能体立刻崩溃。

为了识别并惩罚这种走捷径的行为，系统引入了一个诊断探针：专门对简单层的任务，在不给任何技能提示的条件下再跑一批轨迹，统计"裸奔"状态下的成功率。然后把"有特定技能时的成功率"减去"没有技能时的成功率"，得到一个"技能利用增益"。这个增益越大，说明特定技能对成功的贡献越大，智能体越是真实地在利用外部技能；增益越小，甚至趋近于零，则暴露出智能体实际上在走捷径。系统把这个增益转化为一个额外的优势项，叠加到强化学习的奖励信号上——增益高的任务会得到额外的正向强化，增益低的则会受到压制，从整体上引导智能体养成真正依赖技能、而非绕过技能的行为模式。

三条优化路径的损失函数最终被加总，共同更新同一个智能体模型的参数。由于每个任务只能落入一个层次，三条路径的梯度信号天然互不干扰，整个训练过程干净而有序。

**五、测试战场：两个截然不同的挑战环境**

为了验证框架的实际效果，研究团队在两个公认的智能体基准环境上展开了系统性测试，并且特别设计了一种更贴近真实部署场景的评测协议。

第一个环境叫ALFWorld，是一个文字版的家居任务模拟器。智能体需要通过自然语言指令完成各种家务——比如把特定物品放进微波炉加热，或者在台灯下检视某件物品。这个环境包含六种任务类型，研究团队把其中三种（拿取、冷却、清洁）作为训练和同分布测试的任务，另外三种（查看、加热、多次拿取）作为分布外测试的任务，智能体在整个训练过程中完全看不到后三类任务的任何样本。

第二个环境叫WebShop，是一个模拟网络购物的环境。智能体需要根据用户的购物需求，在一个有12087件商品的虚拟商城里搜索、筛选、下单。研究团队把商品分成七个品类，其中服装、电子产品、鞋类、其他品类作为训练类别，配饰、美妆健康、家居装饰三个品类作为分布外测试类别——后三个品类的商品属性词汇和匹配逻辑与训练类别有显著差异。

这种"训练时看不到OOD任务，测试时专门考OOD任务"的设计，模拟的正是现实部署中最常见也最棘手的场景：用户总在上传新的任务类型，技能手册也在不断扩充，但智能体没有机会为每一类新任务专门训练。在这种设定下，技能的泛化能力才是真正的核心竞争力。

测试中，所有方法在进行同分布评测时使用对应的已知技能，在分布外评测时使用全新的未见技能——每种方法都按照自己的设计逻辑决定在推理时携带哪些技能。Skill0.5的做法是：推理时完全不携带通用技能（因为已经内化），只携带针对当前任务检索到的特定技能，无论这些特定技能是已知的还是全新的。

**六、比赛结果：数字背后的故事**

研究团队一共比较了超过二十种方法，涵盖纯提示类方法、记忆增强类方法、强化学习类方法，以及与Skill0.5最直接竞争的技能增强强化学习类方法。

在ALFWorld的同分布测试中，Skill0.5以93.1%的平均成功率位居第一，比最强的技能增强基准SkillRL（90.8%）高出2.3个百分点。这个提升看起来不算大，但考虑到同分布测试本来就是各方法的"主场"，这个差距已经相当可观。

在分布外测试中，Skill0.5的优势急剧扩大：它以58.5%的平均成功率领跑，而SkillRL只有45.3%，差距高达13.2个百分点。另一个采用完全内置化策略的竞争对手SKILL0在分布外测试中只有39.6%，与Skill0.5差了接近19个百分点。采用动态技能生命周期管理的SLIM则为35.8%，差距更大。

在WebShop上，Skill0.5同样以40.4%（同分布）和40.6%（分布外）的成绩领先所有方法，在分布外场景中比最强基准高出约4个百分点。

纯粹依赖上下文提示的方法（比如ReAct、Reflexion）与Skill0.5的差距超过45%，这进一步证明，仅靠把技能塞进提示词而不经过针对性训练，远远无法让智能体真正发挥技能的价值。记忆增强类方法（通过存储过去的任务经历来辅助决策）虽然在某些配置下表现尚可，但普遍不如技能增强类方法——研究团队分析认为，原始的经历记录通常包含太多噪音和冗余，而经过提炼的技能知识则更加精练、可迁移。

**七、训练过程的曲线，讲述了一个完整的学习故事**

如果把训练过程中各方法的成功率曲线画出来，会看到一幅颇为有趣的图景。

在训练的早期阶段，Skill0.5表现出异常快速的初始提升。这是特权蒸馏机制在发挥作用——困难层任务占据了绝大多数，通过教师-学生的蒸馏机制提供了源源不断的梯度信号，绕过了普通强化学习在全零回报情况下梯度完全消失的死局，推动智能体迅速建立起基本的推理能力。

进入训练中期，随着困难任务减少、简单任务增多，Skill0.5的曲线继续稳定上升。相比之下，SkillRL在训练集和同分布验证集上的成功率也在攀升，但其分布外验证集的曲线在后期出现了明显的下滑——这是走捷径行为导致泛化能力衰退的典型特征。SKILL0则在整个训练过程中，分布外成绩始终被压制在较低水平，因为一个完全内化了旧域知识的模型，面对全新任务时只会按老习惯办事。SLIM由于其生命周期机制过早地把通用技能从上下文中退出，导致后期训练出现剧烈振荡，最终在分布外场景中严重失稳。

Skill0.5在分布外测试上的曲线则始终保持稳定的上升趋势，没有出现任何下滑的迹象，一直到训练结束仍然在提升，这正是反走捷径机制持续守护泛化能力的结果。

**八、拆开来看：每个组件到底贡献了多少**

为了搞清楚特权蒸馏和反走捷径两个组件各自的功劳，研究团队做了消融实验——每次去掉其中一个，只保留另一个，看看成绩会怎么变。

只保留特权蒸馏、去掉反走捷径的版本，在同分布测试中得到89.6%，分布外测试得到52.8%，比完整版的93.1%和58.5%分别低了3.5和5.7个百分点。这说明两个组件都有贡献，但去掉反走捷径的代价在分布外场景下更为显著。

只保留反走捷径、去掉特权蒸馏的版本，结果更为惨烈：同分布测试85.1%，分布外测试50.9%，与完整版的差距超过了8个百分点。研究团队的解释是：如果智能体从来没有通过蒸馏建立起基本的推理能力，那么所谓的反走捷径惩罚根本无从发挥——因为即使给了特定技能，智能体也不会做对；不给特定技能，它同样不会做对。两者的成功率差异接近于零，用来识别和惩罚走捷径行为的信号就完全消失了，训练陷入停滞。

这个结果揭示了两个组件之间的内在依赖关系：内化通用技能是前提条件，只有在建立起扎实的基础推理能力之后，依赖特定技能的利用才有意义；而在基础能力建立之后，如果缺少对走捷径行为的明确约束，智能体终究会在反复练习中退化为模式匹配机器，失去真正灵活利用新技能的能力。

**九、三个失败案例，解剖三种思路的死穴**

研究团队还在ALFWorld的分布外任务上做了详细的轨迹分析，给每种基准方法各找了一个具有代表性的失败案例。

以SkillRL的一个失败案例为例。任务是"把一个热土豆放进冰箱"。SkillRL给智能体的上下文里塞进了大约1617个词的内容，其中包含通用原则、常见错误提示，以及对应这个新任务的特定技能（说的是"加热后直接走到目标位置放好就行"）。然而，智能体在加热完土豆、顺利走到冰箱旁之后，执行的下一个动作是"用冰箱冷却土豆"——这和任务目标以及特定技能的明确指令都完全矛盾。分析智能体的推理轨迹，发现它大脑里的思路是"要先冷却再放进去"——这是在训练集的"冷却任务"中反复强化的关联：冰箱等于冷却操作。大量通用文字内容稀释了特定技能的权重，使得正确的新指令被淹没在了老经验里。

Skill0.5在同一个任务上，上下文里只有214个词的特定技能内容，通用技能已经被内化。它顺利地加热土豆、走到冰箱、打开冰箱、把土豆放进去，全程7步完成，推理链里甚至明确写出"加热完了，下一步是把热土豆放进冰箱"——没有任何关于冷却的干扰。

SKILL0的失败案例则是另一种死法。任务是"用台灯检查那个碗"。SKILL0给智能体提供了一条特定技能："到达台灯处后，立刻执行'use desklamp'命令"。智能体的推理文字里甚至引用了这条技能，说"根据单次开关规则..."，然后下一步动作是走到边桌、试图把碗放到边桌上——这是训练集里"拿取放置任务"的标准操作模板。接下来它反复试图捡起台灯（把台灯当成可以携带的物品），失败三次。明确的文字指令就在上下文里，但内化在参数里的旧操作模板强行覆盖了对新指令的执行，这就是知识冲突——而且是在推理时无法修复的那种。

SLIM的失败案例又是第三种形态。在训练到第85步时，它在"用台灯检查枕头"这个任务上还能成功。但到第120步，同类任务的轨迹已经面目全非：推理文字在讨论如何"找一张CD"（任务明明是枕头），行动指令则走向了床（推理里说的是冰箱）。同样的退化模板出现在五个完全不同的任务里，几乎逐字相同。SLIM在训练第5步就以"效用接近于零"为由退休了"系统性探索"这条通用技能，截至第50步已经有三分之二的通用技能被退休。失去了这些思维框架的支撑，智能体在后续持续训练中逐渐解体了基本的任务理解能力。

这三个案例，就像三张不同的X光片，清晰地揭示了三种统一化技能处理策略在分布外场景中的特征性死穴。Skill0.5通过类型分化的处理方式，把这三种死穴都从设计上规避了。

---

说到底，Skill0.5这项研究解决的是一个非常具体但影响深远的工程问题：当你训练一个AI智能体来完成复杂任务时，如何让它在掌握通用推理能力的同时，还能灵活地遵从面对新任务时的专属指引？研究团队给出的答案本质上是一套"认知分工"的训练机制——把稳定的思维框架固化到神经网络的参数里，同时维持对动态任务规则的真实依赖，并通过实时的难度感知来确保这两种训练信号都落在最有效的地方。

对于普通人而言，这项研究意味着未来你家里的智能家居助手或者购物AI，在遇到一类全新的任务时，不再需要漫长的重新训练，只需要接收一份新的任务说明书，就能高效地把新规则付诸实践——而不是用老经验覆盖新指令，或者被大量无关信息淹没。

一个有趣的思考方向是：人类其实也在进行类似的认知分工。那些经过大量实践内化的通用思维方法（比如批判性思考、系统性分解问题），和那些需要在特定场合随时查阅更新的专业规程（比如新药的使用说明、新设备的操作手册），在人类的学习策略里本来就是分开处理的。或许，好的AI训练框架，终究需要在某种程度上模仿人类认知系统演化出的这套机制。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2605.28424查询完整论文。

---

**Q&A**

Q1：Skill0.5训练出来的智能体，在面对全新任务时具体是怎么工作的？

A：推理时，Skill0.5的智能体不携带任何通用技能（它们已经被内化进参数），只从技能库中检索与当前新任务最相关的特定技能放入上下文。通用推理能力来自训练时的蒸馏，特定操作规则来自动态检索的外部技能，两者共同驱动决策。

Q2：特权蒸馏和普通的知识蒸馏有什么区别？

A：普通知识蒸馏通常是用一个更大的模型教一个更小的模型，教学内容是一样的。特权蒸馏里，教师和学生用的是同一个模型，区别在于教师拥有学生没有的额外信息（通用技能提示），目的是让学生在没有这份信息的条件下，学会模拟有了这份信息时才能产生的推理行为，本质上是把上下文依赖转化为参数能力。

Q3：反走捷径的利用增益怎么判断智能体是否真的在用技能？

A：系统分别测量智能体在有特定技能提示和无任何技能提示两种条件下的成功率，两者相减得到"利用增益"。如果差值大，说明技能对成功起了实质贡献；如果差值趋近于零甚至为负，说明智能体即使没有技能也一样（甚至更好），暴露出它在走捷径绕过技能。这个差值随后被转化为训练信号，走捷径的任务会受到梯度层面的压制。

查看全文

http://www.zskr.cn/news/1457394.html