Agent彻底爆发,美团连发了3篇Skill
太强了,美团连发了3篇Agent Skill技术论文:Skill0,Skill0.5,Skill1
先说一个反直觉的结论:训练 Agent 用技能,最危险的不是"学不会",而是"学会了但走捷径"——简单任务上模型绕过技能直接记忆答案,到了新环境就彻底崩溃。
而 Skill0.5 的解法,用一个词概括就是:“一半一半”。通用技能写进模型参数当底座,任务技能留在 prompt 当插件。不二选一,各管各的。
Agent 技能训练的二选一困境
给 Agent 装技能,当前有两种做法:
全外挂(Skill1):所有技能都塞进 prompt。好处是灵活,随时换技能。但 prompt 太长,LLM 的推理和指令遵从能力骤降——特别是在长链路任务中,模型容易"迷失在中间"。
全内化(SKILL0):所有技能都写进模型参数。好处是推理时不需要额外上下文。但模型容量有限,新技能和已内化的旧技能容易打架——参数里的 ID 习惯会压制 OOD 新技能。
这两种做法都假设"所有技能用同一种方式处理"。但这个假设未必都成立。
Skill0.5 的方法:难度分层 + 差异化训练
Skill0.5 的核心是一个两阶段流程:先按难度分班,再因材施教。
Phase-1:难度感知路由
对每个训练任务,先用标准 prompt(只有任务技能,没有通用技能)跑 G 次,算通过率 p_i:
- p_i = 0:完全做不了 →Hard 层
- 0 < p_i ≤ η_t:有时能做 →Medium 层
- p_i > η_t:基本能做 →Easy 层
阈值 η_t 是滑动窗口平均,动态调整,避免单批次噪声。
Phase-2:分层差异化训练
Hard 层——特权蒸馏(内化通用技能)
做不了任务 = 缺基础逻辑。给模型开"小灶":用特权 prompt(通用技能 + 任务技能)跑出正确轨迹,然后用 JSD 蒸馏把通用技能"教"进参数。
学生只看标准 prompt,但要学会和老师(有通用技能指导时)一样的推理步骤。这样通用技能就内化到了参数里,推理时不需要额外注入。
Medium 层——标准 GRPO(提升成功率)
有一定基础但还不稳定。直接用 Phase-1 的轨迹做标准 GRPO 强化学习,通过试错最大化成功率。
Easy 层——反捷径探测(强制使用任务技能)
这里是最精彩的设计。任务太简单时,模型容易走捷径:直接从任务描述映射到答案,绕过检索到的任务技能。在 ID 场景下这没问题(反正模型记住了),但在 OOD 场景下——换了新技能,模型还是走老路,完全不读新技能。
怎么检测捷径?反事实探测:故意把任务技能拿掉(No-Skill Prompt),看模型没有技能时表现如何。如果和有技能时差不多 → 模型在走捷径。
利用这个"利用增益"u_i = p_i - p_i^none 作为任务级优势调节:走捷径的任务被惩罚,真正使用技能的任务被奖励。
推理时:只要任务技能
训练完成后,推理极其简洁:通用技能已经在参数里了,prompt 里只放检索到的任务技能。上下文精简,新技能即插即用。
效果:OOD 提升 13.2%
ALFWorld(家庭任务环境)
| 方法 | ID Avg | OOD Avg | Rank |
|---|---|---|---|
| SkillRL(最强技能基线) | 90.8 | 45.3 | 6.3 |
| SKILL0(全内化) | 85.1 | 39.6 | 7.5 |
| SLIM | 82.8 | 35.8 | 7.0 |
| Skill0.5 | 93.1 | 58.5 | 2.5 |
比最强技能基线 SkillRL:ID +2.3%,OOD +13.2%。平均排名 2.5,远超所有基线。
WebShop(购物环境)
比最强技能基线:ID +2.1%,OOD +3.9%。一致提升。
消融:缺一不可
| 变体 | ID | OOD |
|---|---|---|
| Skill0.5 完整 | 93.1 | 58.5 |
| 只做内化 | 88.0 | 47.0 |
| 只做外挂 | 68.0 | 28.0 |
只做外挂时全面崩塌——没有通用技能打底,任务技能的对比优势微乎其微,训练几乎停滞。只做内化时 OOD 明显差——内化底座有了,但遇到新技能不会用。两者必须联合。
训练动态
论文的训练曲线揭示了两个关键阶段:
- 早期:困难任务主导,特权蒸馏打破零梯度困境,Skill0.5 起步远快于基线
- 中后期:简单任务主导,反捷径探测维持 OOD 持续上升,而 SkillRL 开始过拟合下降
这件事意味着什么
不要把所有技能一锅炖。通用技能和任务技能有本质差异,分而治之效果远好于一刀切。
Skill0.5 的"0.5"哲学意味着,随着技能库持续扩张,模型只需要内化稳定的通用底座,任务技能可以无限外挂——这是一个可持续扩展的架构。
难度分层训练和反捷径探测是两个独立贡献——前者解决冷启动问题,后者解决过拟合问题。这两个思路不限于技能训练,也适用于其他 RL 场景。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
