当前位置：首页 > news >正文

Agent彻底爆发，美团连发了3篇Skill

news 2026/6/7 5:31:54

太强了，美团连发了3篇Agent Skill技术论文：Skill0，Skill0.5，Skill1

先说一个反直觉的结论：训练 Agent 用技能，最危险的不是"学不会"，而是"学会了但走捷径"——简单任务上模型绕过技能直接记忆答案，到了新环境就彻底崩溃。

而 Skill0.5 的解法，用一个词概括就是：“一半一半”。通用技能写进模型参数当底座，任务技能留在 prompt 当插件。不二选一，各管各的。

Agent 技能训练的二选一困境

给 Agent 装技能，当前有两种做法：

全外挂（Skill1）：所有技能都塞进 prompt。好处是灵活，随时换技能。但 prompt 太长，LLM 的推理和指令遵从能力骤降——特别是在长链路任务中，模型容易"迷失在中间"。

全内化（SKILL0）：所有技能都写进模型参数。好处是推理时不需要额外上下文。但模型容量有限，新技能和已内化的旧技能容易打架——参数里的 ID 习惯会压制 OOD 新技能。

这两种做法都假设"所有技能用同一种方式处理"。但这个假设未必都成立。

Skill0.5 的方法：难度分层 + 差异化训练

Skill0.5 的核心是一个两阶段流程：先按难度分班，再因材施教。

Phase-1：难度感知路由

对每个训练任务，先用标准 prompt（只有任务技能，没有通用技能）跑 G 次，算通过率 p_i：

p_i = 0：完全做不了 →Hard 层
0 < p_i ≤ η_t：有时能做 →Medium 层
p_i > η_t：基本能做 →Easy 层

阈值 η_t 是滑动窗口平均，动态调整，避免单批次噪声。

Phase-2：分层差异化训练

Hard 层——特权蒸馏（内化通用技能）

做不了任务 = 缺基础逻辑。给模型开"小灶"：用特权 prompt（通用技能 + 任务技能）跑出正确轨迹，然后用 JSD 蒸馏把通用技能"教"进参数。

学生只看标准 prompt，但要学会和老师（有通用技能指导时）一样的推理步骤。这样通用技能就内化到了参数里，推理时不需要额外注入。

Medium 层——标准 GRPO（提升成功率）

有一定基础但还不稳定。直接用 Phase-1 的轨迹做标准 GRPO 强化学习，通过试错最大化成功率。

Easy 层——反捷径探测（强制使用任务技能）

这里是最精彩的设计。任务太简单时，模型容易走捷径：直接从任务描述映射到答案，绕过检索到的任务技能。在 ID 场景下这没问题（反正模型记住了），但在 OOD 场景下——换了新技能，模型还是走老路，完全不读新技能。

怎么检测捷径？反事实探测：故意把任务技能拿掉（No-Skill Prompt），看模型没有技能时表现如何。如果和有技能时差不多 → 模型在走捷径。

利用这个"利用增益"u_i = p_i - p_i^none 作为任务级优势调节：走捷径的任务被惩罚，真正使用技能的任务被奖励。

推理时：只要任务技能

训练完成后，推理极其简洁：通用技能已经在参数里了，prompt 里只放检索到的任务技能。上下文精简，新技能即插即用。

效果：OOD 提升 13.2%

ALFWorld（家庭任务环境）

方法	ID Avg	OOD Avg	Rank
SkillRL（最强技能基线）	90.8	45.3	6.3
SKILL0（全内化）	85.1	39.6	7.5
SLIM	82.8	35.8	7.0
Skill0.5	93.1	58.5	2.5

比最强技能基线 SkillRL：ID +2.3%，OOD +13.2%。平均排名 2.5，远超所有基线。

WebShop（购物环境）

比最强技能基线：ID +2.1%，OOD +3.9%。一致提升。

消融：缺一不可

变体	ID	OOD
Skill0.5 完整	93.1	58.5
只做内化	88.0	47.0
只做外挂	68.0	28.0

只做外挂时全面崩塌——没有通用技能打底，任务技能的对比优势微乎其微，训练几乎停滞。只做内化时 OOD 明显差——内化底座有了，但遇到新技能不会用。两者必须联合。

训练动态

论文的训练曲线揭示了两个关键阶段：

早期：困难任务主导，特权蒸馏打破零梯度困境，Skill0.5 起步远快于基线
中后期：简单任务主导，反捷径探测维持 OOD 持续上升，而 SkillRL 开始过拟合下降

这件事意味着什么

不要把所有技能一锅炖。通用技能和任务技能有本质差异，分而治之效果远好于一刀切。

Skill0.5 的"0.5"哲学意味着，随着技能库持续扩张，模型只需要内化稳定的通用底座，任务技能可以无限外挂——这是一个可持续扩展的架构。

难度分层训练和反捷径探测是两个独立贡献——前者解决冷启动问题，后者解决过拟合问题。这两个思路不限于技能训练，也适用于其他 RL 场景。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～