当前位置: 首页 > news >正文

Agent彻底爆发,美团连发了3篇Skill

太强了,美团连发了3篇Agent Skill技术论文:Skill0,Skill0.5,Skill1

先说一个反直觉的结论:训练 Agent 用技能,最危险的不是"学不会",而是"学会了但走捷径"——简单任务上模型绕过技能直接记忆答案,到了新环境就彻底崩溃。

而 Skill0.5 的解法,用一个词概括就是:“一半一半”。通用技能写进模型参数当底座,任务技能留在 prompt 当插件。不二选一,各管各的。

Agent 技能训练的二选一困境

给 Agent 装技能,当前有两种做法:

全外挂(Skill1):所有技能都塞进 prompt。好处是灵活,随时换技能。但 prompt 太长,LLM 的推理和指令遵从能力骤降——特别是在长链路任务中,模型容易"迷失在中间"。

全内化(SKILL0):所有技能都写进模型参数。好处是推理时不需要额外上下文。但模型容量有限,新技能和已内化的旧技能容易打架——参数里的 ID 习惯会压制 OOD 新技能。

这两种做法都假设"所有技能用同一种方式处理"。但这个假设未必都成立。

Skill0.5 的方法:难度分层 + 差异化训练

Skill0.5 的核心是一个两阶段流程:先按难度分班,再因材施教。

Phase-1:难度感知路由

对每个训练任务,先用标准 prompt(只有任务技能,没有通用技能)跑 G 次,算通过率 p_i:

  • p_i = 0:完全做不了 →Hard 层
  • 0 < p_i ≤ η_t:有时能做 →Medium 层
  • p_i > η_t:基本能做 →Easy 层

阈值 η_t 是滑动窗口平均,动态调整,避免单批次噪声。

Phase-2:分层差异化训练

Hard 层——特权蒸馏(内化通用技能)

做不了任务 = 缺基础逻辑。给模型开"小灶":用特权 prompt(通用技能 + 任务技能)跑出正确轨迹,然后用 JSD 蒸馏把通用技能"教"进参数。

学生只看标准 prompt,但要学会和老师(有通用技能指导时)一样的推理步骤。这样通用技能就内化到了参数里,推理时不需要额外注入。

Medium 层——标准 GRPO(提升成功率)

有一定基础但还不稳定。直接用 Phase-1 的轨迹做标准 GRPO 强化学习,通过试错最大化成功率。

Easy 层——反捷径探测(强制使用任务技能)

这里是最精彩的设计。任务太简单时,模型容易走捷径:直接从任务描述映射到答案,绕过检索到的任务技能。在 ID 场景下这没问题(反正模型记住了),但在 OOD 场景下——换了新技能,模型还是走老路,完全不读新技能。

怎么检测捷径?反事实探测:故意把任务技能拿掉(No-Skill Prompt),看模型没有技能时表现如何。如果和有技能时差不多 → 模型在走捷径。

利用这个"利用增益"u_i = p_i - p_i^none 作为任务级优势调节:走捷径的任务被惩罚,真正使用技能的任务被奖励。

推理时:只要任务技能

训练完成后,推理极其简洁:通用技能已经在参数里了,prompt 里只放检索到的任务技能。上下文精简,新技能即插即用。

效果:OOD 提升 13.2%

ALFWorld(家庭任务环境)

方法ID AvgOOD AvgRank
SkillRL(最强技能基线)90.845.36.3
SKILL0(全内化)85.139.67.5
SLIM82.835.87.0
Skill0.593.158.52.5

比最强技能基线 SkillRL:ID +2.3%,OOD +13.2%。平均排名 2.5,远超所有基线。

WebShop(购物环境)

比最强技能基线:ID +2.1%,OOD +3.9%。一致提升。

消融:缺一不可

变体IDOOD
Skill0.5 完整93.158.5
只做内化88.047.0
只做外挂68.028.0

只做外挂时全面崩塌——没有通用技能打底,任务技能的对比优势微乎其微,训练几乎停滞。只做内化时 OOD 明显差——内化底座有了,但遇到新技能不会用。两者必须联合。

训练动态

论文的训练曲线揭示了两个关键阶段:

  • 早期:困难任务主导,特权蒸馏打破零梯度困境,Skill0.5 起步远快于基线
  • 中后期:简单任务主导,反捷径探测维持 OOD 持续上升,而 SkillRL 开始过拟合下降

这件事意味着什么

不要把所有技能一锅炖。通用技能和任务技能有本质差异,分而治之效果远好于一刀切。

Skill0.5 的"0.5"哲学意味着,随着技能库持续扩张,模型只需要内化稳定的通用底座,任务技能可以无限外挂——这是一个可持续扩展的架构。

难度分层训练和反捷径探测是两个独立贡献——前者解决冷启动问题,后者解决过拟合问题。这两个思路不限于技能训练,也适用于其他 RL 场景。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.zskr.cn/news/1477894.html

相关文章:

  • 数据科学家面试评估新框架:四维能力雷达图实战指南
  • 大模型评估实战指南:从通用基准到业务可信度的系统化方法
  • GPT-4零代码实现CSV地理可视化:全球和平指数热力图3分钟生成
  • 2026高企认定专家咨询靠谱机构核心能力拆解:政府补贴申请流程/政策申报一站式服务/研发费用补贴/研发费用补贴/选择指南 - 优质品牌商家
  • AI工程师必备:高密度可行动技术简报设计方法论
  • 大模型 Prompt 灰度测试与评估:用 Go 搭建基于异步采样的影子测试系统
  • FreeCAD源码编译踩坑记:为什么你的LibPack和VS版本必须严格对应?
  • 海外离岸公司注册服务商选型:离岸公司税务申报流程/离岸公司需要做账报税吗/离岸账户开户/核心维度与实测对比 - 优质品牌商家
  • 高考真题试卷电子版|2025高考全科试卷分类下载
  • Element UI弹窗实战:从‘顶部弹出’到‘优雅居中’,一个属性+一段CSS的完整改造流程
  • 别再只显示数据了!给ABAP ALV报表(REUSE_ALV_GRID_DISPLAY)加上可编辑列和实时响应的完整配置流程
  • AI 驱动的 Web3 自动化工程:基于 ABI 编码的 DApp 前端组件与签名调用一键自动化生成实践
  • 从RTC到TSC:一文搞懂你电脑主板上的那些“钟表”都是干嘛的
  • 用一块STM32F103自制DAPLink调试器:从画板到烧录的全流程记录(附避坑点)
  • 保姆级教程:手把手教你用Python为AWS DeepRacer写一个能拿高分的奖励函数
  • 描述性统计实战指南:中位数、IQR与变异系数的业务决策逻辑
  • 西门子S7-1200 Modbus RTU通信避坑指南:从硬件选型到轮询超时,一次讲清
  • 别再死记硬背switch了!通过‘简单计算器’案例,聊聊C++条件分支的选择策略与代码可读性
  • vLLM生产级部署实战:从Ollama迁移的稳定性优化全指南
  • 医疗AI落地三步法:数据可信化、场景轻量化、人机协同化
  • RAG系统四阶段演进:从检索拼接到自适应认知协同
  • Roblox Studio新手避坑指南:从界面布局到资源上传,一次讲清那些没人告诉你的细节
  • 从Libevent到鸿蒙源码:手把手带你用C语言实现一个红黑树(附完整代码)
  • 避坑指南:S7-1200 Modbus RTU通信报错80C8/8200怎么办?一文搞定所有常见故障码
  • 异常值不是噪声,是业务系统的未解信号
  • 【OpenClaw Skill 功能全解】,从文档处理到系统运维一站式(包含安装包)
  • ModelOps:解决数据科学家运维黑洞的组织操作系统
  • 腾讯云对象存储团队到底在做什么?从技术新人视角拆解存储组的核心业务与招聘要求
  • 别只当对象存储用!用MinIO Admin命令把你的MinIO集群管得明明白白
  • Unified模型:理解与生成统一的NLP新范式