当前位置: 首页 > news >正文

微软双论文深度剖析:Agent Skill 的评测体系与自进化优化

你的 Skill 真的有用吗?这个问题比你想的难回答

假设你花了一个下午,给你的 Agent 精心写了一个 Skill——里面有清晰的步骤、详尽的注意事项、格式规范的输出要求。你手动测了几次,感觉相当不错。然后你把它投入生产。

三周后,你发现某些任务的成功率反而比没有 Skill 时低了。

这不是假设场景。微软研究团队在 2026 年 5 月同期发布的两篇论文——SkillLens(“From Raw Experience to Skill Consumption”)和SkillOpt(“Executive Strategy for Self-Evolving Agent Skills”)——用严格的实验数据告诉我们:这种"负迁移"现象在 25% 的情况下都会发生,而且你靠肉眼读 Skill 文本根本判断不出来哪个更好。

这两篇论文一个回答"Skill 为什么有时候不管用",另一个回答"怎么系统性地让 Skill 越来越好"。读完你会发现,它们共同描绘的是一个关于 Agent 能力提升的全新范式。


第一篇论文:SkillLens——Skill 的完整生命周期研究

Skill 不是一个点,而是一条链

大多数人对 Skill 的理解停留在"一段写给 Agent 看的指令文本"。但 SkillLens 把这件事拆得更细,提出了 Skill 的三阶段生命周期

阶段 1: 经验生成(Experience Generation) 目标模型 M 在训练任务上跑一遍,产生一批执行轨迹 ↓ 阶段 2: 技能提取(Skill Extraction) 提取器模型 E 分析这批轨迹,蒸馏成结构化的 Skill 文档 ↓ 阶段 3: 技能消费(Skill Consumption) 同一个目标模型 M 带着提取出的 Skill 去做新任务,看能不能提升

这条链上有两个独立角色:**提取器(Extractor)**负责从经验中提炼知识,**目标模型(Target)**负责消费知识提升表现。关键洞察是:这两个角色彼此独立,性能不相关。一个提取能力强的模型可能是个弱消费者,反之亦然。

两个新指标:EE 和 TE

为了量化这两个角色的差异,论文提出了两个互补的指标:

提取效能(Extraction Efficacy, EE):固定一个提取器,它能为多少个不同目标模型稳定生产有用的 Skill?

EE ( E , D ) = 1 ∣ M ∣ ∑ M ∈ M Δ ( E , M , D ) \text{EE}(E, \mathcal{D}) = \frac{1}{|\mathcal{M}|} \sum_{M \in \mathcal{M}} \Delta(E, M, \mathcal{D})EE(E,D)=M1MMΔ(E,M,D)

目标可进化性(Target Evolvability, TE):固定一个目标模型,当用不同提取器来蒸馏它自己的经验,它能从中获得多大提升?

http://www.zskr.cn/news/1435733.html

相关文章:

  • DeepSeek总结的使用实体-组件-系统和基于存在性处理进行Python编程31-32
  • 2026年4月国内热门的高速机制造厂家找哪家,五轴联动加工中心/卧式加工中心/龙门加工中心,高速机生产商有哪些 - 品牌推荐师
  • 广州汽车无痕修复老牌门店名杰钣金喷漆专业靠谱 - 百航
  • 基于Arduino Leonardo的自适应游戏控制器DIY:为残障人士打造低成本辅助设备
  • 如何永久保存微信聊天记录?WeChatMsg完整数据备份指南
  • 2026重庆导游怎么找不踩坑|口碑排名、服务对比与选择建议 - 随峰国旅
  • 郑州市 上街区 甲醛检测、甲醛清除|维小达 甲醛CMA检测、新房甲醛清除、工装空气治理、异味根除、苯系物TVOC综合治理一站式服务 - 维小达科技
  • 2026 宁波钻石回收本地指南 六大实体店安全高效值得信赖 - 薛定谔的梨花猫
  • 终极Windows功能解锁器:ViVeTool GUI图形界面控制完全指南
  • 打印机全机型适配技术:企业办公效率的提升引擎 - 品牌优选官
  • 2026 宁波手表回收避坑 添价收钻石回收不扣损耗专业估价服务贴心 - 薛定谔的梨花猫
  • 深圳全屋定制599一平方能买吗?实测5家,告诉你真相 - 产品测评官
  • 如何轻松下载微信视频号、抖音等内容:跨平台资源下载器使用指南
  • 2026年暑假重庆旅游导游推荐终极榜单|纯玩路线、费用参考与选择建议 - 随峰国旅
  • AI瞄准系统终极指南:如何让普通玩家获得职业级瞄准精度
  • Yuzu模拟器版本选择完全指南:7个版本如何找到最适合你的完美配置 [特殊字符]
  • AI应用上架必过关卡,深度拆解Google Play与Gemini商店描述审核的5大隐性红线
  • Gemini品牌舆情监控落地指南:从数据采集到危机响应的5步标准化流程
  • 2026年7月重庆5天4晚亲子游导游榜单|纯玩行程解析与避坑指南 - 随峰国旅
  • 六西格玛备考需要报培训班吗 - 众智商学院官方
  • 2026年4月潮汕粥品牌推荐,火锅/美食/潮汕粥/牛肉火锅/粥底火锅/海鲜火锅/潮汕牛肉火锅/火锅店,潮汕粥品牌联系热线 - 品牌推荐师
  • 微信QQ防撤回失效怎么办?逆向工程打造稳定防撤回方案全攻略
  • 2026年实用降AIGC软件:亲测AI率从90%降至4%的省心方案 - 降AI小能手
  • 【限时解密】Gemini情感模型微调秘钥:仅3个参数调整,F1值提升18.7%(附可复现Prompt模板)
  • 深入TMDS编码:手把手解析紫光FPGA PGL22G的HDMI实验核心代码与信号时序
  • Gemini截图文案必须避开的4个认知陷阱(附Google Play审核官内部评分表PDF)
  • 深圳全屋定制闭口合同公司推荐 - 产品测评官
  • 3种高效方法解决IDM试用期限制:无需破解的完整解决方案
  • 基于Android与Arduino的FPV机器人:低成本实现远程视觉控制与AI扩展
  • RevokeMsgPatcher:5分钟掌握微信QQ防撤回神器