当前位置: 首页 > news >正文

Meta推出Agent Learning via Early Experience,推动语言代理自主学习新范式

image

原文: https://mp.weixin.qq.com/s/fhNRtk0FhK6K9_LBLwbDSg

全文摘要

在人工智能领域,语言代理(Language Agents)的自主学习能力一直是研究热点。传统依赖专家数据的模仿学习(Imitation Learning)存在泛化能力弱、依赖人工标注等问题,而强化学习(Reinforcement Learning)又受限于奖励信号难以获取的困境。近日,来自Meta Superintelligence Labs、FAIR at Meta和The Ohio State University的研究团队提出了一种名为早期经验(Early Experience)的新范式,为语言代理的自主学习开辟了新路径。这项研究不仅解决了现有方法的局限性,还为未来构建更智能的AI系统奠定了基础。

论文地址:https://arxiv.org/abs/2510.08558

论文标题:Agent Learning via Early Experience

论文方法

核心亮点速览

  • 新范式提出:提出"早期经验",将代理自身行为及其导致的环境状态变化转化为监督信号,无需外部奖励。
  • 双策略驱动:隐式世界建模(Implicit World Modeling)和自我反思(Self-Reflection)两大策略,让代理从经验中学习。
  • 全面验证:在8个不同领域(如科学实验、网页导航、工具使用等)和多个模型家族上验证有效性。
  • 性能提升:相比模仿学习,成功率平均提升9.6%,泛化能力提升9.4%,且为后续强化学习提供良好基础。

从模仿学习到自主学习:早期经验的桥梁作用

传统方法的局限性

当前语言代理主要依赖两种学习方式:

  1. 模仿学习:通过专家演示数据训练,但存在数据依赖性强、泛化能力弱的问题。
  2. 强化学习:依赖环境提供的奖励信号,但许多真实环境(如网页交互)缺乏可验证的奖励机制。

早期经验的创新之处

研究团队提出的早期经验(Early Experience)范式,巧妙地将代理自身行为及其导致的环境状态变化转化为监督信号。这种方法既不需要专家数据,也不依赖外部奖励,而是让代理通过"试错"积累经验,逐步提升决策能力。

核心思想:代理在每个状态生成多个候选动作,执行后观察环境反馈(如网页变化、工具输出等),将这些状态转换作为监督信号进行学习。

论文实验

1

两大核心策略:隐式世界建模与自我反思

隐式世界建模(Implicit World Modeling)

原理:将代理自身动作导致的环境状态变化视为自然语言预测任务,训练代理预测未来状态。

  • 训练过程:代理在专家状态生成多个候选动作,执行后获得环境反馈(自然语言描述的下一状态),通过预测这些状态学习环境动力学。
  • 优势:帮助代理理解环境动态,提升对非专家行为的鲁棒性。

实验结果:在ALFWorld和WebShop等环境中,成功率提升5.5%-18.4%。

自我反思(Self-Reflection)

原理:代理比较自身动作与专家动作的差异,生成自然语言解释为何专家动作更优。

  • 训练过程:代理生成多个候选动作及其结果,通过大语言模型生成对比解释,形成(状态-解释-动作)三元组作为训练数据。
  • 优势:提升代理对决策原则的理解,增强泛化能力。

实验结果:在TravelPlanner和BFCLv3等任务中,成功率提升12.8%-15.0%。

多维度实验验证:性能与泛化能力双突破

实验环境

研究团队在8个不同领域进行了全面验证,包括:

  • 具身导航:ALFWorld(家庭任务)
  • 科学实验:ScienceWorld(实验室操作)
  • 长时序规划:TravelPlanner(旅行规划)
  • 工具使用:BFCLv3(多轮API调用)
  • 网页导航:WebShop(电商购物)

关键结果

环境 模型 模仿学习 隐式世界建模 自我反思
ALFWorld Llama-3.2-3B 78.1% 83.6% (+5.5) 85.9% (+7.8)
WebShop Llama-3.1-8B 58.6% 72.7% (+14.1) 58.2% (+0.4)
ScienceWorld Qwen-2.5-7B 53.9% 59.4% (+5.5) 68.0% (+14.1)

关键发现:

  • 早期经验在所有环境中均优于模仿学习
  • 自我反思在需要多步推理的任务中表现更优
  • 隐式世界建模在结构化环境中效果显著

未来展望:从早期经验到完全自主学习

局限性

  • 长时序信用分配:当前方法主要处理短时序经验,长时序任务仍需探索。
  • 环境复杂性:在高度动态的环境中,状态预测难度增加。

潜在方向

  • 跨环境迁移:将一个环境中学到的经验迁移到其他领域。
  • 持续学习:结合奖励信号,在真实环境中实现持续改进。
  • 大规模应用:在真实世界部署,收集有机交互数据驱动策略优化。

结语

"早期经验"范式为语言代理的自主学习提供了新的思路。通过将代理自身行为转化为监督信号,不仅解决了传统方法的局限性,还为未来构建更智能的AI系统奠定了基础。这项研究展示了自主学习的潜力,预示着AI代理将逐步摆脱对人工标注数据的依赖,迈向真正的自主进化。

http://www.zskr.cn/news/22455.html

相关文章:

  • fiddlerscriptCustomize Menus - 特洛伊
  • Fiddler And LINQ - 特洛伊
  • 动态加速中优化失败路径反馈的方法
  • 铜价冲击下,如何“锁住”母排利润?
  • 10.16读书报告
  • 元推理:哥德尔搞不完定理,翻来覆去的搞。。。。
  • PostgreSQL社区CUUG 院校行 - 内蒙古农业大学计算机与信息工程学院
  • 2025年铝复合板厂家综合实力排行榜TOP10:一站式服务成行业新趋势
  • 2025年市面上桥架品牌排行榜前十强权威解析
  • 2025年桥架品牌综合实力排行榜:十大优质供应商权威评测
  • 2025 年注浆管生产厂家最新推荐榜:聚焦密封性能,精选优质企业助力工程采购决策岩心管/钢花管/管棚管/注浆管小导管厂家推荐
  • Nx项目中利用Vitest对原生JS组件进行单元测试
  • 2025年10月16日权威信息公布:西安买房必看新楼盘口碑排行榜TOP10权威发布
  • 2025-CodeStar十一综合评估CSP-S
  • JavaScriptDay3
  • 2025 年标识标牌制造厂家最新推荐排行榜:解读行业头部企业产能与技术实力,精选优质品牌供订做参考
  • 四输入六输出的欠驱动系统建模与仿真
  • 手写 bitset 模板
  • 【SPIE出版 | 高校主办,有ISSN、ISBN号 】第四届交通运输工程前沿国际学术会议(FTTE 2025)
  • 完整教程:LeetCode算法日记 - Day 58: 目标和、数组总和
  • MATLAB中基于 S-V模型进行毫米波信道建模与仿真
  • 认知与困境
  • AT_joisc2021_c フードコート (Foodcourt)
  • L06_mybatis读取MySQL数据库(懵逼版)
  • 2025 高效过滤器制造企业最新推荐榜:供货商定制方案深度解析及口碑评级
  • 2025 年试验箱厂家 TOP 企业品牌推荐排行榜,氙灯老化 / 紫外老化 / 冷热冲击 / 恒温恒湿 / 高低温 / 快速温变 / 盐水喷雾 / 高温老化 / 砂尘 / 淋雨试验箱公司推荐!
  • 系统修复
  • 什么是vibe ?
  • 2025年10月试验箱厂家最新推荐排行榜:氙灯老化试验箱,紫外老化试验箱,冷热冲击试验箱,恒温恒湿试验箱公司推荐!
  • 经典视觉跟踪算法的MATLAB实现