当前位置: 首页 > news >正文

深入解析:AUTOACT论文翻译

  1. “有限理性”原则(Mintrom, 2015)——即通过清晰的社会分工与明确的个体任务能够弥补个体在信息处理与利用能力上的局限其他学科的知识吗???就是。这个思想

AUTOACT:一种通过自我规划从零开始进行问答任务的自动智能体学习方法

论文题目:AUTOACT: Automatic Agent Learning from Scratch for QA via Self-Planning
发表会议:ACL 2024(第62届国际计算语言学协会年会,ACL 2024,Long Papers)
发表时间:2024年8月11-16日
团队:浙江大学、蚂蚁集团知识图谱联合实验室、AIWaves Inc.、阿里巴巴集团

摘要

语言智能体经过结合外部工具进行规划,在各种复杂问答任务中取得了显著性能。尽管该领域不断探索,现有语言智能体架构仍面临数据依赖成本高、结果难以复现,以及迫使单一模型承担多种功能等挑战。为此,我们提出AUTOACT,一个无需依赖大规模标注数据或闭源模型(如GPT-4)合成规划轨迹的自动智能体学习框架。在仅有少量数据和工具库的情况下,AUTOACT首先自动合成规划轨迹,无需人类或强闭源模型的参与。随后,AUTOACT基于目标任务信息和合成轨迹,采用分工策略自动分化,生成一个子智能体群体以协作完成任务。我们在不同大语言模型上进行了全面实验,结果表明AUTOACT性能优于或媲美多种强基线方法。进一步分析验证了分工策略的有效性,且AUTOACT生成的轨迹质量普遍优于现有方法

引言

语言智能体(Wang et al., 2023a; Xi et al., 2023; Guo et al., 2024)通过利用大语言模型(LLMs)强大的推理能力(Qiao et al., 2023b; Zhang et al., 2023)与可执行器具进行交互,已成为解决麻烦问答任务的人工智能系统中的关键组成部分。赋予大语言模型此种交互能力的过程被称为“智能体学习”,其中规划(Huang et al., 2024b)起着核心作用,负责将复杂困难分解为更容易的子问题(Wei et al., 2022; Yao et al., 2023; Team, 2023; Qian et al., 2023)、调用外部器具(Shen et al., 2023; Lu et al., 2023; Qin et al., 2023)、反思过往错误(Shinn et al., 2023; Madaan et al., 2023),并整合多源信息以得出最终答案。

已有大量研究(Li et al., 2023; Shen et al., 2023; Hong et al., 2023; Talebirad and Nadiri, 2023; Chen et al., 2023d,b)直接通过提示闭源的大语言模型来完成特定任务的规划。尽管这些办法具有便利性和灵活性,但闭源大语言模型仍存在诸多难以解决的难题:其使用成本高昂,且其黑箱特性使得结果难以复现。因此,近期一些研究转向通过微调开源模型来赋予其规划能力(Chen et al., 2023a; Zeng et al., 2023; Yin et al., 2023)。

然而,尽管现有的微调方法取得了一定成果,它们仍存在明显局限。一方面,训练开源模型需要大量标注的问答数据,且仍依赖闭源模型来合成规划轨迹。但在许多现实场景中(如私人助理或涉及敏感信息的企业应用),这些条件往往难以满足。另一方面,从智能体框架的角度来看,微调方法通常迫使单个语言智能体学习所有规划能力,这对模型能力提出了极高要求,违背了西蒙(Simon)提出的“有限理性”原则(Mintrom, 2015)——即清晰的社会分工与明确的个体任务可以弥补个体在信息处理与利用能力上的局限

为此,我们提出AUTOACT,一个用于问答任务的自动智能体学习框架。该框架不依赖大规模标注材料或闭源模型合成的规划轨迹,同时通过明确的任务分工来减轻单个智能体的负担(见图1)。在仅有用户提供少量示例数据的情况下,AUTOACT最初通过一个元智能体(META-AGENT)利用自指导(self-instruct)机制扩展任务数据库。随后,借助预设的工具库,元智能体可在无需人类或强闭源模型辅助的情况下,自动合成规划轨迹。最后,我们提出一种分工策略,模拟细胞分化过程:元智能体如同干细胞(Colman, 2008),根据合成轨迹(基因)分化为三个功能不同的子智能体,分别负责任务分解、工具调用和自我反思。该分化过程本质上是一个基于自合成轨迹的参数高效微调过程,资源消耗低。我们在表3中列出了AUTOACT与已有方法的区别。

在复杂问答任务上的实验表明,基于不同大语言模型的AUTOACT在性能上优于或媲美多种强基线方法。进一步的实证分析验证了我们所提出的分工策略的有效性。

http://www.zskr.cn/news/73668.html

相关文章:

  • Gemini 2.5 Flash / Nano Banana 系统提示词泄露:全文解读+安全隐患分析
  • 第五十六篇
  • Linux中级のSSH远程连接
  • 06 前后端分离的架构
  • C 语言 Day02
  • 解决国内Github.com打不开的方法
  • 不再错过任何销售:为你的Python Flask应用集成Stripe支付和Slack通知
  • 题解:P11811 [PA 2015] 人赢 / Mistrzostwa
  • 常用adb+hdc指令
  • 实用指南:Configuration of TCP/IP with SSL and TLS for Database Connections
  • 20232420 2025-2026-1 《网络与系统攻防技术》实验八实验报告
  • BZOJ1278 向量 vector
  • 2025年度安全狗狗驱虫药品牌排行榜:专业评测助力科学养宠
  • Ubuntu 22.04 与 24.04 常用操作命令
  • 全国中医师承选哪个机构靠谱?——理性对比后选择了阿虎医考师承
  • 深入解析:探索JavaScript前端开发:开启交互之门的神奇钥匙(二)
  • Node-RED:5分钟快速上手:安装与环境安装
  • 个人电脑本地私有知识库推荐:访答软件全解析
  • 缓存击穿,缓存穿透,缓存雪崩的原因和解决方案(或者说使用缓存的过程中有没有遇到什么问题,怎么应对的)
  • 写给自己看,自己写自己
  • 2025年现浇楼板施工验收标准排行,你家合格吗?混凝土现浇/钢筋混凝土现浇/现浇楼梯/现浇楼板现浇楼板多少钱一平推荐榜单
  • GoldenDB数据库工程师培训(中兴GoldenDB金融级/运营商级分布式数据库) 原创
  • 2025年防雨棚厂家供应排行榜,热门联系电话汇总,控制台定做/龙门架监控杆/指挥中心控制台/防雨套/防雨棚生产厂家推荐榜
  • XXE盲注 感受创造之美
  • Rustup 暂时切换国内源并更新
  • 【完整源码+数据集】蓝莓数据集,yolo11蓝莓成熟度检测数据集 3023 张,蓝莓成熟度资料集,目标检测蓝莓识别算法系统实战教程
  • 2025年货架批发厂家口碑推荐TOP5,贯通货架/托盘货架/组合式货架/牛脚式货架/穿梭式货架/仓库存储货架源头厂家推荐
  • 深度学习:python人脸表情识别系统 情绪识别系统 深度学习 神经网络CNN算法 ✅ - 指南
  • 5
  • 2025年必看:花灯厂家排行,彩车花灯工艺谁更优?华景花灯/夜景布置灯/商场美陈花灯/古镇花灯/演绎花灯生产商有哪些