当前位置：首页 > news >正文

深入解析：AUTOACT论文翻译

news 2026/6/11 18:52:04

“有限理性”原则（Mintrom, 2015）——即通过清晰的社会分工与明确的个体任务能够弥补个体在信息处理与利用能力上的局限其他学科的知识吗？？？就是。这个思想

AUTOACT：一种通过自我规划从零开始进行问答任务的自动智能体学习方法

论文题目：AUTOACT: Automatic Agent Learning from Scratch for QA via Self-Planning
发表会议：ACL 2024（第62届国际计算语言学协会年会，ACL 2024，Long Papers）
发表时间：2024年8月11-16日
团队：浙江大学、蚂蚁集团知识图谱联合实验室、AIWaves Inc.、阿里巴巴集团

摘要

语言智能体经过结合外部工具进行规划，在各种复杂问答任务中取得了显著性能。尽管该领域不断探索，现有语言智能体架构仍面临数据依赖成本高、结果难以复现，以及迫使单一模型承担多种功能等挑战。为此，我们提出AUTOACT，一个无需依赖大规模标注数据或闭源模型（如GPT-4）合成规划轨迹的自动智能体学习框架。在仅有少量数据和工具库的情况下，AUTOACT首先自动合成规划轨迹，无需人类或强闭源模型的参与。随后，AUTOACT基于目标任务信息和合成轨迹，采用分工策略自动分化，生成一个子智能体群体以协作完成任务。我们在不同大语言模型上进行了全面实验，结果表明AUTOACT性能优于或媲美多种强基线方法。进一步分析验证了分工策略的有效性，且AUTOACT生成的轨迹质量普遍优于现有方法。

引言

语言智能体（Wang et al., 2023a; Xi et al., 2023; Guo et al., 2024）通过利用大语言模型（LLMs）强大的推理能力（Qiao et al., 2023b; Zhang et al., 2023）与可执行器具进行交互，已成为解决麻烦问答任务的人工智能系统中的关键组成部分。赋予大语言模型此种交互能力的过程被称为“智能体学习”，其中规划（Huang et al., 2024b）起着核心作用，负责将复杂困难分解为更容易的子问题（Wei et al., 2022; Yao et al., 2023; Team, 2023; Qian et al., 2023）、调用外部器具（Shen et al., 2023; Lu et al., 2023; Qin et al., 2023）、反思过往错误（Shinn et al., 2023; Madaan et al., 2023），并整合多源信息以得出最终答案。

已有大量研究（Li et al., 2023; Shen et al., 2023; Hong et al., 2023; Talebirad and Nadiri, 2023; Chen et al., 2023d,b）直接通过提示闭源的大语言模型来完成特定任务的规划。尽管这些办法具有便利性和灵活性，但闭源大语言模型仍存在诸多难以解决的难题：其使用成本高昂，且其黑箱特性使得结果难以复现。因此，近期一些研究转向通过微调开源模型来赋予其规划能力（Chen et al., 2023a; Zeng et al., 2023; Yin et al., 2023）。

然而，尽管现有的微调方法取得了一定成果，它们仍存在明显局限。一方面，训练开源模型需要大量标注的问答数据，且仍依赖闭源模型来合成规划轨迹。但在许多现实场景中（如私人助理或涉及敏感信息的企业应用），这些条件往往难以满足。另一方面，从智能体框架的角度来看，微调方法通常迫使单个语言智能体学习所有规划能力，这对模型能力提出了极高要求，违背了西蒙（Simon）提出的“有限理性”原则（Mintrom, 2015）——即清晰的社会分工与明确的个体任务可以弥补个体在信息处理与利用能力上的局限。

为此，我们提出AUTOACT，一个用于问答任务的自动智能体学习框架。该框架不依赖大规模标注材料或闭源模型合成的规划轨迹，同时通过明确的任务分工来减轻单个智能体的负担（见图1）。在仅有用户提供少量示例数据的情况下，AUTOACT最初通过一个元智能体（META-AGENT）利用自指导（self-instruct）机制扩展任务数据库。随后，借助预设的工具库，元智能体可在无需人类或强闭源模型辅助的情况下，自动合成规划轨迹。最后，我们提出一种分工策略，模拟细胞分化过程：元智能体如同干细胞（Colman, 2008），根据合成轨迹（基因）分化为三个功能不同的子智能体，分别负责任务分解、工具调用和自我反思。该分化过程本质上是一个基于自合成轨迹的参数高效微调过程，资源消耗低。我们在表3中列出了AUTOACT与已有方法的区别。

在复杂问答任务上的实验表明，基于不同大语言模型的AUTOACT在性能上优于或媲美多种强基线方法。进一步的实证分析验证了我们所提出的分工策略的有效性。

查看全文

http://www.zskr.cn/news/73668.html