当前位置：首页 > news >正文

AI Agent 认知模型与推理模式综述

news 2026/6/10 16:42:09

AI Agent 认知模型与推理模式综述从 ReAct 到 LATS从单智能体到多智能体协作——系统梳理 LLM Agent 的核心认知架构一、引言为什么 Agent 需要认知模型2022 年 10 月一篇名为《ReAct: Synergizing Reasoning and Acting in Language Models》的论文横空出世首次将 LLM 的推理和行动统一在一个循环中。此后两年Agent 认知模型经历了爆发式增长——ReWOO、Reflexion、Tree-of-Thoughts、LATS、Plan-and-Execute、Pre-Act……这些名字背后是人类对让 LLM 像人一样思考的持续探索。本文将系统梳理当前主流的 Agent 认知模型从底层推理基座到高层协作模式分析每种模式的核心思想、适用场景和设计取舍。二、认知基座Chain-of-Thought思维链所有 Agent 认知模型的根基来自Chain-of-ThoughtCoT——让模型在输出最终答案前先生成中间推理步骤。用户问题一个农场有 23 只鸡和 17 只兔子一共多少条腿 CoT 推理鸡: 23 × 2 46 条腿兔子: 17 × 4 68 条腿总腿数: 46 68 114 条腿最终答案1142022 年Google 的研究表明仅需在 prompt 末尾加上Let’s think step by step就能将 MultiArith 准确率从 17.7% 提升到 78.7%。但这只是纯内省——模型的知识被冻结在权重中无法访问外部世界。Agent 认知模型的核心突破就是给模型装上了手脚和眼睛。三、核心 Agent 认知模型3.1 ReActReasoning Acting—— 开山之作论文: Yao et al., “ReAct: Synergizing Reasoning and Acting in Language Models” (2022.10)核心循环:Thought → Action → Observation → Thought → ...这是最经典的 Agent 模式。模型在每一步中Thought思考当前需要做什么Action执行具体操作搜索、计算、调用工具Observation观察执行结果基于观察更新认知进入下一步Thought 1: 我需要找到 2023 年诺贝尔物理学奖得主 Action 1: Search[2023 Nobel Prize Physics winner] Observation 1: Pierre Agostini, Ferenc Krausz, Anne LHuillier... Thought 2: 我需要了解 Anne LHuillier 的主要贡献 Action 2: Search[Anne LHuillier attosecond physics contribution] Observation 2: 她在阿秒物理学的开创性工作... Final Answer: 2023 年诺贝尔物理学奖授予...性能数据ALFWorld 提升 34%WebShop 提升 10%对比纯推理或纯行动优势推理过程可追溯便于调试通过外部工具接地气减少幻觉灵活适应无需预定义执行路径局限Token 消耗随步数线性增长不支持回溯如果第三步发现第一步走错了无法回头纯串行执行无法并行Ruby的注释ReAct 是目前绝大多数 Agent 框架LangChain、AutoGPT、agent-os的默认模式也是理解其他模式的基础。3.2 Reflexion反思—— 从失败中学习论文: Shinn et al., “Reflexion: Language Agents with Verbal Reinforcement Learning” (2023)核心创新Agent 不仅行动还会在行动后进行自我反思并将反思存入长期记忆用于指导下一次尝试。第一次尝试任务: 写一个正则表达式验证邮箱行动: 输出 \\w\\w\\.\\w 评估: 测试失败 — 未匹配 usersub.example.com 反思: 这个正则只允许一个点号分隔的域名没有处理子域名的情况第二次尝试携带反思记忆优化后的输出: ^[\\w.-][\\w-](\\.[\\w-])$ 评估: 测试通过 ✓架构Actor执行任务的 LLMEvaluator评估任务是否成功基于测试用例、环境反馈等Self-Reflection生成语言化的反思存入长期记忆Memory存储反思轨迹作为后续尝试的上下文性能数据HumanEval 91%GPT-4ALFWorld 130/134 任务成功关键洞察这是语言化的强化学习——模型的权重不变但通过在上下文中积累反思经验实现了类似于 RL 的渐进优化效果。适用场景代码生成有测试用例、决策任务有明确成功/失败信号、任何可以试错的场景。3.3 Tree-of-Thoughts思维树—— 探索多种可能性论文: Yao et al., “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (2023.5)核心创新将推理建模为树搜索——在每个步骤生成多个候选思路评估后保留最优的继续探索。[任务找到24点游戏的解] │ 2, 3, 4, 6 24 / | \ 235 347 6-42 549 7613 2×36 9615 13×226 6×424 ✓ (剪枝) (剪枝) (到达目标!)每个节点的操作Expand生成多个候选思路Score评估每个候选的前景通过启发式规则或 LLM 自评Prune保留得分最高的 K 个分支Backtrack如果当前路径失败回溯尝试其他分支性能数据24 点游戏成功率CoT 4% → ToT 74%优势系统化的多路径探索避免陷入死胡同代价大量 LLM 调用每个节点都需要调用成本高适用场景数学谜题、创意写作、策略规划——需要多想几种方案再来比较的场景。3.4 ReWOOReasoning WithOut Observation—— 大幅降本论文: Xu et al., “ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models” (2023.5)核心创新将推理和工具调用解耦——先出完整计划含占位符再批量执行工具最后合成答案。ReAct串行每一步都要 LLM: Thought → Tool → Wait → Thought → Tool → Wait → ... ReWOO三阶段: Planner → 生成完整计划含 #E1, #E2, #E3 工具占位符 Worker → 批量执行所有工具无 LLM 参与 Solver → 合成最终答案Token 对比指标ReActReWOOHotpotQA 准确率40.8%42.4%Token 用量~10,000~2,000↓80%适用场景工具需求可预测的多跳问答、内容摘要、成本敏感部署。局限执行中无法根据中间结果动态调整计划。3.5 Plan-and-Execute先规划后执行—— 工程化首选核心创新将任务分解为规划阶段和执行阶段两者可以由不同能力的模型承担。Planning Phase强模型如 GPT-4o: 任务: 为一篇技术博客生成配图和数据计划: 1. 提取文章中的关键数据点 2. 为每个数据点生成可视化描述 3. 生成图表代码 4. 整合到文章中 Execution Phase弱模型如 GPT-4o-mini: 按序执行上述步骤必要时触发 Replan优势可以用强模型规划弱模型执行降低成本支持 DAG 级并行执行包含 Replan 机制可动态调整性能比串行 ReAct 降低约 3.7 倍延迟准确率提升约 9%典型框架LangGraph、CrewAI 的 sequential/parallel 模式、agent-workflow 的 YAML-defined FSM3.6 LATSLanguage Agent Tree Search—— 集大成者论文: Zhou et al., “Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models” (2023)核心创新融合 ReAct Tree-of-Thoughts Reflexion MCTS蒙特卡洛树搜索。LATS ReAct 的行动能力 ToT 的多路径探索 Reflexion 的自我反思 MCTS 的搜索策略在每个决策点 → 生成多个候选行动 → 用树搜索探索 → 通过反思评估路径价值 → 选择最优路径继续性能HotpotQA exact match 0.61ReAct 0.32Reflexion 0.51代价每次请求约 71 次 LLM 调用适用场景需要深度推理的复杂任务、交互式 QA —— 成本允许的前提下追求最高质量。四、模型谱系与演进关系Chain-of-Thought (2022.01) │ ┌───────────┼───────────┐ ▼ ▼ ▼ ReAct Tree-of-Thoughts Self-Ask (2022.10) (2023.05) (2022.10) │ │ │ ├─────┬─────┤ │ ▼ ▼ ▼ │ Reflexion ReWOO LATS │ (2023) (2023) (2023) │ │ │ │ │ ▼ ▼ ▼ ▼ ┌────────────── Plan-and-Execute ──────────────┐ │ (2023-2025) │ │ ├─ LLM Compiler (DAG 并行, 2024) │ │ ├─ Pre-Act (持续精化计划, 2025) │ │ └─ Self-Discovery (自适应推理策略, 2024) │ └──────────────────────────────────────────────┘ │ ▼ Multi-Agent Architectures ├─ Orchestrator-Worker (Anthropic, 2025) ├─ Debate / Adversarial └─ Hierarchical Teams两条演进主线支线路径核心关注规划先行ReAct → ReWOO → Plan-Solve → LLM Compiler效率、并行、降本反思驱动Reflexion → Self-Refine → LATS质量、纠错、学习终点收敛LATS 融合两者Pre-Act 和 Orchestrator-Worker 继承并发扬质量效率五、特殊模式Self-Ask自问自答论文: Press et al., “Measuring and Narrowing the Compositionality Gap in Language Models” (2022.10)Agent 将复杂问题分解为子问题逐个回答最后整合。与 ReAct 同月提出思路相似但侧重问题分解而非工具使用。STORM多视角研究报告生成论文: Shao et al., “Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models” (2024)从多个专家视角并行探索一个主题最终合成为结构化的研究报告。本质上是多角色模拟知识合成的 Agent 模式。LLM Compiler编译器思维将任务视为编译过程解析指令 → 构建 DAG有向无环图→ 识别可并行的节点 → 调度执行。相比 ReWOO 的线性计划Compiler 的 DAG 可以实现真正的并行。声称 3.6× 加速6.7× Token 节省。Pre-Act持续精化论文: Hu et al. (2025.5)在 Plan-and-Execute 基础上Agent 在执行过程中持续预测未来的工具使用并提前优化。最新发表的执行期优化模式。六、Anthropic 的工业实践Anthropic 在 2025 年发表的 Agent 构建指南中提出了三层递进模型Single-call → Workflows → Agents (简单任务) (预定流程) (自主循环)核心原则简单的就是最好的— 能用单次调用解决的不要用 Agent把 Agent 放进 task 的上下文窗口里思考— 它在做决策时能看到什么信息工具设计即 Prompt 设计— 工具描述是 Agent 理解能力的首要接口上下文工程 Prompt 工程— 在 Agent 循环中管理上下文比优化单次 prompt 重要得多实践数据上下文编辑 Agent 记忆 →39% 性能提升多 Agent 协作系统 →90.2% 性能提升对比单 Agent但15 倍 Token 消耗Sub-agent 隔离上下文 →90% 时间缩减七、选型指南按任务复杂度复杂度推荐模式示例1-2 步直接 LLM / Single-call摘要、翻译、分类3-5 步ReAct / Reflexion搜索问答、简单代码生成5-10 步Plan-Execute / ReWOO多跳 QA、报告生成10 步LATS / ToT / 多 Agent复杂编程、策略分析按成本预算预算推荐模式低ReWOO、最小化 ReAct中ReAct 1-2 轮 Reflexion、Plan-Execute高LATS、多 Agent 协作、多轮 Reflexion按可靠性要求要求推荐模式标准ReAct较高ReAct Reflexion有测试用例自检极高LATS 多路径验证投票/集成按是否需要工具需要工具 → 需要并行 → LLM Compiler → 不需要并行 → 预算敏感 → ReWOO → 不敏感 → ReAct 不需要工具 → 质量优先 → Reflexion / LATS → 速度优先 → Plan-Solve八、你的 Agent OS 应该支持哪些模式回到实际工程一个生产级 Agent 框架至少应该原生支持三种模式模式用途实现优先级ReAct默认模式覆盖 80% 场景P0Plan-Execute复杂多步任务弱模型执行P1Reflexion需要自我纠错的场景代码、测试P1更高级的模式LATS、LLM Compiler、多 Agent可以根据实际需求逐步补充——但前三者是地基缺一不可。参考文献Yao et al. —ReAct: Synergizing Reasoning and Acting in Language Models(2022)Shinn et al. —Reflexion: Language Agents with Verbal Reinforcement Learning(2023)Yao et al. —Tree of Thoughts: Deliberate Problem Solving with Large Language Models(2023)Xu et al. —ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models(2023)Zhou et al. —Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models(2023)Press et al. —Measuring and Narrowing the Compositionality Gap in Language Models(2022)Shao et al. —Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models(2024)Erdogan et al. —Plan-and-Act(2025)Hu et al. —Pre-Act: Continually Refining Multi-step Execution Plans(2025)Anthropic —Building Effective Agents(2024)Anthropic —Building Production-Ready Agentic Systems(2025)Masterman et al. —The Landscape of Emerging AI Agent Architectures(2024)Plaat et al. —Agentic Large Language Models, a Survey(2024)Xu et al. —AI Agent Systems: Architectures, Applications, and Evaluation(2025)写在最后Agent 认知模型的演进史本质上是对一个核心问题的持续回答——如何让 LLM 的推理空间从线性链条扩展为树、图乃至搜索森林同时控制成本、保证可靠性。ReAct 给出了第一个可行答案它的后继者们正在把这条路的边界推得更远。

查看全文

http://www.zskr.cn/news/1398227.html