调查研究-196 CEO-Bench：Agent 不再只是“做任务“，而是要学会“经营一个系统“-尧图网络科技

CEO-Bench：Agent 不再只是"做任务"，而是要学会"经营一个系统"

TL;DR

场景：AI Agent 的能力评估正从"完成一次性任务"转向"长期经营一个动态系统"，CEO-Bench 给出首个 500 天创业公司长程决策基准。
结论：当前最强的 LLM（Claude Opus 4.8、GPT-5.5）刚刚跨过 100 万美元初始资金门槛，绝大多数模型仍在长程系统驾驭中破产或亏损；底层模型之外，Agent Harness、长期记忆和预测能力是关键瓶颈。
产出：一份面向 Agent 工程师的"长程 Agent 架构清单"——状态层 / 指标层 / 策略层 / 实验层 / 预测层 / 审计层 / 恢复层。

版本矩阵

功能 / 维度	状态	说明
论文标题	✅ 已验证	CEO-Bench: Can Agents Play the Long Game?（arXiv:2606.18543）
作者	✅ 已验证	Haozhe Chen, Karthik Narasimhan, Zhuang Liu
提交日期	✅ 已验证	2026-06-16（arXiv 列表确认）
模拟时长	✅ 已验证	500 天（约 72 周决策周期）
初始资金	✅ 已验证	$1,000,000 美元
虚拟公司	✅ 已验证	NovaMind（订阅制 AI 软件公司）
核心新概念	✅ 已验证	Steering Intelligence（系统驾驭智能）
跑赢初始现金的模型	✅ 已验证	仅 Claude Opus 4.8、GPT-5.5 在最佳运行中超过 $1M
Agent Harness 消融	✅ 已验证	论文比较了最小终端 Agent、Claude Code、Codex 等不同外壳
规则基线（Heuristic Baseline）	✅ 已验证	不使用 LLM 的固定启发式策略也能跑出相当强结果

CEO-Bench 概念图：500 天模拟中经营虚拟 AI 软件公司 NovaMind，评估 Agent 的长期系统驾驭能力

过去两年，AI Agent 的能力提升很快。

它们可以写代码、改 Bug、查资料、整理文档、操作网页、调用工具、生成报告。很多评测也围绕这些能力展开：给 Agent 一个明确任务，看它能不能完成。

比如修复一个 GitHub issue、完成一次网页后台操作、订一张机票、根据资料写一份研究报告。这些任务已经比传统问答复杂很多，但它们仍然有一个共同特点：目标相对明确，周期相对短，反馈相对直接。

CEO-Bench 这篇论文提出了一个更难的问题：

如果让 Agent 不是完成一个任务，而是持续经营一个系统，它还能表现好吗？

论文标题是CEO-Bench: Can Agents Play the Long Game?。这里的 long game 不是简单把上下文变长，也不是让模型一次回答更久，而是指数天、数周、数百天尺度上的连续决策。

在这种任务里，早期决策会影响后期结果，错误不一定马上暴露，正确投入也不一定马上回报。Agent 必须在信息不完整、环境变化、反馈延迟、资源有限的情况下，持续调整策略。

这已经不是"工具调用能力"问题，而是"系统驾驭能力"问题。

为什么需要 CEO-Bench？

现在很多 Agent Benchmark 测的是局部能力。

编码 Agent 评测会看模型能不能修复某个 issue；网页 Agent 评测会看模型能不能完成某个网页操作；办公 Agent 评测会看模型能不能跨应用完成文档、邮件、表格任务。

这些评测很有价值，但它们还不够接近真实世界里的复杂工作。

真实工作通常不是一次性任务，而是长期过程。经营一个产品、管理一个项目、运营一个公司、维护一个系统、推进一个商业目标，都会遇到几类难题：

第一，目标很远。今天做的决策，可能几周后才体现结果。现在加大研发投入，短期现金会下降，但长期产品质量可能提升；现在削减客服成本，短期利润会变好，但用户满意度和留存可能慢慢恶化。

第二，信息不完整。现实里没有全知视角。你不知道用户真实满意度，不知道竞品下一步动作，不知道客户真实价格敏感度，也不知道某次营销效果到底是偶然波动还是有效信号。

第三，反馈有噪声。用户投诉可能只是个别现象，也可能代表系统性问题；收入上涨可能来自策略有效，也可能只是市场周期；客户流失可能来自价格、质量、竞品、宏观环境，也可能是这些因素叠加。

第四，系统是耦合的。定价影响转化率，转化率影响收入，收入影响现金流，现金流影响研发能力，研发能力影响产品质量，产品质量影响留存和口碑，口碑又影响后续获客成本。

单点优化不够。Agent 必须理解多个变量之间的联动关系。

CEO-Bench 的意义就在这里：它不再只问"Agent 能不能完成一个动作"，而是问"Agent 能不能在一个持续变化的复杂系统里，把一家公司带向长期目标"。

长程经营为什么难：目标很远、信息不全、反馈延迟、系统耦合；价格/广告/研发/质量/用户数/现金流互相牵动

CEO-Bench 到底让 Agent 做什么？

CEO-Bench 构造了一家虚拟创业公司，名字叫 NovaMind。

这家公司是一家订阅制 AI 软件公司。Agent 扮演 CEO，目标是在 500 个模拟日之后，让公司手里的现金尽可能多。初始条件很简单：公司一开始有 100 万美元现金，客户数为 0；如果现金跌破 0，公司破产，模拟结束。

每一周，Agent 都可以采取一系列动作。它不是简单选择 A/B/C，而是通过一个可编程 Python 接口操作公司。

它可以调整产品价格，设置订阅套餐和使用额度，给不同客户群投放广告，选择不同模型档位，投入研发项目，购买基础设施容量，增加客服和运维支出，做市场调研，发现新客户群，处理企业客户谈判，阅读社交媒体上的用户反馈、竞品动态、宏观变化，也可以在社交媒体上发帖或回复，影响市场反应。

这和传统 benchmark 的差异很大。

传统评测里，Agent 常常只需要在有限工具里完成一个清晰任务。CEO-Bench 里，Agent 面对的是一个经营系统。它必须自己分析业务数据，自己设计策略，自己决定投入节奏，自己承担后果。

更关键的是，CEO-Bench 给 Agent 的不是"上帝视角"。

它能看到数据库、订单、合同、现金流水、订阅记录、广告归因、支持工单、社交媒体内容等信息，但看不到底层真相。比如它看不到客户真实满意度、真实价格敏感度、真实流失概率、竞品完整计划和市场需求参数。

它只能像现实中的创业公司管理者一样，通过间接数据推断真实情况。

这才是 CEO-Bench 最狠的地方：它不只是让 Agent 做决策，而是让 Agent 在"不知道自己是否知道"的状态下做决策。

为什么说它是长程 Agent 决策评测？

长程不是简单把任务拉长。

如果只是让 Agent 重复执行 500 次简单任务，那不叫长程智能，只叫耐力测试。CEO-Bench 的长程难度来自因果延迟和策略累积。

Agent 今天降低价格，短期可能带来更多客户，但长期可能降低收入质量，甚至让高价值客户觉得产品定位下降。

Agent 今天砍掉研发预算，短期现金流会变好，但几周后产品质量跟不上竞品，客户开始流失。

Agent 今天砸钱营销，短期获客上升，但如果产品质量和基础设施跟不上，就会引发差评、退款、流失和声誉损害。

Agent 今天投入企业销售，谈判结果也可能不是马上出现，而是在多个回合之后才转化成合同。

这要求 Agent 具备四类能力：

在不确定环境里做长期规划。
从噪声数据里主动获取信息。
根据市场变化及时调整策略。
把定价、营销、研发、运维、客服、销售、沟通等动作组织成一个连贯方向。

论文把这种能力称为Steering Intelligence。可以翻译成"驾驭智能"或"系统 steering 能力"。

它不是单点执行能力，而是长期控制一个复杂系统朝目标移动的能力。

强 Agent 与弱 Agent 对比：会探索、会预测、会记忆、会止损；强 Agent 用策略脚本驱动 Observe→Analyze→Decide→Execute→Review 闭环

CEO-Bench 的设计为什么比普通模拟游戏更严肃？

一看到"经营创业公司"，很多人可能会以为这只是小游戏。

但 CEO-Bench 的重点不是娱乐，而是构造一个足够可控、足够复杂、足够可复现的研究环境。

第一，机制化模拟，而不是完全靠 LLM 当裁判。

很多 Agent 评测如果大量依赖 LLM 作为环境模拟器，就容易出现一个问题：Agent 可能通过话术骗过模拟器。比如 Agent 对一个虚拟供应商说"请相信我，下周一定付款"，LLM 模拟器可能被说服，然后给出不现实的奖励。

CEO-Bench 尽量把核心结果建立在明确机制上。客户是否订阅、是否流失、广告是否有效、研发是否产生质量提升，都由规则和随机机制驱动，而不是由一个 LLM 随便打分。

第二，它模拟个体客户和客户群，而不只是总需求曲线。

系统里有多类客户群，每类客户有不同需求、预算、价格敏感度、渠道偏好、支持期望和行为模式。客户还有自己的订阅状态、价格暴露、满意度、取消路径。

这使得 Agent 不能只做粗暴策略。它必须判断哪些客户值得争取，哪些渠道适合哪类客户，哪些客户需要更高质量，哪些客户需要更多支持，哪些客户只是烧钱陷阱。

第三，它有隐藏信息。

Agent 不能直接看到真实参数，只能通过市场调研、数据库分析、社交媒体反馈、企业谈判历史来推断。这迫使 Agent 从"会调用工具"升级为"会设计信息获取策略"。

第四，它有非平稳环境。

市场不是固定的。竞争对手会变化，客户期望会漂移，宏观环境会变化。Agent 不能一套策略跑到底。

第五，它有延迟后果。

很多动作的收益不是立即出现。研发项目需要时间，企业销售需要谈判周期，品牌声誉会慢慢影响获客，质量问题也会延迟暴露。

这要求 Agent 不能只看当前现金，还要预测未来现金。

实验结果：当前模型离"长期经营"还很远

CEO-Bench 测试了多个前沿模型。评测方式是：每个模型运行完整 500 天模拟，初始现金 100 万美元，最后看现金余额；如果中途现金跌破 0，则破产。

论文和项目站共同传递出的结论很直接：当前模型在长程经营任务上仍然很不稳定。

有些模型会破产。部分模型能撑到最后，但最后现金低于初始金额。少数强模型的最佳运行可以超过初始资金，但离环境估计上界仍然差很远。

更值得注意的是，论文提供了一个简单规则基线。这个基线不使用 LLM，只是固定一套启发式策略：固定价格、固定套餐、集中获客、集中开发少数客户群、根据近期使用量调整容量。这个规则基线也能跑出相当强的结果。

这说明强模型确实展现了更好的长程探索、信息获取和预测能力，但还没有把这个环境"刷爆"。更重要的是，它揭示了一个关键事实：

模型可以很会说、很会写代码、很会调用工具，但在长期经营系统里，仍然容易失控。

它们不是不会做动作，而是很难让动作持续复利。

强模型强在哪里？

论文不仅看最后现金，还分析了 Agent 行为轨迹。

强模型有几个明显特征。

第一，它们会主动探索更多策略。强模型不只是机械执行固定方案，而是会尝试扩张获客、调整模型档位、修改促销策略、重新分配客服和研发支出。这说明它们更像是在"经营"，而不是"保守应付"。

第二，它们会写代码做分析。强模型会构建客户 cohort 模拟，用来预测不同方案下的未来现金，也会分析企业谈判历史，从噪声结果里推断企业客户的价格和质量偏好。

这点非常重要。

未来强 Agent 不只是会调用工具，而是会为自己搭建分析工具。它会把数据库、脚本、模拟器、记忆文件、报告系统组合起来，形成自己的经营驾驶舱。

第三，它们更能发现隐藏信息。CEO-Bench 中，不同客户群在不同广告渠道上的获客效率不同。这个信息对 Agent 是隐藏的。强模型会通过历史数据分析，把更多广告预算投到更有效渠道。

弱模型常常连随机猜测水平都达不到。

这说明很多 Agent 失败不是因为不会执行，而是不会发现什么信息重要。

第四，它们更能预测未来现金。论文要求 Agent 每周提交四周后的现金预测。强模型的早期预测误差更低。预测能力强，说明它们更能理解自己的动作会如何影响未来状态。

第五，它们更能做细粒度动作。CEO-Bench 允许 Agent 针对不同客户群做差异化研发投入。强模型会把大量研发资金投向目标客户群的细分改进，而不是粗糙地平均投入。

短程任务看的是"现在做什么"。长程任务看的是"现在做了之后，未来会怎样"。

弱模型为什么失败？

弱模型的失败不是单一原因。

有些模型会过度保守，只顾保现金，不敢投入增长，最后活下来了但没有赚钱。

有些模型会过度扩张，广告、研发、基础设施一起烧钱，现金流断裂。

有些模型看似每一步都合理，但没有整体方向。今天调价格，明天投广告，后天砍成本，再后天又做研发。动作之间互相抵消，无法形成长期策略。

有些模型不能及时发现竞品压力。竞品提升产品质量后，用户期望变化，Agent 需要通过社交媒体和数据库间接发现。但弱模型常常反应太慢。

还有些模型不会建立稳定记忆。500 天模拟分成很多周，如果 Agent 没有可靠的长期记忆和策略笔记，就会丢失上下文，反复重新分析，甚至忘记前面为什么做某个决策。

这对真实 Agent 工程很有启发。

长程 Agent 的瓶颈不只是模型智商，也包括外部记忆、状态管理、策略版本控制、指标体系、决策审计和工具组织方式。

一个没有长期记忆和反馈闭环的 Agent，即使底层模型很强，也很难长期稳定工作。

Agent 长期驾驭五要素：状态（数据库）、指标（图表）、策略（战术板）、审计（清单）、恢复（救生圈）

一个关键发现：Agent Harness 会显著影响结果

CEO-Bench 还做了一个有意思的消融实验：同一个底层模型，换不同 Agent Harness，结果会明显变化。

论文比较了自定义最小终端 Agent、Claude Code、Codex 等不同形式。结果显示，在一些设置下，偏软件工程任务设计的 harness 会让 Agent 采取更少动作，最终表现更差。

这说明一个事实：

评测 Agent 不能只看模型，还要看 Agent 外壳。

系统提示词、上下文管理方式、工具暴露方式、记忆文件、执行循环、工作目录结构、是否鼓励主动分析、是否鼓励长期规划，都会影响最终表现。

很多团队会问：“哪个模型最适合做 Agent？”

但更准确的问题应该是：“哪个模型 + 哪种 harness + 哪套记忆机制 + 哪套工具接口 + 哪种反馈循环，最适合这个长程任务？”

Agent 不是一个模型调用。Agent 是一个运行系统。

它对 AI Agent 工程有什么启发？

CEO-Bench 最值得关注的不是排行榜，而是它指出了 Agent 工程的下一阶段。

过去我们做 Agent，重点常常是：能不能正确调用工具，能不能完成一个任务，能不能生成结构化参数，能不能把 API 串起来，能不能减少幻觉。

这些仍然重要，但它们属于第一阶段。

下一阶段的 Agent 会面对更长周期任务：持续运营一个网站，持续优化一个产品，持续管理广告投放，持续维护一套系统，持续推进一个项目，持续跟踪市场变化，持续为用户做财务、学习、职业规划。

这些任务都有一个共同点：不是一次完成，而是长期 steering。

真正可用的长程 Agent 至少需要几层能力。

第一，状态层。Agent 必须知道当前系统处于什么状态。状态不能只靠聊天上下文，而要落到数据库、日志、指标、文件、记忆系统中。

第二，指标层。Agent 必须知道什么叫变好。没有指标，Agent 只能做看起来合理的动作。指标可以是现金、转化率、留存、延迟、错误率、收入、阅读量、SEO 排名、用户满意度。

第三，策略层。Agent 不能每次都从零思考。它需要维护当前策略、假设、风险、下一步计划，以及策略变更原因。

第四，实验层。长期决策不能只靠拍脑袋。Agent 应该设计小规模实验，观察反馈，再逐步放大。

第五，预测层。Agent 要能预测动作的未来影响，而不是只看当前反馈。CEO-Bench 中强模型会写代码模拟未来现金，这就是预测层的雏形。

第六，审计层。长程 Agent 必须能解释自己为什么做某个决策。否则运行几周后，人类接管时根本不知道它为什么把预算花成这样。

第七，恢复层。Agent 会犯错。关键不是永不犯错，而是能发现错误、止损、回滚、修正策略。

这也是 CEO-Bench 对工程实践最大的提醒：

Agent 的长期能力，不是把上下文窗口变大就自然出现的。它需要系统架构支撑。

从任务执行 Agent 到系统经营 Agent

CEO-Bench 背后的趋势很清晰。

AI Agent 正在从 Task Executor 走向 System Operator。

Task Executor 的典型目标是：完成一个明确任务。

System Operator 的典型目标是：长期管理一个动态系统。

前者需要理解指令、拆解步骤、调用工具、检查结果。

后者还需要管理状态、追踪指标、处理不确定性、权衡短期和长期、识别隐藏变量、适应环境变化、形成连贯策略。

一个会修 Bug 的 Agent，不一定会持续维护一个项目。

一个会写营销文案的 Agent，不一定会长期运营一个产品。

一个会生成 SQL 的 Agent，不一定会从业务数据里找到正确增长策略。

一个会调用工具的 Agent，不一定会组织工具形成长期闭环。

CEO-Bench 正是在测试这种断层。

它告诉我们：当前模型的局部能力已经很强，但长期系统驾驭能力仍然不足。

从任务执行者走向系统经营者：理解全局、制定策略、持续优化、创造长期价值

结论

CEO-Bench 的价值不在于"哪个模型第一"，而在于它把 Agent 评测的问题变了。

过去的问题是：Agent 能不能完成这个任务？

CEO-Bench 问的是：Agent 能不能持续经营一个系统？

过去的问题是：Agent 会不会调用工具？

CEO-Bench 问的是：Agent 能不能把工具、数据、记忆、策略和反馈组织成长期闭环？

过去的问题是：模型有没有短期聪明？

CEO-Bench 问的是：模型有没有长期判断？

从这个角度看，CEO-Bench 是长程 Agent 研究中的一个重要节点。它把 Agent 的能力边界从"执行"推向了"驾驭"。

这也是未来 AI 应用真正难的地方：不是让模型多做几步，而是让它在数天、数周、数月的时间尺度里，持续做对方向。

错误速查卡

症状	根因	定位	修复
Agent 在 CEO-Bench 跑不到 500 天就破产	过度扩张：广告/研发/基础设施一起烧钱，现金流断裂	检查每周末现金余额趋势，对比营销/研发/CapEx 占现金比	引入"现金 runway 阈值"硬约束，月度 cap 强制不超 X%
Agent 撑满 500 天但最终现金低于初始	过度保守：只保现金、不敢投入增长	看累计获客数、累计研发投入、策略多样性	在指标层加入"获客增长率""质量分提升"作为目标，与现金并列
Agent 做了大量动作但效果差	动作之间互相抵消，缺乏连贯策略	调取决策日志，看连续 4 周是否围绕同一假设	引入策略层：维护当前假设/风险/计划，未说明切换原因不允许改方向
Agent 反应慢于竞品/市场变化	隐藏信息发现能力弱，不会从噪声里推断真相	统计 Agent 阅读过的信息源数量、主动发起的调研次数	强制每周至少 N 次市场调研、构建客户 cohort 模拟辅助决策
同一个模型在 Claude Code / Codex 下表现差异大	Agent Harness 显著影响长程表现，工具暴露和上下文管理不当	对比不同 harness 下的"每周动作数"和"决策修改次数"	引入 Steering Intelligence 专用 harness：长期记忆文件 + 指标看板 + 4 周预测模块
Agent 几周后忘记前因后果	缺乏可靠长期记忆和策略笔记，500 天上下文失控	检查 prompt 中是否包含早期决策摘要	落外部记忆系统：策略笔记、决策日志、复盘文件，每次行动前必读
Agent 出现明显错误但不停止	没有审计层与恢复层，错误决策被继续执行	检查是否记录每个动作的预期结果 vs 实际结果	加审计层：4 周后自动比对预测与实际；触发恢复层则强制止损/回滚
模型在长程预测（四周现金）误差很大	没有预测层，只看当前反馈	提交四周现金预测，对比实际值 RMSE	强 Agent 思路：写代码模拟 cohort 现金流，把预测误差纳入指标