调查研究-196 CEO-Bench:Agent 不再只是“做任务“,而是要学会“经营一个系统“

调查研究-196 CEO-Bench:Agent 不再只是“做任务“,而是要学会“经营一个系统“

CEO-Bench:Agent 不再只是"做任务",而是要学会"经营一个系统"

TL;DR

  • 场景:AI Agent 的能力评估正从"完成一次性任务"转向"长期经营一个动态系统",CEO-Bench 给出首个 500 天创业公司长程决策基准。
  • 结论:当前最强的 LLM(Claude Opus 4.8、GPT-5.5)刚刚跨过 100 万美元初始资金门槛,绝大多数模型仍在长程系统驾驭中破产或亏损;底层模型之外,Agent Harness、长期记忆和预测能力是关键瓶颈。
  • 产出:一份面向 Agent 工程师的"长程 Agent 架构清单"——状态层 / 指标层 / 策略层 / 实验层 / 预测层 / 审计层 / 恢复层。

版本矩阵

功能 / 维度状态说明
论文标题✅ 已验证CEO-Bench: Can Agents Play the Long Game?(arXiv:2606.18543)
作者✅ 已验证Haozhe Chen, Karthik Narasimhan, Zhuang Liu
提交日期✅ 已验证2026-06-16(arXiv 列表确认)
模拟时长✅ 已验证500 天(约 72 周决策周期)
初始资金✅ 已验证$1,000,000 美元
虚拟公司✅ 已验证NovaMind(订阅制 AI 软件公司)
核心新概念✅ 已验证Steering Intelligence(系统驾驭智能)
跑赢初始现金的模型✅ 已验证仅 Claude Opus 4.8、GPT-5.5 在最佳运行中超过 $1M
Agent Harness 消融✅ 已验证论文比较了最小终端 Agent、Claude Code、Codex 等不同外壳
规则基线(Heuristic Baseline)✅ 已验证不使用 LLM 的固定启发式策略也能跑出相当强结果


CEO-Bench 概念图:500 天模拟中经营虚拟 AI 软件公司 NovaMind,评估 Agent 的长期系统驾驭能力

过去两年,AI Agent 的能力提升很快。

它们可以写代码、改 Bug、查资料、整理文档、操作网页、调用工具、生成报告。很多评测也围绕这些能力展开:给 Agent 一个明确任务,看它能不能完成。

比如修复一个 GitHub issue、完成一次网页后台操作、订一张机票、根据资料写一份研究报告。这些任务已经比传统问答复杂很多,但它们仍然有一个共同特点:目标相对明确,周期相对短,反馈相对直接。

CEO-Bench 这篇论文提出了一个更难的问题:

如果让 Agent 不是完成一个任务,而是持续经营一个系统,它还能表现好吗?

论文标题是CEO-Bench: Can Agents Play the Long Game?。这里的 long game 不是简单把上下文变长,也不是让模型一次回答更久,而是指数天、数周、数百天尺度上的连续决策。

在这种任务里,早期决策会影响后期结果,错误不一定马上暴露,正确投入也不一定马上回报。Agent 必须在信息不完整、环境变化、反馈延迟、资源有限的情况下,持续调整策略。

这已经不是"工具调用能力"问题,而是"系统驾驭能力"问题。

为什么需要 CEO-Bench?

现在很多 Agent Benchmark 测的是局部能力。

编码 Agent 评测会看模型能不能修复某个 issue;网页 Agent 评测会看模型能不能完成某个网页操作;办公 Agent 评测会看模型能不能跨应用完成文档、邮件、表格任务。

这些评测很有价值,但它们还不够接近真实世界里的复杂工作。

真实工作通常不是一次性任务,而是长期过程。经营一个产品、管理一个项目、运营一个公司、维护一个系统、推进一个商业目标,都会遇到几类难题:

第一,目标很远。今天做的决策,可能几周后才体现结果。现在加大研发投入,短期现金会下降,但长期产品质量可能提升;现在削减客服成本,短期利润会变好,但用户满意度和留存可能慢慢恶化。

第二,信息不完整。现实里没有全知视角。你不知道用户真实满意度,不知道竞品下一步动作,不知道客户真实价格敏感度,也不知道某次营销效果到底是偶然波动还是有效信号。

第三,反馈有噪声。用户投诉可能只是个别现象,也可能代表系统性问题;收入上涨可能来自策略有效,也可能只是市场周期;客户流失可能来自价格、质量、竞品、宏观环境,也可能是这些因素叠加。

第四,系统是耦合的。定价影响转化率,转化率影响收入,收入影响现金流,现金流影响研发能力,研发能力影响产品质量,产品质量影响留存和口碑,口碑又影响后续获客成本。

单点优化不够。Agent 必须理解多个变量之间的联动关系。

CEO-Bench 的意义就在这里:它不再只问"Agent 能不能完成一个动作",而是问"Agent 能不能在一个持续变化的复杂系统里,把一家公司带向长期目标"。


长程经营为什么难:目标很远、信息不全、反馈延迟、系统耦合;价格/广告/研发/质量/用户数/现金流互相牵动

CEO-Bench 到底让 Agent 做什么?

CEO-Bench 构造了一家虚拟创业公司,名字叫 NovaMind。

这家公司是一家订阅制 AI 软件公司。Agent 扮演 CEO,目标是在 500 个模拟日之后,让公司手里的现金尽可能多。初始条件很简单:公司一开始有 100 万美元现金,客户数为 0;如果现金跌破 0,公司破产,模拟结束。

每一周,Agent 都可以采取一系列动作。它不是简单选择 A/B/C,而是通过一个可编程 Python 接口操作公司。

它可以调整产品价格,设置订阅套餐和使用额度,给不同客户群投放广告,选择不同模型档位,投入研发项目,购买基础设施容量,增加客服和运维支出,做市场调研,发现新客户群,处理企业客户谈判,阅读社交媒体上的用户反馈、竞品动态、宏观变化,也可以在社交媒体上发帖或回复,影响市场反应。

这和传统 benchmark 的差异很大。

传统评测里,Agent 常常只需要在有限工具里完成一个清晰任务。CEO-Bench 里,Agent 面对的是一个经营系统。它必须自己分析业务数据,自己设计策略,自己决定投入节奏,自己承担后果。

更关键的是,CEO-Bench 给 Agent 的不是"上帝视角"。

它能看到数据库、订单、合同、现金流水、订阅记录、广告归因、支持工单、社交媒体内容等信息,但看不到底层真相。比如它看不到客户真实满意度、真实价格敏感度、真实流失概率、竞品完整计划和市场需求参数。

它只能像现实中的创业公司管理者一样,通过间接数据推断真实情况。

这才是 CEO-Bench 最狠的地方:它不只是让 Agent 做决策,而是让 Agent 在"不知道自己是否知道"的状态下做决策。

为什么说它是长程 Agent 决策评测?

长程不是简单把任务拉长。

如果只是让 Agent 重复执行 500 次简单任务,那不叫长程智能,只叫耐力测试。CEO-Bench 的长程难度来自因果延迟和策略累积。

Agent 今天降低价格,短期可能带来更多客户,但长期可能降低收入质量,甚至让高价值客户觉得产品定位下降。

Agent 今天砍掉研发预算,短期现金流会变好,但几周后产品质量跟不上竞品,客户开始流失。

Agent 今天砸钱营销,短期获客上升,但如果产品质量和基础设施跟不上,就会引发差评、退款、流失和声誉损害。

Agent 今天投入企业销售,谈判结果也可能不是马上出现,而是在多个回合之后才转化成合同。

这要求 Agent 具备四类能力:

  1. 在不确定环境里做长期规划。
  2. 从噪声数据里主动获取信息。
  3. 根据市场变化及时调整策略。
  4. 把定价、营销、研发、运维、客服、销售、沟通等动作组织成一个连贯方向。

论文把这种能力称为Steering Intelligence。可以翻译成"驾驭智能"或"系统 steering 能力"。

它不是单点执行能力,而是长期控制一个复杂系统朝目标移动的能力。


强 Agent 与弱 Agent 对比:会探索、会预测、会记忆、会止损;强 Agent 用策略脚本驱动 Observe→Analyze→Decide→Execute→Review 闭环

CEO-Bench 的设计为什么比普通模拟游戏更严肃?

一看到"经营创业公司",很多人可能会以为这只是小游戏。

但 CEO-Bench 的重点不是娱乐,而是构造一个足够可控、足够复杂、足够可复现的研究环境。

第一,机制化模拟,而不是完全靠 LLM 当裁判。

很多 Agent 评测如果大量依赖 LLM 作为环境模拟器,就容易出现一个问题:Agent 可能通过话术骗过模拟器。比如 Agent 对一个虚拟供应商说"请相信我,下周一定付款",LLM 模拟器可能被说服,然后给出不现实的奖励。

CEO-Bench 尽量把核心结果建立在明确机制上。客户是否订阅、是否流失、广告是否有效、研发是否产生质量提升,都由规则和随机机制驱动,而不是由一个 LLM 随便打分。

第二,它模拟个体客户和客户群,而不只是总需求曲线。

系统里有多类客户群,每类客户有不同需求、预算、价格敏感度、渠道偏好、支持期望和行为模式。客户还有自己的订阅状态、价格暴露、满意度、取消路径。

这使得 Agent 不能只做粗暴策略。它必须判断哪些客户值得争取,哪些渠道适合哪类客户,哪些客户需要更高质量,哪些客户需要更多支持,哪些客户只是烧钱陷阱。

第三,它有隐藏信息。

Agent 不能直接看到真实参数,只能通过市场调研、数据库分析、社交媒体反馈、企业谈判历史来推断。这迫使 Agent 从"会调用工具"升级为"会设计信息获取策略"。

第四,它有非平稳环境。

市场不是固定的。竞争对手会变化,客户期望会漂移,宏观环境会变化。Agent 不能一套策略跑到底。

第五,它有延迟后果。

很多动作的收益不是立即出现。研发项目需要时间,企业销售需要谈判周期,品牌声誉会慢慢影响获客,质量问题也会延迟暴露。

这要求 Agent 不能只看当前现金,还要预测未来现金。

实验结果:当前模型离"长期经营"还很远

CEO-Bench 测试了多个前沿模型。评测方式是:每个模型运行完整 500 天模拟,初始现金 100 万美元,最后看现金余额;如果中途现金跌破 0,则破产。

论文和项目站共同传递出的结论很直接:当前模型在长程经营任务上仍然很不稳定。

有些模型会破产。部分模型能撑到最后,但最后现金低于初始金额。少数强模型的最佳运行可以超过初始资金,但离环境估计上界仍然差很远。

更值得注意的是,论文提供了一个简单规则基线。这个基线不使用 LLM,只是固定一套启发式策略:固定价格、固定套餐、集中获客、集中开发少数客户群、根据近期使用量调整容量。这个规则基线也能跑出相当强的结果。

这说明强模型确实展现了更好的长程探索、信息获取和预测能力,但还没有把这个环境"刷爆"。更重要的是,它揭示了一个关键事实:

模型可以很会说、很会写代码、很会调用工具,但在长期经营系统里,仍然容易失控。

它们不是不会做动作,而是很难让动作持续复利。

强模型强在哪里?

论文不仅看最后现金,还分析了 Agent 行为轨迹。

强模型有几个明显特征。

第一,它们会主动探索更多策略。强模型不只是机械执行固定方案,而是会尝试扩张获客、调整模型档位、修改促销策略、重新分配客服和研发支出。这说明它们更像是在"经营",而不是"保守应付"。

第二,它们会写代码做分析。强模型会构建客户 cohort 模拟,用来预测不同方案下的未来现金,也会分析企业谈判历史,从噪声结果里推断企业客户的价格和质量偏好。

这点非常重要。

未来强 Agent 不只是会调用工具,而是会为自己搭建分析工具。它会把数据库、脚本、模拟器、记忆文件、报告系统组合起来,形成自己的经营驾驶舱。

第三,它们更能发现隐藏信息。CEO-Bench 中,不同客户群在不同广告渠道上的获客效率不同。这个信息对 Agent 是隐藏的。强模型会通过历史数据分析,把更多广告预算投到更有效渠道。

弱模型常常连随机猜测水平都达不到。

这说明很多 Agent 失败不是因为不会执行,而是不会发现什么信息重要。

第四,它们更能预测未来现金。论文要求 Agent 每周提交四周后的现金预测。强模型的早期预测误差更低。预测能力强,说明它们更能理解自己的动作会如何影响未来状态。

第五,它们更能做细粒度动作。CEO-Bench 允许 Agent 针对不同客户群做差异化研发投入。强模型会把大量研发资金投向目标客户群的细分改进,而不是粗糙地平均投入。

短程任务看的是"现在做什么"。长程任务看的是"现在做了之后,未来会怎样"。

弱模型为什么失败?

弱模型的失败不是单一原因。

有些模型会过度保守,只顾保现金,不敢投入增长,最后活下来了但没有赚钱。

有些模型会过度扩张,广告、研发、基础设施一起烧钱,现金流断裂。

有些模型看似每一步都合理,但没有整体方向。今天调价格,明天投广告,后天砍成本,再后天又做研发。动作之间互相抵消,无法形成长期策略。

有些模型不能及时发现竞品压力。竞品提升产品质量后,用户期望变化,Agent 需要通过社交媒体和数据库间接发现。但弱模型常常反应太慢。

还有些模型不会建立稳定记忆。500 天模拟分成很多周,如果 Agent 没有可靠的长期记忆和策略笔记,就会丢失上下文,反复重新分析,甚至忘记前面为什么做某个决策。

这对真实 Agent 工程很有启发。

长程 Agent 的瓶颈不只是模型智商,也包括外部记忆、状态管理、策略版本控制、指标体系、决策审计和工具组织方式。

一个没有长期记忆和反馈闭环的 Agent,即使底层模型很强,也很难长期稳定工作。


Agent 长期驾驭五要素:状态(数据库)、指标(图表)、策略(战术板)、审计(清单)、恢复(救生圈)

一个关键发现:Agent Harness 会显著影响结果

CEO-Bench 还做了一个有意思的消融实验:同一个底层模型,换不同 Agent Harness,结果会明显变化。

论文比较了自定义最小终端 Agent、Claude Code、Codex 等不同形式。结果显示,在一些设置下,偏软件工程任务设计的 harness 会让 Agent 采取更少动作,最终表现更差。

这说明一个事实:

评测 Agent 不能只看模型,还要看 Agent 外壳。

系统提示词、上下文管理方式、工具暴露方式、记忆文件、执行循环、工作目录结构、是否鼓励主动分析、是否鼓励长期规划,都会影响最终表现。

很多团队会问:“哪个模型最适合做 Agent?”

但更准确的问题应该是:“哪个模型 + 哪种 harness + 哪套记忆机制 + 哪套工具接口 + 哪种反馈循环,最适合这个长程任务?”

Agent 不是一个模型调用。Agent 是一个运行系统。

它对 AI Agent 工程有什么启发?

CEO-Bench 最值得关注的不是排行榜,而是它指出了 Agent 工程的下一阶段。

过去我们做 Agent,重点常常是:能不能正确调用工具,能不能完成一个任务,能不能生成结构化参数,能不能把 API 串起来,能不能减少幻觉。

这些仍然重要,但它们属于第一阶段。

下一阶段的 Agent 会面对更长周期任务:持续运营一个网站,持续优化一个产品,持续管理广告投放,持续维护一套系统,持续推进一个项目,持续跟踪市场变化,持续为用户做财务、学习、职业规划。

这些任务都有一个共同点:不是一次完成,而是长期 steering。

真正可用的长程 Agent 至少需要几层能力。

第一,状态层。Agent 必须知道当前系统处于什么状态。状态不能只靠聊天上下文,而要落到数据库、日志、指标、文件、记忆系统中。

第二,指标层。Agent 必须知道什么叫变好。没有指标,Agent 只能做看起来合理的动作。指标可以是现金、转化率、留存、延迟、错误率、收入、阅读量、SEO 排名、用户满意度。

第三,策略层。Agent 不能每次都从零思考。它需要维护当前策略、假设、风险、下一步计划,以及策略变更原因。

第四,实验层。长期决策不能只靠拍脑袋。Agent 应该设计小规模实验,观察反馈,再逐步放大。

第五,预测层。Agent 要能预测动作的未来影响,而不是只看当前反馈。CEO-Bench 中强模型会写代码模拟未来现金,这就是预测层的雏形。

第六,审计层。长程 Agent 必须能解释自己为什么做某个决策。否则运行几周后,人类接管时根本不知道它为什么把预算花成这样。

第七,恢复层。Agent 会犯错。关键不是永不犯错,而是能发现错误、止损、回滚、修正策略。

这也是 CEO-Bench 对工程实践最大的提醒:

Agent 的长期能力,不是把上下文窗口变大就自然出现的。它需要系统架构支撑。

从任务执行 Agent 到系统经营 Agent

CEO-Bench 背后的趋势很清晰。

AI Agent 正在从 Task Executor 走向 System Operator。

Task Executor 的典型目标是:完成一个明确任务。

System Operator 的典型目标是:长期管理一个动态系统。

前者需要理解指令、拆解步骤、调用工具、检查结果。

后者还需要管理状态、追踪指标、处理不确定性、权衡短期和长期、识别隐藏变量、适应环境变化、形成连贯策略。

一个会修 Bug 的 Agent,不一定会持续维护一个项目。

一个会写营销文案的 Agent,不一定会长期运营一个产品。

一个会生成 SQL 的 Agent,不一定会从业务数据里找到正确增长策略。

一个会调用工具的 Agent,不一定会组织工具形成长期闭环。

CEO-Bench 正是在测试这种断层。

它告诉我们:当前模型的局部能力已经很强,但长期系统驾驭能力仍然不足。


从任务执行者走向系统经营者:理解全局、制定策略、持续优化、创造长期价值

结论

CEO-Bench 的价值不在于"哪个模型第一",而在于它把 Agent 评测的问题变了。

过去的问题是:Agent 能不能完成这个任务?

CEO-Bench 问的是:Agent 能不能持续经营一个系统?

过去的问题是:Agent 会不会调用工具?

CEO-Bench 问的是:Agent 能不能把工具、数据、记忆、策略和反馈组织成长期闭环?

过去的问题是:模型有没有短期聪明?

CEO-Bench 问的是:模型有没有长期判断?

从这个角度看,CEO-Bench 是长程 Agent 研究中的一个重要节点。它把 Agent 的能力边界从"执行"推向了"驾驭"。

这也是未来 AI 应用真正难的地方:不是让模型多做几步,而是让它在数天、数周、数月的时间尺度里,持续做对方向。


错误速查卡

症状根因定位修复
Agent 在 CEO-Bench 跑不到 500 天就破产过度扩张:广告/研发/基础设施一起烧钱,现金流断裂检查每周末现金余额趋势,对比营销/研发/CapEx 占现金比引入"现金 runway 阈值"硬约束,月度 cap 强制不超 X%
Agent 撑满 500 天但最终现金低于初始过度保守:只保现金、不敢投入增长看累计获客数、累计研发投入、策略多样性在指标层加入"获客增长率""质量分提升"作为目标,与现金并列
Agent 做了大量动作但效果差动作之间互相抵消,缺乏连贯策略调取决策日志,看连续 4 周是否围绕同一假设引入策略层:维护当前假设/风险/计划,未说明切换原因不允许改方向
Agent 反应慢于竞品/市场变化隐藏信息发现能力弱,不会从噪声里推断真相统计 Agent 阅读过的信息源数量、主动发起的调研次数强制每周至少 N 次市场调研、构建客户 cohort 模拟辅助决策
同一个模型在 Claude Code / Codex 下表现差异大Agent Harness 显著影响长程表现,工具暴露和上下文管理不当对比不同 harness 下的"每周动作数"和"决策修改次数"引入 Steering Intelligence 专用 harness:长期记忆文件 + 指标看板 + 4 周预测模块
Agent 几周后忘记前因后果缺乏可靠长期记忆和策略笔记,500 天上下文失控检查 prompt 中是否包含早期决策摘要落外部记忆系统:策略笔记、决策日志、复盘文件,每次行动前必读
Agent 出现明显错误但不停止没有审计层与恢复层,错误决策被继续执行检查是否记录每个动作的预期结果 vs 实际结果加审计层:4 周后自动比对预测与实际;触发恢复层则强制止损/回滚
模型在长程预测(四周现金)误差很大没有预测层,只看当前反馈提交四周现金预测,对比实际值 RMSE强 Agent 思路:写代码模拟 cohort 现金流,把预测误差纳入指标

作者:武子康的个人博客