【导语:普林斯顿大学举办CEO - Bench大赛,让AI运营虚拟SaaS初创公司500天。14位AI参赛,多数亏损,Fable 5以4715万美元夺冠,展现出AI在商业运营中的潜力与挑战。】
此次人工智能CEO大赛中,启动状态为公司拥有本金100万美金且零客户,游戏目标是在500天模拟周期内尽可能多赚钱,评判标准是游戏结束时账上剩余金额,若中途余额跌破零则宣告破产。核心是一个包含34个工具、19张数据库表的Python API,AI可写代码、用SQL查询数据库来动态调整工作流。
但博弈环境变量极多,如定价策略、广告投放渠道等都需AI自行决策,还有模拟社交网络。并且存在「不确定性」,成本支出快,回报延迟久,关键变量「隐式」存在,外部环境也动态变化,堪称「地狱级」难度的长程决策任务。
参赛的14位选手中,绝大多数亏损严重,GLM 5.1等五位甚至中道崩殂未完成比赛。跑出正收益的AI只有3个,冠军Fable 5 500天到账4715万美元,给本金翻了47倍,断层领先第二名Opus 4.8。值得注意的是,第四名是纯rule - based的启发式算法,赚了1576万美金,超过了众多语言模型。
论文提炼出两个核心Takeaway。一是探索大于谨慎,GPT - 5.5和Claude Opus 4.8会不断尝试新策略,而Claude Opus 4.7采取保守打法虽能存活但无法盈利,说明在商业世界中积极探索的重要性。
二是编程Agent并非万金油,研究员用Claude Code跑Opus 4.7、Codex跑GPT - 5.5,结果两位选手行动次数减少、表现大幅下降,原因可能是系统提示词为软件开发场景优化,不适合CEO角色。这表明不同行业需要特定的Harness框架和垂直场景深度适配。
科技史上,像乔布斯画2x2矩阵、黄仁勋押注深度学习等伟大转折都源于人类的「纯粹直觉」。目前AI能按指定模板填充内容,但画出那个关键矩阵的能力仍属于人类。这意味着在AI发展过程中,人类的创造力和决策能力依旧不可替代。
编辑观点:此次AI运营公司大赛结果显示出AI在商业运营中有潜力但也面临诸多挑战,同时凸显了人类独特能力的重要性,未来AI与人类需更好协作发展。