AI 编程的账单真凶,可能不是模型

AI 编程的账单真凶,可能不是模型


AI 编程真正贵起来,可能不是因为它“写了很多代码”,而是因为它在背后跑了太多轮。

这篇论文叫TraceLab: Characterizing Coding Agent Workloads for LLM Serving,6 月 29 日提交到 arXiv,6 月 30 日更新到 v2。作者团队拿到的不是那种标准 benchmark,而是真实日常使用里的 Claude Code 和 Codex 记录。

数据量不小:

  • 4,265 个 coding-agent 会话
  • 43 位开发者
  • 357,161 次 LLM step
  • 432,510 次工具调用
  • 549 亿输入 token

看到这里,很多人第一反应可能是:那不就是模型调用多吗?

但 TraceLab 真正有意思的地方,不在“调用多”,而在它拆开了 AI 编程的真实工作方式。

以前我们想象 AI 编程,脑子里大概是这样的:

你给它一个需求,它想一下,吐一段代码。

但真实的 coding agent 不是这样工作的。

它更像一个小型开发者,在你的项目里来回跑:

先读文件,再搜上下文,再改代码,再跑命令,再看报错,再改,再跑测试,再读新的文件,再继续下一轮。

也就是说,账单不是一次回答产生的。

账单是循环产生的。

论文里提到,平均一个请求会触发大约 8.8 次 LLM 调用、10.8 次工具调用。一个请求平均要跑 4.3 分钟,p90 超过 6.4 分钟。

这就很像什么?

像你请了一个助手,不是让他“写一页文档”,而是让他在办公室里来回跑腿。每跑一步,都要刷一次卡。

更关