AI 编程的账单真凶，可能不是模型

📅 发布时间：2026/7/1 22:12:22 👁 浏览次数：

AI 编程的账单真凶，可能不是模型

AI 编程真正贵起来，可能不是因为它“写了很多代码”，而是因为它在背后跑了太多轮。

这篇论文叫TraceLab: Characterizing Coding Agent Workloads for LLM Serving，6 月 29 日提交到 arXiv，6 月 30 日更新到 v2。作者团队拿到的不是那种标准 benchmark，而是真实日常使用里的 Claude Code 和 Codex 记录。

数据量不小：

4,265 个 coding-agent 会话
43 位开发者
357,161 次 LLM step
432,510 次工具调用
549 亿输入 token

看到这里，很多人第一反应可能是：那不就是模型调用多吗？

但 TraceLab 真正有意思的地方，不在“调用多”，而在它拆开了 AI 编程的真实工作方式。

以前我们想象 AI 编程，脑子里大概是这样的：

你给它一个需求，它想一下，吐一段代码。

但真实的 coding agent 不是这样工作的。

它更像一个小型开发者，在你的项目里来回跑：

先读文件，再搜上下文，再改代码，再跑命令，再看报错，再改，再跑测试，再读新的文件，再继续下一轮。

也就是说，账单不是一次回答产生的。

账单是循环产生的。

论文里提到，平均一个请求会触发大约 8.8 次 LLM 调用、10.8 次工具调用。一个请求平均要跑 4.3 分钟，p90 超过 6.4 分钟。

这就很像什么？

像你请了一个助手，不是让他“写一页文档”，而是让他在办公室里来回跑腿。每跑一步，都要刷一次卡。

更关