2026年AI增长之星Codex：从开发者工具到通用知识工具的转变之路-尧图网络科技

【Codex：2026年AI增长之星】

如果问2026年哪个AI产品的增长最令人瞩目，「Codex」肯定排在第一位。自今年1月份以来，该产品的周活跃用户增长了5倍以上，增长曲线很陡，目前周活跃用户规模已达500万。其中，知识工作者（非开发者）采用Codex的速度，是开发者群体的3倍以上。

【增长催化剂：桌面App发布】

这些陡峭的增长曲线有个重要的催化剂——2月份桌面App的发布。这个桌面版提供了专属、优化的使用界面，大幅降低了使用门槛，带来了Codex下载和采用量的爆发式增长。

【幕后推动者：Andrew Ambrosino】

在这条陡峭增长曲线背后，推动产品形态发生变化的，是Codex桌面应用团队负责人Andrew Ambrosino。他同时站在两个快速重叠的世界之间：一边是以「写代码」为核心的开发者工具链，另一边则是迅速扩张到几乎所有知识工作场景的通用AI工作入口。从产品发布节奏到用户行为变化，再到团队内部如何重新定义「设计」「工程」和「产品」的边界，他所看到的，往往比增长数据本身更接近这场变化的本质。

【访谈拆解：Codex的改变与未来】

接下来这段访谈，从他的视角出发，去拆解Codex改变了什么、为何与ChatGPT合并，以及它未来的迭代方向是怎样的。

【成本之变：实现变便宜，品味变贵】

几年前，整个产品开发的逻辑是实现很贵，所以在动手写代码之前，要做大量的事前去风险工作，目的是让设计更便宜。但现在这个假设彻底反转了，在OpenAI，给人们大量的token，每个人都有很好的想法，所以每个人都在做东西。结果是，一个需要做的功能，可能有90个不同的团队在同时探索90种不同的实现方式。这意味着实现不再是昂贵的部分，那什么变贵了呢？Andrew直言不讳：是品味，更具体地说，是策展的过程。当面对这90个不同的尝试时，需要有眼光去判断：哪些东西做得不错？这些应该如何折叠进其他功能里？这个东西应该怎么框架化？这个切换按钮应该有几个段位？这些决策本身，才是现在最贵、最需要思考的地方。

【品味内涵：不止外观】

「品味」这个词在硅谷被说烂了，但在Andrew这里，它有非常具体的含义。有个有趣的段子是，Linear的产品负责人曾说有人过度强调品味的美学部分，然后举Paul Graham为例——Paul Graham明显品味很好，但他穿的是工装裤。这说明品味远不止外观。Andrew把品味的内涵列举出来：有美学层面，但那只是一部分；有系统思维的层面，即这个东西如何融入整个系统；有方向感的层面，这是什么主题的一部分；有呈现方式的层面。当然还有一些细节的层面，比如这个交互动画是否与它想表达的语义意思相符——它是不是太快速了，不适合表达这个概念。但真正的核心品味问题是：如果我们能建造任何东西，那么我们想要什么？这是什么？我们如何到达那里？这些才是真正的品味问题。它不仅是关于选择做什么，也是关于如何展现信息、如何实现目标、使用什么介质。品味是这个新时代里，人类大脑仍然最有价值的地方。

【AI设计难题：为何至今做不好】

这是个有趣的悖论：Codex在写代码上已经非常强大，但当用它生成设计时，输出的质量往往平庸。很少能说「哇，它完全搞定了」。Andrew认为这背后有几层原因。首先是实际的原因，设计比软件更难评分，因为评价设计好坏的人类品味本身就是反馈机制的一部分，这让训练模型变得困难，不像代码，很难用客观标准来衡量。其次，从研究投入的角度看，实验室历来投入最多资源去提升那些能加速AI研究本身的能力。在编码模型早期，显然能写正确的代码会加速研究，但设计能力好不好，对AI研究的加速作用不那么直接。更深层的问题涉及设计工作本身的复杂性，设计中有一个文化层面——什么算「好设计」是由文化决定的。去年所有新网站都在复制Linear的设计，那是真的好设计，有品味。但如果一个模型每次都输出Linear的样子，那就不是进步，而是失败。设计需要新颖性，而软件工程恰恰相反，你几乎总是希望代码跟随已知的模式。最难解决的问题在于抽象层，当代码驱动视觉设计时，两者之间存在着深层的互动。比如，左上角的某个东西应该和下面某个地方在代码库中共享相同的抽象。这不仅仅是说模型需要成为更好的设计师，而是说模型需要理解这些更深的结构关系——如果公司明天进行品牌重塑，浅层的做法是逐个更新263个组件，但深层的理解应该是：这两个看起来不同的东西在语义上是相同的，它们都是列表，都有相同的样式，都传达相同的交互模式。这种抽象层的理解，目前对AI来说仍然遥不可及。

【产品时机：Codex为何不能提前发】

这是一个非常深刻的观察：产品的成功不仅取决于设计本身，还取决于模型能力的时机。Andrew非常确信，如果Codex应用在去年11月就推出，它会在市场上彻底失败。而如果在2月推出的同一个产品形状，却获得了巨大成功。唯一的变量是中间这几个月模型能力的进步。换句话说，产品的交互设计、用户界面、整个概念都没有变，但模型智能程度的提升，完全改变了结果。这揭示了一个深刻的真相：在AI时代，产品是否好用、是否有价值，不是由UI设计或交互设计单独决定的，而是由「模型在这个时刻能做什么」决定的。同一个想法，用旧的模型实现可能毫无用处，但用新的模型就可能妙趣横生。这也改变了产品规划的方式，Andrew在之前的公司看到过这个转变：不再是「我们计划全年做什么」，而是变成「我们相信模型在什么时间点能做什么，让我们列出所有感兴趣的东西，为它们全部做原型，然后决定哪些现在可以做，其他的先放着等待，等到模型有新的跨越时，再用升级后的模型尝试那些之前搁置的想法」。因为整个功能是否好用的前提，不是设计的形状，而是模型是否足够聪明。

【角色边界：工程师、设计师、PM的界限】

Lenny提到，看Andrew的履历，工程师、设计师、产品经理、创业者他都做过，现在管着整个桌面App，就问设计团队是不是也归他管。Andrew笑说「看哪一周」——汇报关系一直在变，但团队一直是紧密坐在一起、彼此嵌入地工作。Andrew说，外界已经在讨论「角色坍缩」、说以后不会再分角色了，他们团队还没到那一步，但角色之间的重叠确实比公司其他部门、甚至整个行业都更明显——一部分原因是Codex本来就是面向工程师的技术型产品，团队里的设计师能讲工程师的语言，产品经理也能写代码，比如另一位产品负责人Alexander就有计算机科学硕士学位，Andrew自己反而没有。他认为，现在更准确的说法是：一个人不再由「设计到哪结束、工程从哪开始」这样的边界定义，而是由他平均花时间在做什么来定义——这也跟团队的工作方式有关，因为整个App是靠内部「吃自己的狗粮」跑出来的，大家都想尽量在App里把事情做完，哪怕它暂时还不是做这件事最好的工具，这样它才能慢慢变成最好的工具。两人也顺带聊起「member of technical staff」这个头衔的由来，Andrew认为最早可能是施乐（Xerox）开始这么叫的，如今在研究驱动型公司里已经算一种传统。Lenny追问，这是不是意味着未来大家都会变成不分职能的「builder」，PM、设计、工程这些技能分类还会不会存在。Andrew的态度很明确：他并不认同彻底取消角色划分。他见过不少公司喊出「取消产品岗位，人人都是builder」，结果是产品这个专业积累多年的最佳实践、试错经验，就因为「我也能写代码」这种想法被当成没用的东西丢掉了。「这不是你的地盘」这种画地为牢式的边界感消失，他是欢迎的，但每个专业依然有自己的技能门槛——不是谁用用Excel，就能去财务部门顶班。他也提到，现在换角色确实比以前容易了，因为能力不再和「是否精通某个具体工具」死死绑定：他自己就曾长期觉得不该做工程师，因为不喜欢钻研汇编语言、死记TypeScript语法，而这种「精通某个工具才算干得好」的门槛正在瓦解。不过他也提醒，这个趋势目前被外界过度夸大了。

【前沿开发：当下最前沿的AI辅助开发方式】

Lenny把话题往回拉了一层：从纯人工写代码，到AI能写100%的代码，再到现在「写代码」变成了「引导AI」——评估一个人写了多少代码，几乎变成了「你纠正AI方向纠正了几次」。他问，现在最前沿的做法是不是「loop」（自主循环开发）？那些走在最前面的AI团队，现在具体是怎么运作的？Andrew提到，一个本质的问题是，「多少代码是AI写的」这个问题本身已经不重要了，因为按去年的标准，现在几乎100%的代码都是AI写的；真正该问的是，这些代码是「有监督」写出来的，还是「无监督」写出来的，这是完全不同的两件事。他说自己乐见这种评判标准不断被刷新，因为这恰恰说明产品在往前走。团队做过不少「自主开发软件」方向的探索，也包括不少「harness engineering」相关的尝试，比如设想让模型在夜里自己跑一遍，把代码库做一次「垃圾回收」式的清理。他也坦言，目前所有模型都有一个通病——倾向于让代码越改越复杂。他半开玩笑地说，如果哪家公司的研究团队正好在听，希望能把模型「删代码」的能力练得更好一些。这也是把开发完全交给自动驾驶时会遇到的现实问题，人和代码库两头都是如此：怎么教模型判断该做哪些功能、该忽略哪些、哪些该合并重新归类；怎么教模型搭建正确的抽象结构。这些能力都在变好，但他认为目前还做不到「设一个loop让它自己去改进产品，同时盯着Twitter、Slack、邮件」这种程度，不过团队一直在朝这个方向努力。Lenny追问，会不会有一天，团队干脆直接给AI设一个「赢」或者「给我赚一个亿」这样的终极目标就完事了。Andrew笑着表示自己不敢把话说死，不会轻易断言「永远不会」或者「一定会」。

【合并原因：为何非得把Codex和ChatGPT合并】

Codex最早是命令行工具，后来才做成独立App，最初定位很明确：一个「开发者工具」——不是IDE，能看代码，但不让编辑代码。App正式对外发布前，团队先在OpenAI内部做了一轮试用（1 - 2月）。工程和研究场景里反馈非常清晰、非常正面。但团队同时发现，市场、公关、财务、法务等几乎所有部门的人也在用这个App——尽管它对这些人并不友好，界面里全是代码和命令行权限申请，根本不是为他们设计的体验。团队一开始的应对，是把Codex的能力搬到别的产品界面里，比如ChatGPT桌面应用和Atlas浏览器，做成更通用的知识工作工具。但结果是没人愿意离开Codex App去用那些「专门」打造的App。这让团队意识到：开发者工具和通用知识工具之间的边界正在坍塌，Codex和ChatGPT更像是同一个能力的不同入口，而不是两类独立产品。团队的结论是：这套产品该做成一个足够通用、可扩展的底层，能同时承接财务、法务、科学等深度场景。真正的挑战只在于「怎么让它足够通用」——这也是团队对「Codex到底是开发者工具，还是干脆就是ChatGPT」这个问题的回答。主持人Lenny由此点出：Codex已经做得比ChatGPT App本身更好用、更好玩，用户都跑去用它了，所以合并是必然方向，能避免认知混乱。Andrew笑着回应说，有人把这个方向叫做「超级应用」（super app），他挺后悔当初有人说出这个词，因为从那以后，他每天都要被这个说法包围。Lenny追问：先不叫它「超级应用」，但核心思路是不是「用户到一个地方，就能把所有事情都做完」？还是说，这件事目前还没有定论？Andrew给出的回答，是「home base」（大本营）这个概念：这应该是一个很好的「主场」，一个可以让用户追踪自己在不同产品界面上、所有待办事项的地方。有些事情，用户可以完全在App内部完成；另一些事情，App则负责去调用、打开别的应用来完成——比如，App可以连接Excel，App内部确实也内置了一个电子表格编辑器，但对于要在OpenAI做几十亿美元规模融资、需要做复杂财务建模的人来说，这个内置编辑器可能还远远不够。所以App会直接和用户电脑桌面上的Microsoft Excel插件对话，等事情做完，用户可以直接把Excel关掉。也就是说，这件事从来都不是「我们在屏幕上画一个方框，所有事情都必须发生在这个方框里」，而是——这个东西应该成为用户的一个「家」：你在这里开始工作、结束工作、把工作自动化，需要用到什么工具，它就去调用什么工具。

【应用案例：Codex的神奇应用】

为了说明这一点，Andrew讲了一个具体的故事。Codex App最初发布的时候，团队拍了一批宣传视频，剪辑这些视频的活儿落在了内部的摄影师身上。结果，摄影师全程用Codex剪完了这些视频——这是团队第一次真正意识到「天哪，大家居然在用这东西做这种事」的瞬间之一。摄影师会想到用Codex剪视频，纯粹是出于好奇，就是想看看Codex到底能不能干这件事。Codex本身完全不是一个视频编辑器，界面里也没有任何剪辑相关的UI，但它能理解摄影师用的是Premiere Pro，并且能通过直接编辑Premiere Pro背后、支撑屏幕显示内容的工程文件，完成一部分剪辑操作——只是这样还不能覆盖所有需求。于是，Codex接下来做的事，是给自己写了一个可以装进Premiere Pro里的扩展插件，然后通过这个插件和Premiere Pro「对话」——「嘿，Premiere Pro扩展，能不能帮我把这个标记点改一下。」团队第一次看到这个过程真实发生的时候，都觉得这事儿太不可思议了。

【未来模式：Codex与ChatGPT的发展方向】

由此，Andrew总结出了一个模型：这个世界上已经存在大量在各自领域里做到极致的专业工具，Codex——现在要加上ChatGPT——想要同时做两件事。第一件事，是如何和用户已经在用的这些工具无缝协作：团队不需要重新造一个更好的视频编辑器，而是让Codex和ChatGPT学会使用现成的工具——能和它交互、把任务交接给它，这通常是通过connectors（连接器）、computer use（电脑操作能力），或者像Premiere Pro这个案例一样，通过扩展插件来实现。第二件事，则是Dan Shipper提到过的那种设想：用户手里已经有一堆可以点来点去使用的网页应用，但希望能把这些应用在Codex里直接打开，让Codex在里面替他们多做一些事情。这两种模式，几乎互为镜像，团队目前正在同时大力推进这两条线。