当前位置：首页 > news >正文

从AI结对编程到暗黑工厂：10步规格驱动工作流实践

news 2026/5/27 11:38:38

1. 从“智能补全”到“暗黑工厂”我的无代码软件交付之路上周我在LinkedIn上聊了聊Cursor 3核心观点是它并没有解决我真正在攻克的问题。这引来了不少讨论也让我觉得有必要写得更深一点那个“真正的问题”到底是什么以及我实际在用什么方法应对。这篇文章就是答案。如果你还在用AI工具帮你写几行函数、补全一段逻辑那你可能正处在Dan Shapiro提出的AI辅助开发五层模型中的第二层。而我和我观察到的一些前沿团队已经在第四层和第五层——也就是所谓的“暗黑工厂”模式——进行日常交付了。这听起来很未来但其实像StrongDM这样的公司从2025年中就开始用三个工程师以第五层的模式运行了OpenAI用三个月时间、三个工程师、没手写一行代码构建了一个百万行级别的产品。这不再是概念而是正在发生的工程实践转型。我花了几个月时间将我的工作流从“与AI结对编程”升级到了“向AI下达意图由AI完成构建”。最大的转变不是工具而是思维模式和工作重心的彻底迁移。我不再生活在IDE里而是活跃在一个更高的“协调层”。我的核心工作从“写代码”变成了“写清晰的规格说明”和“设计验证流程”。这篇文章我会毫无保留地分享我这套包含10个步骤的规格驱动工作流特别是其中那个大多数人都会跳过、却价值连城的“对抗性评审”环节。无论你是独立开发者、技术负责人还是对研发效能提升感兴趣的任何人这套方法论都可能为你打开一扇新的大门。2. 理解“暗黑工厂”超越IDE的软件生产范式2.1 五层模型定位你当前的阶段Dan Shapiro的框架之所以让我着迷是因为它清晰地描绘了一条从“人力主导”到“意图主导”的演进路径。我们可以把它看作软件开发的“自动驾驶等级”。第0层全手动驾驶。你编写每一行代码。AI那只是个更聪明的文本编辑器。第1层辅助巡航。你将离散的任务委托给AI比如“写一个解析这个JSON的函数”。AI是得力的助手但每个指令都需要你精准下达。第2层实时结对。你与AI在IDE中并肩编程实时对话、共同思考。这是目前90%自称“AI原生”的开发者所处的状态。工具如Cursor、Claude Code正是为此优化。你仍然深度沉浸在代码逻辑中AI是你的超级副驾。第3层代码生成与审查。AI负责编写大段代码甚至完整模块你的工作重心转向审查Pull Request中的差异。你从“写”代码转向“审”代码。第4层规格输入与结果验证。你编写详细的产品或功能规格说明书AI基于此完成从设计到实现的全过程。你的核心职责是定义“要什么”和“验收标准”并在最后验证产出是否符合预期。“如何实现”完全交给AI。第5层暗黑工厂。规格输入软件输出。人类只负责定义“是什么”和“为什么”而“怎么做”完全自主化。就像上世纪80年代FANUC那个无人值守、关着灯也能连续数周生产机器人的工厂一样软件的生产线在无人干预下持续运行。关键洞察在于从第三层开始你的工作重心发生了根本性转移。你不再需要关心for循环怎么写、API接口如何设计而是需要关心如何将模糊的业务需求转化为机器可精确理解、可验证的指令集。2.2 为什么IDE不再是中心绝大多数AI编程工具包括我曾经重度依赖的那些都是围绕IDE设计的。你打开编辑器输入提示审查生成的代码。AI代理是一个绝佳的编码会话协作者。但“暗黑工厂”不是这样运作的。在第四层和第五层你不在代码里你在代码之上。BCG Platinion在分析那些成功运行暗黑工厂项目的组织时识别出两种将成功团队与失败团队区分开的核心能力驾驭工程能力即设计、构建和优化工厂本身。这包括选择AI代理、配置任务流水线、管理整个编排系统。这更像是 DevOps 和平台工程的结合体但目标不是服务人而是服务AI工作流。意图思维将业务需求转化为精确的、可测试的期望结果描述。工厂产出的一切其质量完全取决于输入规格的质量。这要求你具备出色的抽象、分解和定义能力。这两项能力都发生在IDE之上且都不需要你亲手触碰代码。第四层和第五层的瓶颈不再是编码环境而是其上的协调层——在这里意图被转化为规格规格被分解为任务任务被分配给代理产出物再根据原始意图进行验证。我构建的系统正是为了解决这个协调层的问题。注意很多人误以为“暗黑工厂”意味着完全无需人类。恰恰相反它要求人类在更高维度上工作从事更具创造性和判断力的活动。你的价值不再是产出代码行数而是确保系统朝着正确的方向高效、可靠地生产正确的软件。3. 我的10步规格驱动工作流详解这套方法论是我在实践中逐步打磨出来的它构成了我从Level 2迈向Level 4/5的完整操作手册。每一步都有其不可替代的作用。3.1 第一步战略文档——在一切开始之前锚定方向在构思任何一行代码甚至一个功能之前我会先撰写一份高级别的产品战略文档。这个文档回答的是最根本的问题核心问题我们要解决用户的什么痛点目标用户具体是为谁解决成功愿景六个月后成功是什么样子用可衡量的指标描述边界界定我们明确不做什么这往往比“要做什么”更重要。为什么这步至关重要这是在做决策成本最低的时候做出关键决策。一旦进入开发阶段任何方向性的调整都会代价高昂。这份文档是所有后续工作的“宪法”是判断一切功能、任务是否对齐的终极标准。我通常会花数天甚至一两周来打磨它并与潜在用户或利益相关者反复讨论。3.2 第二步划分价值明确的阶段战略文档是远景我们需要一条抵达的路径。我将战略分解为多个阶段每个阶段都必须有一个具体的、可清晰阐述的价值主张。错误示范“增加用户管理模块”。正确示范“完成本阶段后团队管理员能够自助邀请成员并分配角色从而将新成员入职的等待时间从平均2天减少到10分钟。”如果我不能用一句话向一个非技术背景的伙伴讲清楚这个阶段完成后用户能获得什么新价值那就说明这个阶段定义得还不够清晰不能进入构建环节。3.3 第三步定义可交付的冲刺阶段是宏观的冲刺是微观的执行单元。每个阶段再被分解为若干个冲刺每个冲刺周期大约1-2周。冲刺的目标不是“完成一系列任务”而是交付一个“可感知的、完整的东西”。可交付意味着在冲刺结束时有可以演示、可以测试、甚至可以为部分用户提供价值的产出物。它可能是一个端到端的用户旅程例如“用户从注册到完成首次核心操作”而不是一堆后端API加上半个前端页面。3.4 第四步拆解为原子任务冲刺目标被进一步拆解为单个的、原子化的任务。这里的“原子化”是关键原则足够小小到可以在一个专注的AI代理会话中完成通常对应几十分钟到几小时的工作量。足够明确任务描述本身应尽可能无歧义减少AI代理的理解偏差。可追溯每个任务都必须能清晰地追溯回它所属的冲刺、阶段以及最终服务的战略目标。这为后续的优先级调整和影响分析提供了基础。3.5 第五步撰写逐任务规格说明书——方法论的核心分歧点这是整个工作流中与主流做法分道扬镳的关键一步。对于每一个原子任务我都会撰写一份详细的规格说明书。这份说明书远不止“要构建什么”它是一份多维度的契约维度描述示例针对“用户登录”任务目标这个任务要达成什么业务或用户目标允许已注册用户安全地访问其账户和个人数据。与冲刺/阶段的关联它如何贡献于更大的目标这是“用户核心旅程”阶段的第一步是用户使用产品所有功能的前提。功能需求具体的、可执行的要求列表。1. 提供邮箱/密码登录表单。2. 实现“忘记密码”链接。3. 登录成功后跳转到仪表盘。非功能需求性能、安全、可访问性等要求。页面加载时间 2秒密码传输需HTTPS加密支持屏幕阅读器。验收标准如何验证任务是否成功完成必须是可测试的。1. 输入正确凭证跳转至仪表盘。2. 输入错误密码显示明确错误信息。3. 点击“忘记密码”进入密码重置流程。边界与约束明确什么不该做或必须遵循的约束。不实现第三方社交登录必须使用现有的用户数据库表结构。成功与失败场景描述各种正常和异常的用户操作路径。成功凭证正确。失败密码错误、账户不存在、网络超时。这份规格书是一个独立的文档是可评审、可修改、并在整个构建过程中被引用的唯一真理源。3.6 第六步对抗性规格评审——大多数人跳过的高价值步骤在允许任何编码代理触碰规格书之前我会启动对抗性评审循环。这是整个流程中最具杠杆效应、也最容易被忽视的一步。我启动另一个AI代理例如使用与编码代理不同的模型或使用专门设计的提示词赋予它一个明确的角色“你是一个苛刻的质量分析师。你的任务不是帮助实现而是尽一切可能找出这份规格说明书中的问题、漏洞和风险。”这个对抗性评审者会从以下角度发起挑战模糊性“‘友好的错误信息’具体指什么请举例。”缺失的边缘情况“如果用户在点击登录按钮后、请求响应前关闭了页面应该如何处理”未声明的假设“规格中假设用户邮箱已验证这个验证流程在哪里定义”范围蔓延“‘显示登录历史’这个需求是否超出了当前任务的范围它似乎属于‘账户安全’阶段。”与高层目标不一致“这个自动登录7天的功能是否与阶段二‘强化账户安全’的目标冲突”这个过程通常需要2到4个来回。评审者提出问题我或另一个代理修改规格直到说明书变得严密、清晰、无懈可击。投入在评审上的每一分钟都能节省后期数小时的调试和返工时间。3.7 第七步构建——让编码代理高效执行直到此时编码代理比如基于GPT-4、Claude 3或DeepSeek Coder的专门代理才会拿到那份经过千锤百炼的规格说明书。由于规格极其清晰代理能够以极高的保真度执行。它确切地知道要构建什么、为什么重要、以及哪些是禁区。在这个阶段我的角色是“资源提供者”和“环境管理者”确保代理能访问必要的API文档、设计系统、代码库上下文然后启动它。我可以去喝杯咖啡或者处理其他高价值任务。3.8 第八步对抗性代码评审同样的对抗性哲学被应用于产出物。另一个评审代理或切换了角色的同一代理会仔细审查生成的代码。它的评审重点不是代码风格虽然可以包含而是对规格的遵守程度。它检查实现是否满足了所有验收标准是否引入了规格中明确禁止的东西代码的实现方式是否会在冲刺或阶段层面引发问题例如不合理的性能开销、难以维护的架构评审代理会提出问题或直接请求修改编码代理进行迭代直到评审通过。这形成了一个自动化的质量闭环。3.9 第九步 staging 环境与用户验收测试通过评审的代码被自动部署到 staging 环境。接下来是用户验收测试。对于关键业务流程我可能会进行手动测试感受用户体验。对于大量结构化测试用例如不同输入组合下的边界测试我会启用一个QA代理来执行。这个QA代理的测试用例实际上可以部分从规格说明书的“验收标准”和“成功/失败场景”中自动生成。如果发现问题反馈是具体的、有范围的直接关联回某条验收标准并直接反馈给编码代理进行下一轮修正。3.10 第十步生产发布与文档生成当功能达到发布标准后编码代理会自动生成一份发布摘要构建内容新增或修改了哪些功能。变更影响数据库、API、前端有哪些具体变更。使用指南新功能如何使用的简要说明。这份摘要被记录在任务历史中成为后续所有依赖于此功能的工作的“交接文档”。它确保了上下文不会随着时间流逝而丢失。4. 这套工作流带来的根本性改变大多数人使用AI编码工具是把它当作一个更快的键盘。你打得少代理打得多但你仍然掌控着所有的判断层。我上面描述的工作流则截然不同。代理拥有了显著的判断权尤其是在评审周期中。它们不是在自动补全我的想法而是在检查我的工作寻找盲点并在模糊之处变成bug之前提出质疑。这带来几个深刻变化更高的交付信心由于经过了多轮严格的、基于规格的对抗性评审我对交付物的质量有更强的信心。很多逻辑漏洞和设计缺陷在“纸上谈兵”阶段就被消灭了。更少的返工循环前期在规格和评审上投入的精力极大地减少了后期因误解、需求不清或设计缺陷导致的返工。开发过程变得更可预测。可追溯的决策链路当出现问题时我可以沿着“规格书 - 评审意见 - 实现代码”这条完整的链路进行回溯精准定位错误是在哪个环节被引入的。这使调试从“猜谜游戏”变成了“侦查工作”。系统的持续学习这种可追溯性不仅对调试有用更是下一次构建的宝贵输入。系统可以结构化地从自身历史中学习——哪些规格描述方式更容易被代理准确理解哪些评审问题最常出现从而不断优化整个工厂的流程和提示词模板。StrongDM用计算成本来评估他们的暗黑工厂如果每个工程师每天在AI令牌上的花费没有超过1000美元那么你的工厂还有改进空间意味着自动化程度和吞吐量还不够高。我还没有达到那个水平我正处在第四层和第五层之间。这是一个绝佳的位置既有足够的实践来验证方法论的有效性又离前沿足够近能不断发现新的挑战和极限。5. 方法论所需的工具为什么现有工具不够用当我开始按照这套模式工作时我立刻遇到了一个现实问题我手头所有的工具都不是为这种模式设计的。Linear / Jira是为人类管理者管理人类执行者而构建的。它们的核心是任务分配、状态跟踪和团队协作缺乏对“规格”作为一等公民的管理也无法为AI代理提供结构化的上下文。GitHub Issues是围绕代码库中心的。它虽然可以关联PR但没有原生的规格管理能力也无法将战略、阶段、冲刺、任务和规格连接成一个有层次的、机器可读的整体。Notion / Confluence是优秀的文档工具但它们不是“具备代理意识”的协调层。AI代理无法自主地从一篇篇分散的文档中提取出有层次关系的任务上下文。暗黑工厂方法论真正需要的是一个统一的协调平面。在这里战略文档与冲刺计划相邻规格说明书与任务绑定AI代理可以无需人工中转就直接获取到从战略到任务的所有层级上下文并且每一层都紧密关联。IDE只是这个栈中的一个槽位它需要能够从一个理解工作全局的“控制平面”读取指令。这正是我在构建的东西——那个我急需却找不到的工具。它是一个为“意图驱动开发”和“代理协作”而生的控制平面。当它更成熟时我会分享更多细节。它的核心思想是将上述10步工作流从一套方法论固化为一个流畅、互联、支持代理交互的操作系统。6. 实战中的挑战与应对策略转向这套工作流并非一帆风顺。以下是几个最常见的挑战以及我的应对心得。6.1 挑战一撰写高质量规格说明书的技能短缺这是最大的瓶颈。大多数工程师擅长写代码但不擅长写精确、无歧义、可测试的自然语言描述。应对策略从模板开始我为不同类型的任务如“新建API端点”、“前端组件”、“数据迁移”创建了规格说明书模板强制包含目标、验收标准、边界等章节。使用AI辅助起草我会先让AI代理根据简单的任务描述生成一份规格草案。然后我以这份草案为基础进行精炼和强化。AI是很好的“初稿写手”。同行评审在引入对抗性AI评审之前可以先将规格书发给同事进行人工评审。“你能完全看懂吗你能根据它写测试用例吗”这是最好的试金石。6.2 挑战二对抗性评审的成本与耐心对抗性评审循环耗时且需要你保持耐心去回应那些看似“刁钻”的问题。在追求快速交付的压力下这一步极易被省略。应对策略量化其价值记录下每次对抗性评审发现的关键问题并估算如果这些问题留到开发后期或生产环境才发现将需要多少修复时间。数据会说服你。将其视为需求澄清会把对抗性评审看作是与一个永不疲倦、极度严谨的产品经理或QA进行的需求澄清会议。这是免费且高效的质量保障。优化提示词精心设计对抗性评审代理的提示词让它更聚焦于特定类型的风险如安全、性能、边界条件可以提高评审效率。6.3 挑战三代理的不可预测性与上下文管理即使规格再清晰AI代理有时也会产生令人费解的输出或偏离轨道。应对策略分而治之不要试图让一个代理完成一个巨大的任务。严格遵守“原子任务”原则让每个代理只做一件小而明确的事。提供丰富的上下文除了任务规格还应将相关的代码文件、API文档、设计规范作为上下文提供给代理。这能显著提高输出的准确性和一致性。设置明确的“停止点”在规格中定义清晰的检查点。例如“完成数据库模型定义后请先暂停等待评审”然后再进行下一步。这允许你进行中途矫正避免在错误的方向上走得太远。6.4 挑战四对现有工作流程和团队文化的冲击从“自己写代码”到“管理AI写代码”是一种深刻的角色转变。对于习惯了传统模式的团队和个人可能会产生不适甚至抵触。应对策略从小处试点不要试图全盘推翻。选择一个独立的、风险较低的小项目或功能模块用这套新工作流进行试点。用结果说话。强调价值提升而非替代清晰地传达这套方法的目标是将工程师从重复性、低层次的编码劳动中解放出来更专注于高价值的架构设计、问题拆解和系统优化。将其视为一种新的工程学科就像当年引入版本控制、敏捷开发或DevOps一样这需要学习和适应。可以组织内部分享共同探讨最佳实践。7. 未来展望你现在应该投资什么暗黑工厂的比喻对大多数人来说可能还为时过早。大多数团队仍停留在第二层。像Cursor 3这样的工具是优秀的第二层工具这本身是真实且有价值的进步。但趋势是清晰的。每隔几个月AI代理能可靠完成的任务上限就在提高。那些将为第五层做好准备的组织正是现在就开始投资那两项核心能力的组织驾驭工程能力和意图思维。对于个人开发者和技术领导者我的建议是立即开始练习撰写精确的规格说明书。把你下一个要开发的功能尝试用我上面描述的模板写出来。你会发现思考“如何验证”比思考“如何实现”更难也更有价值。尝试引入对抗性评审。哪怕只是用另一个AI聊天窗口手动给它粘贴你的需求文档并命令它“找出里面的漏洞和模糊之处”。有意识地构建你的“代理工具箱”。思考哪些任务可以标准化、规格化并设计相应的提示词链或工作流。最终规格说明书就是系统本身代码只是从另一端产出的制品。你的核心竞争力正在从编写代码的能力转变为定义问题、设计验证框架和驾驭智能工作流的能力。这场变革已经到来而最好的应对方式就是亲自走进那座“暗黑工厂”从点亮第一盏灯开始。

查看全文

http://www.zskr.cn/news/1402237.html