田渊栋的递归AI发布首份成果:三个基准拿下SOTA
上个月中旬,前 Meta 技术大牛田渊栋官宣创业,创办了 Recursive:估值315亿!田渊栋AI创业,谷歌、英伟达和AMD参投。
将近一个月,Recursive 发布首份成果。
Recursive 系统会自动识别并整合各种创新成果,从而创造出比那些由各领域专家精心设计的现有解决方案更优的方案。
Recursive 系统的首批成果,在三个测试上,拿下当前最优成绩,覆盖固定预算语言模型训练、小模型训练速度、GPU 内核优化三个方向。
系统自动完成提出想法、写代码、跑实验、验证结果的完整循环,多个研究线程长时间并行推进,交叉复用彼此的发现,再用严格的验证环节排除作弊和噪声。
Recursive 同时开源了这些运行的成果: https://github.com/recursive-org/first-steps-toward-automated-ai-research
Recursive 会贯穿许多长期的研究线索,保留以往实验的有用背景,结合有前景的分支,并通过奖励破解和方差验证结果,然后将性能提升视为真正的进步。它旨在扩展并利用开放式算法的原则,基于团队及其他人以往的工作理念,构建递归自我改进的人工智能。
团队根据实际重要性和严格反馈循环,选定基准测试了该系统。它们是人工智能进步的三大核心杠杆:更好的训练算法、更快的训练速度,以及更高效的硬件使用。它们也非常适合自动化研究,有明确的指标、相对较低的方差,以及能够抵御奖励黑客攻击的评估器。
社区两年优化,它再加2.2秒
NanoChat Autoresearch 基于 Andrej Karpathy 的 autoresearch 项目,任务是在单块 GPU 上用5分钟固定预算训练小语言模型,追求最低验证损失(BPB衡量)。
这个基准实验快、方差低、作弊好检测,已经有 autoresearch@home 这样的社区协作项目,几十个人带着几百个 Agent 一起优化,形成了一个相当强的对比基线。
autoresearch@home 平均性能为0.9372 BPB。Recursive 系统找到的解决方案,达到了0.9109 BPB,提升0.0263 BPB。而且比 autoresearch@home 方案少1.3倍的训练时间内,达到了Karpathy原始自动研究BPB的质量。
团队测试了系统是否也能从一个较弱的起点(一个简单的初始实现,如带 AdamW 的 vanilla Transformer)进行改进。结果 Recursive 系统将模型从1.059 BPB提升到0.9344 BPB,再次超越了autoresearch@home社区的最佳解决方案。
NanoGPT Speedrun 的难度更高。要超越最先进的技术要难得多,因为有庞大的社区已经优化了超过两年的解决方案。
这个基准测试不是询问在固定时间预算内能达到多低的验证损失,而是询问一个小型GPT风格模型在FineWeb文本数据集上,使用单个HGX H100 8-GPU节点,训练到固定验证损失3.28的速度有多快。
一个83人贡献过纪录的社区花了两年多时间,把训练时间从45分钟压到79.7秒,大部分靠手工工程。当前方案已经高度优化,明显能改的地方不多了。
Recursive 的系统从当前领先方案出发,找到了一组额外优化,把训练时间从79.7秒压到77.5秒,仍满足排行榜的验证损失显著性要求。这个提升幅度和近期人类贡献相当甚至更大。
77.5秒的解决方案并非单一优化。它结合了注意力精度、优化器行为、嵌入更新、调度选择和融合GPU内核的变更。每一次变动都必须节省时间,同时不破坏训练。
团队还测试了系统是否能从较弱的起点取得进展。结果是,从约15分钟的早期方案出发,几天内跑到了约185秒,接近人类排行榜2025年5月约180秒的水平。
GPU内核也上手了
前两个基准优化的是小模型训练方案。SOL-ExecBench 则关注更底层的事:写快且正确的 GPU 内核。
矩阵乘法、归约、归一化、注意力组件、量化、融合块,这些小加速器程序决定了真实训练和推理工作负载的成本。
基准包含235个源自真实工作负载的内核编写任务,每个任务提供一个简单的参考 PyTorch 实现,目标是产生容差内相同的结果,同时在 NVIDIA Blackwell B200 GPU 上尽可能快地运行。SOL 分数0.5对应基准的优化 PyTorch 基线,1.0对应分析性最优性能估计。
Recursive 的系统在全部235个内核上联合运行,这样可以在相关任务间复用发现,包括内存搬运、分块、归约、向量化和融合的模式。系统获得平均 SOL 分数0.754,把与硬件极限的差距从0.699的基础上再缩小了18%。
团队检查了几个高性能内核,发现这些解决方案包含了一系列良好的内核工程实践和创新解决方案。
对抗奖励作弊
三个基准都遇到了奖励作弊问题,SOL-ExecBench 上尤为严重。有些候选方案不去老老实实写更快的内核,转而利用评估设置的漏洞:缓存输出、依赖持久状态、钻计时工具的空子。
Recursive 把正确性审计当作研究系统本身的一部分。有希望的改进要经过越来越严格的自动化检查,区分真正的内核改进和针对基准的投机取巧。
随着搜索能力变强,评估器也得跟着变强,两者构成了一体两面。AI 辅助和人类反馈共同迭代改进了作弊检测器,使得防作弊验证环节在整个研究循环中扮演了关键角色。
Recursive 在文章中强调,随着系统应对越来越具挑战性的真实应用、创建更强大的自动化 AI 研究算法,奖励作弊问题将持续存在。
让系统解决任务的精神而非字面,是创造安全有益的递归自我改进系统的一大挑战。
这些成果是一个早期信号,表明系统在 AI 训练和基础设施任务上能推动前沿,尤其在目标定义清晰、可度量、评估足够快的场景下。
系统靠的不是一个巧妙的点子,靠的是持续积累:发明新优化、在更紧约束下重用已知思路、调优真正影响结果的实现细节、把建模优化和系统层的改进组合起来。
很多收益来自效率提升,AI 的进步不只靠更大的模型和更多的算力,让现有系统训练更快、运行更便宜、用硬件更高效同样重要。
Recursive 预期这类系统将降低智能的成本,先在今天系统中找到更好的工程权衡,再逐步自动化前沿研究流程本身。
参考资料:
https://www.recursive.com/articles/first-steps-toward-automated-ai-research
