当前位置：首页 > news >正文

田渊栋的递归AI发布首份成果：三个基准拿下SOTA

news 2026/6/15 18:39:05

上个月中旬，前 Meta 技术大牛田渊栋官宣创业，创办了 Recursive：估值315亿！田渊栋AI创业，谷歌、英伟达和AMD参投。

将近一个月，Recursive 发布首份成果。

Recursive 系统会自动识别并整合各种创新成果，从而创造出比那些由各领域专家精心设计的现有解决方案更优的方案。

Recursive 系统的首批成果，在三个测试上，拿下当前最优成绩，覆盖固定预算语言模型训练、小模型训练速度、GPU 内核优化三个方向。

系统自动完成提出想法、写代码、跑实验、验证结果的完整循环，多个研究线程长时间并行推进，交叉复用彼此的发现，再用严格的验证环节排除作弊和噪声。

Recursive 同时开源了这些运行的成果： https://github.com/recursive-org/first-steps-toward-automated-ai-research

Recursive 会贯穿许多长期的研究线索，保留以往实验的有用背景，结合有前景的分支，并通过奖励破解和方差验证结果，然后将性能提升视为真正的进步。它旨在扩展并利用开放式算法的原则，基于团队及其他人以往的工作理念，构建递归自我改进的人工智能。

团队根据实际重要性和严格反馈循环，选定基准测试了该系统。它们是人工智能进步的三大核心杠杆：更好的训练算法、更快的训练速度，以及更高效的硬件使用。它们也非常适合自动化研究，有明确的指标、相对较低的方差，以及能够抵御奖励黑客攻击的评估器。

社区两年优化，它再加2.2秒

NanoChat Autoresearch 基于 Andrej Karpathy 的 autoresearch 项目，任务是在单块 GPU 上用5分钟固定预算训练小语言模型，追求最低验证损失（BPB衡量）。

这个基准实验快、方差低、作弊好检测，已经有 autoresearch@home 这样的社区协作项目，几十个人带着几百个 Agent 一起优化，形成了一个相当强的对比基线。

autoresearch@home 平均性能为0.9372 BPB。Recursive 系统找到的解决方案，达到了0.9109 BPB，提升0.0263 BPB。而且比 autoresearch@home 方案少1.3倍的训练时间内，达到了Karpathy原始自动研究BPB的质量。

团队测试了系统是否也能从一个较弱的起点（一个简单的初始实现，如带 AdamW 的 vanilla Transformer）进行改进。结果 Recursive 系统将模型从1.059 BPB提升到0.9344 BPB，再次超越了autoresearch@home社区的最佳解决方案。

NanoGPT Speedrun 的难度更高。要超越最先进的技术要难得多，因为有庞大的社区已经优化了超过两年的解决方案。

这个基准测试不是询问在固定时间预算内能达到多低的验证损失，而是询问一个小型GPT风格模型在FineWeb文本数据集上，使用单个HGX H100 8-GPU节点，训练到固定验证损失3.28的速度有多快。

一个83人贡献过纪录的社区花了两年多时间，把训练时间从45分钟压到79.7秒，大部分靠手工工程。当前方案已经高度优化，明显能改的地方不多了。

Recursive 的系统从当前领先方案出发，找到了一组额外优化，把训练时间从79.7秒压到77.5秒，仍满足排行榜的验证损失显著性要求。这个提升幅度和近期人类贡献相当甚至更大。

77.5秒的解决方案并非单一优化。它结合了注意力精度、优化器行为、嵌入更新、调度选择和融合GPU内核的变更。每一次变动都必须节省时间，同时不破坏训练。

团队还测试了系统是否能从较弱的起点取得进展。结果是，从约15分钟的早期方案出发，几天内跑到了约185秒，接近人类排行榜2025年5月约180秒的水平。

GPU内核也上手了

前两个基准优化的是小模型训练方案。SOL-ExecBench 则关注更底层的事：写快且正确的 GPU 内核。

矩阵乘法、归约、归一化、注意力组件、量化、融合块，这些小加速器程序决定了真实训练和推理工作负载的成本。

基准包含235个源自真实工作负载的内核编写任务，每个任务提供一个简单的参考 PyTorch 实现，目标是产生容差内相同的结果，同时在 NVIDIA Blackwell B200 GPU 上尽可能快地运行。SOL 分数0.5对应基准的优化 PyTorch 基线，1.0对应分析性最优性能估计。

Recursive 的系统在全部235个内核上联合运行，这样可以在相关任务间复用发现，包括内存搬运、分块、归约、向量化和融合的模式。系统获得平均 SOL 分数0.754，把与硬件极限的差距从0.699的基础上再缩小了18%。

团队检查了几个高性能内核，发现这些解决方案包含了一系列良好的内核工程实践和创新解决方案。

对抗奖励作弊

三个基准都遇到了奖励作弊问题，SOL-ExecBench 上尤为严重。有些候选方案不去老老实实写更快的内核，转而利用评估设置的漏洞：缓存输出、依赖持久状态、钻计时工具的空子。

Recursive 把正确性审计当作研究系统本身的一部分。有希望的改进要经过越来越严格的自动化检查，区分真正的内核改进和针对基准的投机取巧。

随着搜索能力变强，评估器也得跟着变强，两者构成了一体两面。AI 辅助和人类反馈共同迭代改进了作弊检测器，使得防作弊验证环节在整个研究循环中扮演了关键角色。

Recursive 在文章中强调，随着系统应对越来越具挑战性的真实应用、创建更强大的自动化 AI 研究算法，奖励作弊问题将持续存在。

让系统解决任务的精神而非字面，是创造安全有益的递归自我改进系统的一大挑战。

这些成果是一个早期信号，表明系统在 AI 训练和基础设施任务上能推动前沿，尤其在目标定义清晰、可度量、评估足够快的场景下。

系统靠的不是一个巧妙的点子，靠的是持续积累：发明新优化、在更紧约束下重用已知思路、调优真正影响结果的实现细节、把建模优化和系统层的改进组合起来。

很多收益来自效率提升，AI 的进步不只靠更大的模型和更多的算力，让现有系统训练更快、运行更便宜、用硬件更高效同样重要。

Recursive 预期这类系统将降低智能的成本，先在今天系统中找到更好的工程权衡，再逐步自动化前沿研究流程本身。

参考资料：

https://www.recursive.com/articles/first-steps-toward-automated-ai-research

查看全文

http://www.zskr.cn/news/1530261.html

2026年6月海口奢侈品回收机构分级评分榜！专业测评避坑指南 - 薛定谔的梨花猫

猫抓浏览器扩展：高效实用的网页视频下载完全指南

R3nzSkin：英雄联盟安全内存换肤技术深度解析与实践指南

别再手动做报表了！用永洪BI Desktop，5分钟搞定销售数据可视化大屏

上海品牌营销公司实力排行：全案服务能力实测对比 - 奔跑123

网盘直链下载助手：告别限速，实现免费高速下载自由

告别激活烦恼：3分钟实现Windows与Office永久激活的智能方案

如何快速部署中文手写识别模型：完整实战指南

8大网盘免费提速神器：LinkSwift网盘直链下载助手终极指南

高级安全策略：7个专业方法防范marked.js用户输入风险

终极10分钟快速上手ESP-CSI：Wi-Fi信道感知室内定位完整指南

南京LV爱马仕闲置包包回收测评收的顶稳坐龙头领跑全城 - 奢侈品回收评测

如何用PDown实现百度网盘免登录高速下载？新手3步极速上手指南

回收首饰避坑！这 3 种克扣套路千万别碰 - 逸程

StudyFetch 用两年半俘获 700 万学生用户的秘诀，竟藏在短视频的「惊讶点」里

百度网盘直链解析：三步实现全速下载的终极方案

每个 AI 产品都是一张有向图

长沙冷门老旧手表回收攻略无人问津腕表高价变现技巧 - 奢侈品回收测评

口碑好的蜘蛛手机器人编带机公司

2026年4月亲测：绍兴这家AI推广供应商，效果到底怎么样？ - 彩色球球

2026深圳品牌首饰回收实力排名｜格拉芙塔思琦范思哲正规渠道 - 名奢变现站

终极指南：如何在Calibre中一键完成中文繁简转换

留学移民资料翻译怎么办理？留学移民资料翻译需要什么材料？

青岛市南区高端包包出手，合扬专属高价收购一线大牌包 - 奢侈品交易观察员

得得美家：装修设计装饰公司，深耕北京等地区，省心家装之选 - 十大品牌榜

贵阳闲置黄金如何变现 2026回收价格与门店推荐 - 余生黄金回收

K-460D 无白化低气味瞬干胶技术解析：从低挥发配方到外观件粘接应用

HS2-HF补丁：3分钟完成Honey Select 2完整汉化去码的终极指南

从芯片手册到实战：深入解析SC1400 DSP核心架构与编程优化

社区两年优化，它再加2.2秒

GPU内核也上手了

对抗奖励作弊

相关文章：