这项由北卡罗来纳大学教堂山分校主导联合加州大学圣克鲁兹分校、卡内基梅隆大学、加州大学伯克利分校、斯坦福大学、新加坡国立大学、罗格斯大学、NEC实验室、Meta、谷歌、华盛顿大学等十余家机构共同完成的研究于2026年5月19日以预印本形式发布论文编号为arXiv:2605.20025。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。一、为什么科学家们想让AI自动做研究做科研是一件非常繁琐的事情。一个科研人员从产生想法到发表论文中间要经历查阅海量文献、提出假设、设计实验、反复调试代码、分析结果、撰写论文、修改润色等几十个环节每一步都可能卡壳。更痛苦的是实验失败了不代表方向错了它往往包含着宝贵的信息——但很多研究者就此放弃浪费了这些线索。于是有人开始思考能不能让AI来承担这个繁琐过程的大部分工作这个想法催生了一类叫做自主科研系统的工具。近几年已经有一些这样的系统出现比如AI Scientist、Agent Laboratory等它们能够让AI从一个研究想法出发自动完成实验并生成论文草稿。然而这些早期系统存在几个明显的软肋。第一它们通常只有一个AI大脑在工作这个大脑既负责出主意又负责评价自己的主意好不好——这就像让一个人既当运动员又当裁判很难发现自己方案的漏洞。第二一旦实验代码运行出错系统就直接放弃把所有中间结果都丢掉哪怕那些结果本来还有价值。第三每次运行都是从头开始上一次实验失败学到的教训下一次运行根本用不上——每次都在重蹈覆辙。正是针对这三个痛点这支跨机构研究团队推出了AutoResearchClaw下文简称蟹爪系统因其英文名直译为自动研究爪。二、蟹爪系统的设计哲学把失败变成燃料蟹爪系统的核心理念可以用一句话概括真正的科研是螺旋式上升的不是一条直线。真实的科研过程更像是在黑暗中摸索一条山路。你走错了不代表你白费力气那个弯路告诉你这边走不通帮助你下次选更好的方向。蟹爪系统就是按这个逻辑设计的——它把每一次失败都视为信息而不是终点。整个系统围绕五个核心机制运转这五个机制环环相扣互相加强。第一个机制是多智能体辩论。系统不用单一的AI大脑而是同时启动多个扮演不同角色的AI。在生成研究假设时有一个创新者负责提出大胆激进的假设有一个务实者负责评估这些想法在现实条件比如算力和时间预算下能不能实现还有一个反对者专门挑毛病、找漏洞。三个角色各执一词最后由一个综合者把讨论结果整理成2到4个经过充分检验的、可以被实验验证的假设。实验做完之后系统还会再组建一个新的辩论小组分别扮演乐观派、怀疑派和方法论专家来审查结果确保最终结论站得住脚。第二个机制是自愈式执行。当实验代码跑出错误时系统不会直接崩溃放弃而是先诊断出错的原因然后生成针对性的修复方案重新运行最多可以尝试修复十次。如果反复修补之后还是不行系统会做一个更高层次的判断这次实验是方向本身就错了需要转向回到假设阶段重新来过还是只是细节有问题需要精修调整一下再试这个转向还是精修的决策循环是系统的灵魂所在它让系统能够在遭遇挫折之后继续前进而不是停滞不前。第三个机制是可验证的结果报告。AI生成的论文有一个严重的安全隐患它可能在没有任何实验支撑的情况下编造出看起来很合理的数据或者引用根本不存在的参考文献。蟹爪系统用一套实验结果注册表来堵住这个漏洞——每一次实验运行产生的数字都会被记录在册论文草稿里只能引用这个注册表里存在的数据引用不到的数字会被直接删除或替换成占位符。参考文献方面系统会通过四个独立渠道CrossRef数据库、OpenAlex数据库、arXiv标识符、Semantic Scholar逐一核查每一条引用核查后被判定为幻觉的引用会在论文定稿前被彻底删除。第四个机制是人机协作循环。系统提供七种不同的人类介入模式让研究者可以根据自己的需求选择参与深度。从完全不干预的全自动模式到每一步都要人工审批的逐步模式中间还有只在三个关键节点介入的门控模式、在六个高价值决策点介入的副驾驶模式等。系统还内置了一个智能暂停功能当AI自己估计某个决策的不确定性超过阈值时会主动暂停并请求人工判断。第五个机制是跨轮次进化。系统会在每次运行结束时提取结构化的经验教训包括哪些修复方案奏效了、哪些方向被放弃了、人工审核提出了哪些意见等并把这些教训存储到一个持久化的经验库中。下次运行开始时系统会从经验库中检索相关教训以自然语言的形式注入到各个阶段的提示中不需要重新训练模型。更巧妙的是越新的教训权重越高越老的教训会随时间衰减——系统默认的半衰期是30天这意味着一个月前学到的教训影响力会减半三个月前的教训几乎可以忽略不计。这样既避免了旧知识干扰新情境又不会让宝贵的近期经验白白浪费。三、整个系统的运作流程从想法到论文的23个台阶蟹爪系统把整个科研过程分成三大阶段、23个具体步骤就像一栋楼的23级台阶每一级都有明确的输入和输出。第一阶段是发现对应前七个步骤主要完成研究方向的确定和文献梳理。系统首先会识别研究主题所属的领域机器学习、高能物理、系统生物学等然后通过多个学术数据库搜集文献筛选出与研究方向最相关的论文提取关键知识点最终综合出研究空白和机会。紧接着进入多智能体辩论环节生成经过三方角色检验的假设。第二阶段是实验从第八步延伸到第十五步是整个系统最复杂也最关键的部分。系统首先设计实验方案然后进入代码生成环节。代码生成本身还有一套智能分级机制系统会对每个实验的复杂度打分满分1分超过0.6分的高难度实验会被派给外部专业AI编程助手处理低于0.6分的由内置的多阶段代码生成器处理。内置生成器的工作流程是先画出每个文件的蓝图再按依赖关系依次生成代码利用代码的语法树摘要来保持多文件之间的一致性。代码在被执行之前还要经过静态检查比如是否有两个不同的实验条件其实代码完全相同、是否有把结果写死在代码里之类的问题。所有实验代码都在Docker沙箱容器里运行执行过程分三个网络阶段安装依赖时可以联网下载数据时可以联网但真正跑实验时网络会被完全切断这样既防止实验结果被泄露出去也防止代码偷偷从网上下载预计算好的答案来作弊。实验结果的上报只能通过一个只读的评估接口生成的代码没有权限修改自己的评分逻辑。实验跑完之后结果会经历第二轮多智能体辩论由乐观派、怀疑派和方法论专家共同审查最终形成一份对每个假设逐一给出支持/反驳/不确定结论的分析报告。然后系统做出继续推进、精修还是转向的决策决策完成后进入下一轮或进入写作阶段。第三阶段是写作从第十六步到第二十三步。系统先生成论文结构大纲再撰写完整草稿。草稿中的所有数据表格都直接从实验注册表中提取而不是由AI自由发挥。草稿完成后系统会模拟多个审稿人的角色给出评审意见然后针对意见修改论文并在每个章节的字数上做硬性约束比如摘要150到200字。最后经过质量门控、经验提取、导出排版和引用核查一篇有完整实验支撑的论文就完成了。四、用什么标准来衡量好坏ARC-Bench基准测试为了公平地评估蟹爪系统的表现研究团队自己设计了一套基准测试叫做ARC-Bench。这套测试包含25个机器学习研究主题覆盖了表格数据分析、优化算法、降维与聚类、自然语言处理、异常检测、因果关系发现、排序学习等多个方向。这25个主题有一个共同特点都可以在单个普通CPU上十分钟内完成不需要高端GPU——这样就能确保所有参赛系统在相同的资源条件下公平竞争。每个主题都包含具体的研究问题、数据集要求以及预期的实验交付物。测试还延伸到了机器学习之外的领域另外增加了20个科学领域题目包括10个高能粒子物理题目、7个系统生物学题目和3个统计学题目这些题目需要用到专业的科学软件工具包是对AI系统跨领域能力的额外考验。评分标准按三个维度打分权重分配是25:25:50。代码开发维度占25分考查实现是否正确地实例化了提出的方法。代码执行维度占25分考查实验是否成功跑通并产生了有效结果。结果分析维度占50分权重最高考查结论是否有实验数据支撑、假设是否都有明确的验证结论、局限性是否诚实地被报告。结果分析权重如此之高是因为它最能体现一个系统是否真正做到了科学推理而不只是跑通了代码而已。评分由两个独立的AI评审员并行完成如果两者在某一项的打分差距超过0.2就要经过重新裁定最终取两者平均值。五、蟹爪系统究竟表现如何在25个机器学习主题的实验阶段评估中蟹爪系统的副驾驶模式CoPilot即在六个关键决策点有人工介入的模式取得了0.648的综合评分比AI Scientist v2的0.419高出54.7%比AIDE-ML的0.511高出26.8%。即便是完全不依赖人工介入的全自动模式蟹爪系统也达到了0.596仍然远超两个对比系统。拆分来看差距最大的地方恰恰是结果分析这个维度。副驾驶模式得了0.523而AI Scientist v2只有0.261差距超过一倍。这个数字说明蟹爪系统不只是能把代码跑通而是真正能产出经过严格检验的科学推断。全自动模式在25个主题中只有2个未能产生有效结果而AI Scientist v2则有6个失败失败集中在需要反复迭代的复杂主题上比如动力系统和因果关系发现。在跨领域能力方面结果就更加悬殊了。AIDE-ML和AI Scientist v2在高能物理和系统生物学题目上完全无法运行因为它们的沙箱环境根本没有安装这些领域所需的专业软件得分为零。蟹爪系统则通过为每个领域配备专用的技能模块在生物学题目上平均得分0.912在统计学题目上平均得分0.898在高能物理题目上虽然因为部分交付内容不足和一些说法缺乏依据而有所扣分但仍然达到了0.489的有效成绩。六、人介入多少才合适七种模式的对比实验研究团队专门做了一个从想法到完整论文的端到端实验在10个主题上测试了七种不同的人机协作模式用1到10的量表来评价生成论文的质量5分及以上视为可接受。结果揭示了一个反直觉的规律人介入越多不一定效果越好。副驾驶模式在6次定向介入的情况下平均论文质量达到7.27分87.5%的论文质量可接受。而逐步审批模式要求23次介入平均质量只有5.19分可接受率50%。全自动模式平均质量仅4.03分可接受率只有25%。介入次数最多23次的逐步模式效果反而比介入6次的副驾驶模式差很多。原因在于逐步模式在每一个无关紧要的步骤都要求人工批准这些批准动作本身并不带来任何有价值的信息反而因为人需要频繁确认而打断了系统的流畅运作而副驾驶模式把人的精力集中在六个真正关键的决策节点比如假设共创、实验设计审查、论文草稿协作等每一次介入都能产生实质性的价值。研究团队还把副驾驶模式拆分成两半来分别测试从而区分实验前和实验后的介入各自起什么作用。结论是实验前的介入主要解决研究设计的可行性问题比如在某个主题上人工把一个240种条件的实验设计压缩到60种并指定了合适的统计检验方法防止系统走上一条根本跑不完的路实验后的介入主要解决结论忠实度问题确保论文里写的结论真的和测量数据一致而不是AI自行发挥。副驾驶模式同时覆盖了这两个半段所以效果最好。对于只想花最少精力但又不想完全放手的研究者来说只在三个节点介入的门控模式提供了一个有吸引力的中间选项可接受率从全自动的25%提升到50%而且是七种模式中唯一做到10个主题全部产出有效论文的模式。七、拆开来看每个零件有多大用为了验证五个核心机制各自的价值研究团队做了一个逐一拆除的消融实验每次去掉一个机制其他保持不变然后用三次重跑取最佳成绩的方式来减小随机性的干扰。去掉多智能体辩论之后论文平均质量从5.62下降到4.25下降幅度最大说明辩论机制是提升质量的最重要来源。去掉自愈式执行之后完成率从10/10下降到6/10这是完成率下降幅度最大的说明自愈机制是确保实验能跑通的最关键保障。去掉跨轮次进化之后质量小幅下降0.48完成率少一个说明这个机制主要起到避免重蹈旧日覆辙的可靠性保障作用而不是提升质量上限的手段。最具警示意义的是去掉验证机制的结果表面上可接受论文从3篇增加到了5篇但人工检查发现其中3篇论文里包含了实验注册表里根本没有的数字——也就是AI编造的数据。验证机制的代价是让接受率看起来更低但这个代价换来的是科学诚信。研究者们把这个机制称为诚信的最后防线它的价值不在于提分而在于让高分论文是真实可信的。最后同时去掉辩论和自愈两个机制完成率跌到4/10质量降至3.47没有一篇论文达到可接受标准。这两个机制的叠加效应超过了它们各自效果的简单相加——辩论产生了大胆的假设自愈机制保证这些假设能撑过一次次实验失败而不夭折失去自愈大胆假设就变成了脆弱的泡泡失去辩论自愈机制就只能修补一些平庸方向的平庸实验。八、一个具体的案例CV策略对比实验论文中有一个Topic T10的案例非常生动地说明了上述所有机制是如何在现实中发挥作用的。这个主题要求研究不同的交叉验证Cross-Validation一种用来评估机器学习模型好不好的技术策略在小样本条件下有何差异。全自动模式跑完了整个流程产出了一篇看起来完整的论文但有一个致命问题它测试的八种不同交叉验证策略每一种报告的偏差估计都是完全相同的零——这意味着实验根本没有区分出任何策略的差异整篇论文实际上什么也没有说清楚。更吊诡的是这些零值是真实记录在实验注册表里的真实数字所以论文顺利通过了数字验证关卡但这些零值本身就是没有科学价值的。副驾驶模式在这个主题上则大不相同。在假设生成阶段辩论中的务实者就提出了留一法交叉验证可能超出时间预算的担忧反对者质疑了实验设计能否真正检测出策略间的差异。人工介入时研究者明确要求系统验证各策略会产生不同的输出结果把留一法的时间成本纳入考量并确保论文中的说法不超出实验日志的范围。最终副驾驶模式产出了一篇在九条实验流程上都观测到了不同偏差值的论文清晰报告了各策略的对比结果并诚实地说明了研究的局限性质量评分8分而全自动模式只有4分。这个案例揭示了一个重要事实实验成功运行并不等于科学问题得到了回答。蟹爪系统的验证机制能挡住编造的数字但挡不住虽然是真实数字却无法回答研究问题的情况这正是人工介入在关键决策点最不可替代的原因。九、AI自动做研究我们该担心什么研究团队在论文中专门用一个完整的附录讨论了这项技术的伦理问题和更广泛的影响。最核心的风险是科学记录可能被污染。如果AI大量生成含有错误数据或不存在的引用的论文学术界的知识库就会被噪声污染。蟹爪系统通过实验注册表和四层引用核查来降低这个风险但研究者们也明确承认这些机制不保证科学结论正确它们只能确保数字和引用有迹可查。另一个风险是论文工厂效应——如果发表论文的成本极度降低可能会催生大量低质量的论文投稿淹没真正有价值的研究。对此研究团队的建议是这类系统应该用来加速探索阶段和初步可行性验证而不是用来批量生产最终发表的论文。人应该对问题选择、结果解读、最终结论和投稿决定保持全权负责使用AI工具时应当明确披露。在实际安全措施上系统通过沙箱隔离、网络切断、只读评估接口、数字验证和引用核查来构建多层防线。每次运行的API费用大约在3到15美元之间这使得大规模滥用在经济上有一定门槛但并不是完全不可能。文章最后也指出这次HITL实验中的人工介入是脚本化的并非真实的人参与未来如果要进行真实人类参与的研究需要走正式的伦理审查程序。归根结底蟹爪系统想解决的不是能不能用AI完全替代科研人员这个问题而是怎样让AI和人类的配合产生最大的协同效应。七种介入模式的对比实验已经给出了一个实证回答恰到好处的、集中在高价值决策点的人工介入比完全自动化和无处不在的监督都要有效。这个结论对于如何设计未来的人机协作系统或许有着超出科研自动化本身的参考价值。有兴趣深入了解技术细节的读者可以在arXiv平台搜索论文编号arXiv:2605.20025v1查阅完整论文代码已开源于GitHub的aiming-lab/AutoResearchClaw仓库。QAQ1AutoResearchClaw和AI Scientist v2有什么核心区别A两者都能从想法自动生成论文但AutoResearchClaw多了三个关键能力一是用多个AI角色互相辩论来检验假设避免单个AI自我确认的问题二是实验失败时不直接放弃而是诊断原因并修复或转向三是把每次运行的失败经验存起来下次运行时直接参考不用重复踩坑。在25个测试主题上AutoResearchClaw综合得分比AI Scientist v2高出54.7%。Q2AutoResearchClaw怎么防止AI编造实验数据A系统在实验运行时建立一个注册表把所有真实测量值都记录进去包括每个条件的均值、标准差和每次随机种子的原始数值。论文草稿里的数据表格只能从这个注册表里取值不允许AI自行填写。草稿生成之后系统还会逐一核对论文里出现的每个数字是否能在注册表里找到对应记录找不到的数字在摘要、结果、实验等关键章节会直接触发整篇文章拒绝在其他章节则替换为可见的占位符。Q3ARC-Bench是什么类型的测试和现有评测有什么不同AARC-Bench是专门为评估自主科研系统而设计的一套基准测试包含25个机器学习主题和20个跨科学领域主题。与现有的MLE-bench等评测不同它的评分重点放在结果分析维度权重占总分的一半专门考查AI是否能产出有科学价值的结论而不只是跑通代码。每个主题都指定了研究问题、数据集和预期实验产出设计上要求在单CPU十分钟内可运行以保证跨系统的公平比较。