当前位置: 首页 > news >正文

7M参数,干翻巨无霸LLM!这款超小递归模型(TRM),在ARC-AGI上证明了“少即是多”

01 论文概述

1.png

论文标题:Less is More: Recursive Reasoning with Tiny Networks

作者团队:三星AI实验室(Samsung SAIL Montréal)

发布时间:2025年9月6日

论文链接:https://arxiv.org/pdf/2510.04871

👉您可以跳转到 Lab4AI 平台上去阅读论文原文。
Lab4AI 大模型实验室论文阅读链接:
https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=cffcdeb7f3174ebf9daedd9a9482a656

👉 或者文末点击阅读原文,即可跳转至对应论文页面~
2.png

Lab4AI 提供 ✨AI 导读 和 AI 翻译 ✨ 工具

| 研究背景与动机

当前推理模型在解决需要多步、精确推理的难题时面临“大模型低效、小模型乏力”的矛盾。核心问题集中在大语言模型(LLMs)与层次推理模型(如 HRM)存在显著短板:大语言模型(LLMs)是自回归生成答案的,会因为单个错误导致推理的答案错误。而已有研究者认为依赖链式推理(CoT)和测试时计算(TTC)可以增加推理准确性,但这些方法需要高质量的数据且鲁棒性差。

在TRM之前,有研究者提出递归层次推理HRM,它模仿生物大脑,使用两个小神经网络在不同频率上进行递归思考。HRM虽然在推理任务上超越LLMs的小模型,但是它的设计复杂、依赖不动点定理且训练不稳定。TRM应运而生,旨在以更简单、高效的方式实现递归推理。

| TRM 是什么

10月6日,三星AI实验室(Samsung SAIL Montréal)发表了名为Less is More: Recursive Reasoning with Tiny Networks 的论文。该论文提出了一种“​少即是多​”的更简单、更高效的递归推理模型—Tiny Recursive Model(TRM)。

作者对HRM进行了简化和改进。TRM仅使用一个超小的2层网络(7M参数),通过更直接、完整的递归和深度监督机制,在多个基准测试上显著超越了HRM和许多主流LLMs。其最引人注目的成果是在ARC-AGI-1上达到45%的测试准确率,超过了参数量是其数百万倍的LLMs(如Gemini 2.5 Pro)。

| 核心架构

3.png

TRM的核心架构可以用以上图表示。TRM的工作流程可以结合图1和算法3直观理解:

  1. 初始化:输入问题、初始答案和潜在推理状态。
  2. 深度监督循环:对于每个训练样本,模型进行最多次改进步骤。
  3. 潜在递归:在每个监督步骤中,模型执行一个“深度递归”过程:

(1)无梯度预热:先进行次(如2次)完整的“潜在递归”,即先递归更新(次),再根据新的更新。此过程不计算梯度,目的是利用模型自身的计算能力初步优化答案。

(2)有梯度递归:最后进行1次有梯度的“潜在递归”,这次的反向传播会贯穿整个递归过程。

  1. 损失计算与停止判断:计算预测答案的损失以及停止概率的损失。如果停止概率超过阈值,则提前结束对该样本的深度监督循环。
  2. 梯度更新:执行反向传播和梯度更新,并将当前步的和截断梯度后作为下一步的初始值。

| 核心方法与创新思路

论文的贡献并非表面改进,而是从理论、架构、效率等层面重构递归推理模型。

​(1)​摒弃不动点定理,实现“完整递归反向传播”

HRM的存在一个问题:仅反向传播最后 2 步(1个+1个),依赖“不动点假设”,但实际未收敛,梯度计算不完整;

TRM针对这个问题,提出了解决方案:TRM不再假设收敛,而是直接通过整个递归过程(n次 latent reasoning + 1次 answer refinement)进行反向传播。为了在深度监督中利用无梯度计算进行“预热”,它先进行T-1次无梯度递归,再进行1次有梯度的递归。这彻底避开了IFT的理论争议,并带来了巨大的性能提升。

​(2)​重构 Latent ​ 变量,无需分层与生物解释

作者提出了一个更自然的解释:其实就是当前答案的嵌入表示,而是一个纯粹的中间推理状态。因此,TRM将其重命名为(答案)和(推理状态)。这种解释明确了为什么需要两个特征:用于记住当前解决方案,用于进行链式推理。

​(3)​单网络替代双网络,参数规模减半

既然更新和更新的任务区别仅在于输入中是否包含问题,TRM使用一个共享的微小网络来同时完成这两项任务。

TRM用单个2层网络同时实现“更新(推理)”与 “更新(解优化)”,通过“输入是否包含” 区分任务:

更新z时:输入为(需结合问题x优化推理);

更新y时:输入为(无需,仅基于推理优化解);

​(4)​少即是多”的规模控制

作者发现将网络深度从4层减少到2层,同时按比例增加递归次数以保持总计算量,能显著提升泛化性能。这凸显了在小数据场景下,避免过拟合比增加模型容量更重要。

​(5)​无注意力架构用于固定短语长度的任务

对于固定且较小的上下文(如9x9数独),TRM用应用于序列维度的MLP取代了自注意力机制,灵感来自MLP-Mixer。这在数独任务上带来了巨大提升,但在上下文较大的任务(如30x30网格)上,自注意力仍更有效。

6​)​简化 ACT ​机制,消除额外前向传播

TRM移除了需要额外前向传播的Q-learning“继续”损失,只保留一个基于答案正确性的二值交叉熵“停止”损失。

​(7)引入 EMA​,抑制小数据集过拟合

HRM在小数据集(如 1K 样本的 Sudoku-Extreme)上易过拟合,训练后期准确率骤降。为了在小型数据集上稳定训练并防止过拟合,TRM采用了指数移动平均(EMA),权重更新时平滑参数(EMA decay=0.999),减少权重波动。

| 实验设计与结果分析

论文在数独、迷宫、ARC-AGI-1/2四个基准上的实验结果非常令人印象深刻:

ü TRM(7M参数)全面超越了HRM(27M参数),例如在ARC-AGI-2上将性能从5.0%提升至7.8%。

ü TRM大幅超越了众多参数量巨大的LLMs,证明了其解决复杂推理问题的巨大潜力。

这些结果强有力地支持了论文的核心理念:对于某些需要系统化推理的、数据稀缺的任务,一个参数极少但能够进行深度递归计算的模型,可能比一个参数庞大但推理路径短的模型更有效。

02 论文原文阅读

您可以跳转到 Lab4AI 平台上去阅读论文原文。

👉Lab4AI 大模型实验室论文阅读链接:

https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=jssq_bky&id=cffcdeb7f3174ebf9daedd9a9482a656

👉文末点击阅读原文,即可跳转至对应论文页面~
4.png

▼ AI 翻译——对照阅读
5.png

▼ AI 导读——获取核心信息
6.png

  • Lab4AI.cn提供免费的AI 翻译和AI 导读工具辅助论文阅读;
  • 支持投稿复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新。
    Lab4AI.cn 来送礼啦~

✅ 注册有礼,注册即送 30 元代金券

https://www.lab4ai.cn/register?utm_source=jssq_bky立即体验

✅ 入群有礼,入群即送 20 元代金券

👇
群.jpg

本文由 AI 深度解读,转载请联系授权。关注“大模型实验室 Lab4AI”,第一时间获取前沿 AI 技术解析!

http://www.zskr.cn/news/22333.html

相关文章:

  • 2025年通风天窗厂家最新权威推荐榜:屋顶通风器/排烟天窗/通风气楼/顺坡气楼,涵盖10A/1型/TC5A/TC12B/屋脊通风天窗专业选购指南
  • markdown的解析器
  • 探索 Markdown 的奇妙世界
  • 2025 防火/模压/瓦楞/大跨距/热镀锌/热浸锌/不锈钢/光伏/铝合金/锌铝镁/电缆桥架推荐榜:河北百著金属 5 星领跑,适配工业 / 建筑 / 通讯多场景线缆防护
  • 2025全球球形环氢硼聚变/“玄龙-50U”氢硼聚变厂家推荐榜单:探索清洁能源的未来方向
  • 长视频理解与生成技术突破
  • 27 LCA模拟赛3T3 三等分的数组 题解
  • 26 LCA模拟赛3T2 连边 题解
  • 28 S2模拟赛T2 开会council 题解
  • 实验记录2025/10/14
  • 2025年中央空调/锅炉房/机房运维服务厂家最新权威推荐榜:专业托管与维修外包一体化解决方案精选
  • 《Vue3 + Vite + Pinia 实现后台管理系统:路由权限控制与动态菜单渲染》
  • 性能测试进阶秘籍:如何用JMeter分布式压测挖掘系统极限潜
  • 2025 年废旧轮胎裂解加热生产厂家最新推荐榜单:优质企业专利技术、产能规模与口碑实力全景解析锂化工焚烧炉/氟化热风系统/煤化工热风炉厂家推荐
  • 日志 | 2025.10
  • 【ACM出版|EI检索稳定】2025年AI驱动下:业务转型和数据科学创新国际学术会议(ICBTDS 2025)
  • 2025 年厂房出售公司服务推荐排行榜:珠三角/广州/深圳/东莞/佛山/珠海等城市优质厂房出售公司全面测评解析
  • 构建智能视觉中枢:国标GB28181算法算力平台EasyGBS的全域感知与播放方案
  • 【2025-10-14】玩玩植物
  • 2025 木饰面源头厂家最新推荐榜单:21 年深耕企业领衔,背景墙 / 全屋 / 碳晶板 / 岩板全场景适配品牌解析
  • 读书笔记:Oracle LOB类型:大数据存储的终极指南
  • 2025 年铝塑板源头厂家最新推荐榜:聚焦气候适配与品质服务,西南及全国优质供应商精选,含门头 / 墙面 / 外墙等场景专款
  • 【2025-10-13】平凡父母
  • 【2025-10-15】农村自建房
  • 283.移动零
  • Mysql1064,最常见的语法错误
  • 泳池水检测仪厂家推荐,余氯检测仪哪个品牌好?COD水质/总氮/氨氮靠谱供应商
  • 2025年智能装备与机器人国际学术会议(IER 2025)
  • 盘点2025破碎仪厂家/提供研磨处理方案的厂家
  • Delphi TscGPPageControl动态创建新页面与加载Frame框架