当前位置：首页 > news >正文

7B小模型逆袭70B?强化学习如何点燃多模态大模型的推理能力

news 2026/5/30 12:06:51

大模型会算数早已不是新闻，但能不能看懂图像、理解问题，并一步步推理出答案，是另一回事。

DeepSeek-R1 出现后，大家看到了一种新可能：不依赖海量人工标注，单靠强化学习（RL）也能激发语言模型的推理能力。于是，一个自然的问题出现了：

这套“冷启动 + 强化学习”的范式，能否迁移到多模态模型？

现实并不简单。直接把语言模型的 RL 方法搬到多模态模型上，模型往往学不会复杂的自我质疑、反思和推理。根本原因在于：多模态推理数据太稀缺。没有高质量数据作为地基，RL 很难真正发挥作用。

Vision-R1 正是为了解决这个问题而来。它提出了一套完整的多模态推理训练方案，通过“冷启动数据构造 + 强化学习精炼”，让多模态模型获得更强的逐步推理能力。

▲ Vision-R1 的两阶段范式：冷启动数据构造 + 强化学习精炼

为帮助大家更好的研究，我整理了多模态 R1 家族 · 谱系图 + 论文清单

关注公众号“LLM炼丹炉”，后台回复“A254”,免费获取

1. 这项研究想解决什么问题？

当前多模态推理面临一个关键矛盾：

语言模型有大量文本推理语料作为基础；
多模态模型却缺少高质量的图文推理数据。

如果没有足够好的多模态 CoT 数据，模型即使用 RL 训练，也很难学出稳定、可靠的推理过程。常见问题包括：

思维链质量差；
推理过程不稳定；
模型容易胡乱生成解释；
RL 阶段难以收敛。

因此，Vision-R1 的核心目标是：

在尽量减少人工标注成本的前提下，构造高质量多模态推理数据，并进一步用强化学习激发模型推理能力。

2. 方法：冷启动 + 强化学习

Vision-R1 的整体流程可以概括为两步。

第一步：构造冷启动数据

作者没有直接依赖人工标注，而是采用一种“模态桥接”（modality bridging）方法。

具体来说：

先用现成的多模态模型读取图像；
将图像转化为详细文字描述；
再把这些描述输入 DeepSeek-R1；
由 DeepSeek-R1 生成高质量思维链；
最后通过规则过滤，去掉低质量样本。

最终，作者构建出一个约 20 万条样本的多模态 CoT 数据集，名为Vision-R1-cold。

这个过程的关键在于：先把“看图问题”转化成“文本推理问题”，再借助强文本推理模型生成推理链。

可以简单理解为：

图像 → 图像描述 → 文本推理 → 多模态 CoT 数据

这一步为后续 RL 提供了稳定地基。

第二步：强化学习精炼

完成冷启动后，作者进一步使用强化学习提升模型能力。

但他们发现了一个反直觉现象：模型并不是“想得越多越好”。在实验中，正确答案往往集中在较短的思维链中，而过长的推理链反而更容易跑偏。

作者将这一现象称为：

过度思考优化问题（Overthinking Optimization Problem）

为了解决这个问题，Vision-R1 提出了渐进式思考抑制训练，即 PTST（Progressive Thought Suppression Training）。

其核心思想是：不要一开始就强行压缩模型推理，而是逐步引导模型减少无效思考，保留必要推理步骤。

在 RL 阶段，作者结合 GRPO 进行训练。整体优化目标可以简化理解为：

其中：

表示当前多模态模型；
表示模型生成的回答；
表示奖励函数，用于衡量回答是否正确、推理是否合理。

最终，Vision-R1 只使用约 1 万条多模态数学数据，就获得了显著提升。

3. 主要实验结果

Vision-R1 的实验结果非常亮眼，尤其体现在三个方面。

1）7B 模型接近 70B 级模型

在 MathVista 基准上，Vision-R1-7B 达到 73.5% 准确率，仅比 OpenAI O1 低 0.4%，并且可以媲美许多 70B 以上规模的多模态推理模型。

这说明：模型能力并不只由参数规模决定，训练范式同样关键。

2）小规模数据带来明显提升

RL 阶段只使用约 1 万条多模态数学数据，就让模型在多个基准上平均提升约 6%。

这体现出 Vision-R1 的高数据效率，也说明高质量冷启动数据对于 RL 非常重要。

3）方法具有可扩展性

当模型和 RL 数据继续扩大后，效果仍然提升：

Vision-R1-32B：MathVista 达到 76.4%；
Vision-R1-72B：MathVista 达到 78.2%。

这表明该范式不仅适用于小模型，也能扩展到更大规模模型。

4. 这篇工作的亮点

Vision-R1 的价值不只是“7B 打到 70B 水平”，更重要的是它给出了一个清晰、可复现的多模态推理训练范式。

第一，跑通了多模态 R1 范式

它将语言模型中的：

冷启动 SFT → RL 精炼

成功迁移到多模态场景，并给出了完整 pipeline。

第二，提出“过度思考”问题

很多人默认思维链越长越好，但 Vision-R1 证明并非如此。过长推理链可能引入噪声和错误步骤。

这个发现很有启发性，也为后续研究提供了新方向，例如：

推理链长度与正确率的关系；
如何判断哪些推理步骤是必要的；
如何减少无效思考。

第三，数据构造成本低

Vision-R1 使用“模态桥接 + 文本 R1 蒸馏”的方式，几乎不依赖人工标注。这对资源有限的实验室和学生非常友好，也适合作为多模态推理方向的复现起点。

5. 需要冷静看待的地方

当然，Vision-R1 也不是终点。

首先，它主要在数学推理任务上验证效果，是否能泛化到更开放的视觉推理任务，比如复杂场景理解、空间关系推理、视频推理等，还需要进一步研究。

其次，冷启动数据质量依赖现有多模态模型的图像描述能力。如果图像描述本身不准确，后续生成的思维链也会受到影响。

最后，RL 训练通常对奖励设计、采样策略和超参数较敏感。实际复现时，仍然需要细致调参。

6. 对科研的启发

对于关注多模态推理、强化学习和低成本科研路径的同学来说，Vision-R1 至少有三点启发。

第一，它是理解多模态 R1 系列工作的关键入口。读懂它，就能理解后续 Perception-R1、Video-R1、R1-VL 等工作的基本逻辑。

第二，它的数据构造方法成本较低，适合作为复现项目。先跑通冷启动数据，再尝试改进 RL 或奖励设计，是一条很实际的研究路线。

第三，“过度思考”本身就是一个很好的研究切口。围绕推理链长度、推理质量、答案正确率之间的关系，还可以继续做很多工作。

7. 总结

Vision-R1 的核心贡献在于：它把 DeepSeek-R1 的成功范式引入多模态领域，并通过 PTST 缓解了模型“想太多”的问题。

这项工作说明，多模态推理能力不一定只能靠堆参数获得。一个 7B 模型，只要有扎实的冷启动数据和合理的 RL 策略，也可以在数学推理任务上接近大模型表现。

对于想进入多模态推理方向的研究者来说，Vision-R1 是一篇值得认真阅读和复现的工作。

查看全文

http://www.zskr.cn/news/1427416.html

北京到贵阳物流公司怎么选？2026最新选型攻略与避坑指南 - 品牌优选官

Claude创新方案生成终极护城河：构建不可复制的领域知识注入管道（含医疗/金融/制造三大行业模板）

北京到安徽物流专线：如何选择最靠谱的运输方案？ - 品牌优选官

2026简历照片怎么换底？电脑+手机软件换底方法保姆级教程 - AI测评专家

2026年Turnitin应对攻略：英文文章AI率95%降至0%亲测，掌握这4个高阶修改法 - 降AI实验室

黑龙江买海能达对讲机哪里最正规？哈尔滨哪里卖性价比高的对讲机?首选黑龙江单工科技有限公司 - 黑龙江单工科技

东南大学考研辅导班强烈推荐【独峰考研】全解析 - michalwang

阴阳师自动化脚本OAS：终极解放双手的智能游戏托管方案

解决命令行claude-code运行报网络错误的问题

2026年市场口碑好的电动餐桌厂家哪家强？答案即将揭晓！

2026手机拍证件照全攻略：拍摄方法+规范要求手把手教你 - AI测评专家

Lovable平台开发者生态断层危机：2024 Q2 SDK下载量骤降41%，这5个被官方文档隐藏的CLI调试命令正在拯救项目进度

太康锅炉厂家哪家性价比高？2026高性价比锅炉厂家对比 - 品牌2026

对外经济贸易大学考研辅导班强烈推荐【独峰考研】全解析 - michalwang

卖能源审计/碳盘查服务怎么找客户？下游工厂在哪里

海洋环境下 RTK 飞控的厘米级定位原理与抗干扰设计

魔兽争霸3终极优化指南：如何用免费开源工具解决现代系统兼容性问题

【2026最新】大厂Java面试题+答案（牛客网整理），刷完拿Offer

HarmonyOS StrUtil 字符串判空三兄弟：isNull、isEmpty、isBlank 到底有啥区别？

为什么Sunshine游戏串流服务器能让你的游戏体验提升300%？终极跨平台游戏流媒体完整指南

PolicyBank：让LLM智能体从错误中进化，精准理解业务规则

claude-code命令之使用国产大模型教程

子查询入门｜标量 / 行 / 列子查询，简化复杂查询

预订劫持钓鱼风暴深度解析：350家酒店沦陷背后的数据武器化与AI攻击革命

隐私至上：本地化Cookie导出工具Get cookies.txt LOCALLY完全指南

Java 程序员第 40 阶段05：从零搭建 Java 大模型完整项目，接口层设计与API开发

HarmonyOS StrUtil 字符串处理实战：trim 去空格、replace 替换、大小写转换全攻略

安川焊接机器人保护气智能节气阀

不只是apt install：手把手教你从官方快照源为Debian 9/10/11安装特定旧版内核

GIST框架：基于语义拓扑的轻量化室内空间感知与导航实践