当前位置：首页 > news >正文

英伟达全模态Cosmos 3：一个模型搞定物理智能看、想、做、演

news 2026/6/3 20:16:31

五种模态一把抓，英伟达开源全模态世界模型Cosmos 3。

物理世界需要一种新的智能，能同时看懂画面、听出声音、理解语言、预测运动、生成动作，还能把这一切串起来。

英伟达的 Cosmos 3 做到了，一个模型，五种模态，理解和生成一把抓，在多个主流榜单上拿下开源第一。

Cosmos 3 是英伟达最新发布的全模态（Omnimodal）世界模型，面向 Physical AI（物理智能），用一套统一的 Mixture-of-Transformers（MoT，混合Transformer）架构，同时处理和生成语言、图像、视频、音频与动作序列。

它把视觉语言模型、视频生成器、世界模拟器、世界-动作模型四种角色合并成一个框架.

在后训练阶段被 Artificial Analysis 评为最佳开源文生图和图生视频模型。

被 RoboArena 评为最佳策略模型。

代码、模型权重、精选合成数据集和评测基准全部开源，采用 Linux 基金会的 OpenMDW-1.1 许可。

五种模态，一套架构

此前，开发者做物理智能得拼积木。世界生成用 Cosmos Predict，受控生成用 Cosmos Transfer，场景理解用 Cosmos Reason，策略生成用 Cosmos Policy。

四个模型，四条推理管线，切换成本高，信息没法在模型间流动。

更麻烦的是，不同模型之间没有共享表征，一个模型看懂的物体位置和运动趋势，另一个模型得从头再理解一遍。

做机器人抓取任务的时候，Cosmos Reason 理解了桌上物体的位置关系，但到 Cosmos Policy 生成动作时，这个理解传不过去，等于白费功夫。

Cosmos 3 把这一切塞进了一个模型。

文本、图像、视频、音频、动作五种输入，先经过各自的编码器，视觉理解走 ViT，视觉和音频生成走 VAE，动作走领域感知向量，全部投射到一个共享表征空间。

同一个物体的位置信息、运动状态、声音特征，在这个空间里是一份统一的表示，不需要重复编码。

MoT 架构的核心思想在于：不同模态不需要完全独立的网络，它们可以共享大部分计算，只在关键的地方分叉。这让参数效率大幅提升，16B 的 Nano 模型能顶过去好几个专用模型的活。

输入序列在这个共享空间里被拆成两条子序列：自回归（AR，Autoregressive）子序列负责推理和理解，走 next-token prediction；扩散（DM，Diffusion）子序列负责生成，走迭代去噪。两条子序列在每一层 Transformer 里用各自的参数集，但通过联合注意力（Joint Attention）交互。

模型无需任何架构改动，就能在 VLM（视觉语言模型）、视频生成器、前向/逆动力学模型、机器人策略之间自由切换。

理解能帮生成，生成能反哺理解。比如机器人要执行"把花放进红色瓶子"这个任务，Cosmos 3 先在 AR 通道里推理出抓取轨迹的坐标，再在 DM 通道里根据轨迹生成对应视频。

两条线共享注意力，推理结果直接引导生成方向，生成画面又反过来验证推理合理性。"先想后做"的方式，比直接端到端生成可控得多，出错概率也小得多。

英伟达把这一能力叫做"推理+生成联动"，也是 Cosmos 3 区别于纯生成模型或纯推理模型的关键差异。

灵活的输入输出组合，让 Cosmos 3 覆盖了物理智能最核心的应用场景：

五种输入、五种输出，排列组合下来远不止上面这些，但最关键的几个物理智能任务已经全部覆盖。

你想要一个既能看路况又能规划行驶轨迹的自动驾驶系统，或者一个能看懂桌面场景并生成机械臂抓取动作的机器人控制器，Cosmos 3 都能在同一个前向传播里完成。

这就省去了多模型串联的工程开销，也让信息在理解和生成之间无损耗传递。

理解和生成双线开挂

Cosmos 3 在理解和生成两个维度上都交出了亮眼成绩单。

推理侧在机器人、智能空间、驾驶三大基准测试平均分上排名开源第一，生成侧在文生图、图生视频和机器人策略上排名开源第一。

理解侧，它能在自动驾驶场景中识别关键物体并推理下一步动作。

它做的远不止识别画面里有什么物体，还会把物体的状态、相互关系、潜在风险综合起来做推理：交通灯在前方，车辆在减速，自己当前速度偏快，需要减速。

链式推理（Chain-of-Thought）在自动驾驶决策里至关重要，光识别不够，还得判断"接下来怎么办"。

在机器人操作场景中，它基于视觉输入推理出末端执行器的2D轨迹坐标，一步步拆解完整动作链。它还能做时序动作定位，从一段机器人操作视频中，精确标注每个动作段的起止时间。

精细到这个程度，对机器人行为分析和任务评估来说非常实用。

生成侧，它能根据文字描述生成极具物理细节的场景。

这些图像不只是"好看"，它们保留了物体的空间布局、材质质感和物理线索，为下游视频生成和策略规划提供可靠输入。

Cosmos 3 生成的图片可以当作工作输入，相当于"工程图"。

Cosmos 3 能从文字或图像出发生成带有物理意识的视频片段。

推理指导生成，生成验证推理，形成闭环。

这也是为什么 Cosmos 3 不仅仅是把几个模型拼在一起，它的理解和生成在架构层面就是耦合的，跟拼装多模型完全不同。

两个尺寸，全开源

Cosmos 3 提供两个规格，适应不同算力和场景需求。

Cosmos 3 Nano，16B参数（8B推理器 + 8B生成器），为高效推理优化，一张 RTX PRO 6000 GPU 就能跑。

适合部署端侧推理和实时交互场景，比如工厂里的分拣机器人需要实时感知和决策，Nano 的推理速度能跟上产线节拍。

Cosmos 3 Super，64B参数（32B推理器 + 32B生成器），面向大规模合成数据生成和科研，在 NVIDIA Hopper 和 Blackwell GPU 上运行。

做大规模数据工厂、批量生成训练素材、跑前沿研究实验，Super 是更合适的选择。

英伟达此次开源力度相当大。

代码、模型权重、精选合成数据集和评测基准全部放出，许可证是 Linux 基金会的 OpenMDW-1.1，商用友好。

配套发布的还有6个合成数据集，覆盖物理智能的主要应用领域：

这些数据集由英伟达各团队生成，在 Hugging Face 上可以直接下载。

对于物理智能研究者来说，高质量合成数据一直是稀缺资源，这批数据集的开放降低了训练和评测世界模型的门槛。

特别是 Physical-Interaction-Scenes 基于 Isaac Sim 物理引擎生成，数据本身的物理一致性有保障，比从互联网抓取的杂乱视频数据质量高得多。

Embodied-Robot-Scenes 覆盖了多种机器人在不同场景下的操作数据，Autonomous-Driving-Scenarios 包含了各类驾驶仿真场景，Warehouse-Operations-Scenes 则聚焦仓库安全场景，这类数据在现实世界里采集成本高、风险大，合成数据恰好填补了这个空缺。

仓库还附带了后训练脚本，方便开发者用自己的数据集微调 Cosmos 3，适配不同的机器人、环境和任务。

英伟达官方鼓励对 Cosmos 3 进行后训练，让它在特定场景下发挥更大价值。

Agent Skills 工具包也一并提供，帮助快速搭建环境、验证依赖、了解代码结构、生成高质量提示词和运行推理脚本。

这一整套工具链，从推理到训练到部署，覆盖了物理智能开发的全流程。

从 Cosmos Predict、Transfer、Reason、Policy 四兄弟，到 Cosmos 3 一个模型统一天下，英伟达在物理智能这条路上走了一条清晰的路线：先拆开做深，再合起来做强。

MoT 架构让理解和生成共享计算，联合注意力让推理和生成交互，开源策略把能力交到社区手里。

参考资料：

https://research.nvidia.com/labs/cosmos-lab/cosmos3/

https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf

https://github.com/nvidia/Cosmos

https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai

查看全文