英伟达全模态Cosmos 3:一个模型搞定物理智能看、想、做、演
五种模态一把抓,英伟达开源全模态世界模型Cosmos 3。
物理世界需要一种新的智能,能同时看懂画面、听出声音、理解语言、预测运动、生成动作,还能把这一切串起来。
英伟达的 Cosmos 3 做到了,一个模型,五种模态,理解和生成一把抓,在多个主流榜单上拿下开源第一。
Cosmos 3 是英伟达最新发布的全模态(Omnimodal)世界模型,面向 Physical AI(物理智能),用一套统一的 Mixture-of-Transformers(MoT,混合Transformer)架构,同时处理和生成语言、图像、视频、音频与动作序列。
它把视觉语言模型、视频生成器、世界模拟器、世界-动作模型四种角色合并成一个框架.
在后训练阶段被 Artificial Analysis 评为最佳开源文生图和图生视频模型。
被 RoboArena 评为最佳策略模型。
代码、模型权重、精选合成数据集和评测基准全部开源,采用 Linux 基金会的 OpenMDW-1.1 许可。
五种模态,一套架构
此前,开发者做物理智能得拼积木。世界生成用 Cosmos Predict,受控生成用 Cosmos Transfer,场景理解用 Cosmos Reason,策略生成用 Cosmos Policy。
四个模型,四条推理管线,切换成本高,信息没法在模型间流动。
更麻烦的是,不同模型之间没有共享表征,一个模型看懂的物体位置和运动趋势,另一个模型得从头再理解一遍。
做机器人抓取任务的时候,Cosmos Reason 理解了桌上物体的位置关系,但到 Cosmos Policy 生成动作时,这个理解传不过去,等于白费功夫。
Cosmos 3 把这一切塞进了一个模型。
文本、图像、视频、音频、动作五种输入,先经过各自的编码器,视觉理解走 ViT,视觉和音频生成走 VAE,动作走领域感知向量,全部投射到一个共享表征空间。
同一个物体的位置信息、运动状态、声音特征,在这个空间里是一份统一的表示,不需要重复编码。
MoT 架构的核心思想在于:不同模态不需要完全独立的网络,它们可以共享大部分计算,只在关键的地方分叉。这让参数效率大幅提升,16B 的 Nano 模型能顶过去好几个专用模型的活。
输入序列在这个共享空间里被拆成两条子序列:自回归(AR,Autoregressive)子序列负责推理和理解,走 next-token prediction;扩散(DM,Diffusion)子序列负责生成,走迭代去噪。两条子序列在每一层 Transformer 里用各自的参数集,但通过联合注意力(Joint Attention)交互。
模型无需任何架构改动,就能在 VLM(视觉语言模型)、视频生成器、前向/逆动力学模型、机器人策略之间自由切换。
理解能帮生成,生成能反哺理解。比如机器人要执行"把花放进红色瓶子"这个任务,Cosmos 3 先在 AR 通道里推理出抓取轨迹的坐标,再在 DM 通道里根据轨迹生成对应视频。
两条线共享注意力,推理结果直接引导生成方向,生成画面又反过来验证推理合理性。"先想后做"的方式,比直接端到端生成可控得多,出错概率也小得多。
英伟达把这一能力叫做"推理+生成联动",也是 Cosmos 3 区别于纯生成模型或纯推理模型的关键差异。
灵活的输入输出组合,让 Cosmos 3 覆盖了物理智能最核心的应用场景:
五种输入、五种输出,排列组合下来远不止上面这些,但最关键的几个物理智能任务已经全部覆盖。
你想要一个既能看路况又能规划行驶轨迹的自动驾驶系统,或者一个能看懂桌面场景并生成机械臂抓取动作的机器人控制器,Cosmos 3 都能在同一个前向传播里完成。
这就省去了多模型串联的工程开销,也让信息在理解和生成之间无损耗传递。
理解和生成双线开挂
Cosmos 3 在理解和生成两个维度上都交出了亮眼成绩单。
推理侧在机器人、智能空间、驾驶三大基准测试平均分上排名开源第一,生成侧在文生图、图生视频和机器人策略上排名开源第一。
理解侧,它能在自动驾驶场景中识别关键物体并推理下一步动作。
它做的远不止识别画面里有什么物体,还会把物体的状态、相互关系、潜在风险综合起来做推理:交通灯在前方,车辆在减速,自己当前速度偏快,需要减速。
链式推理(Chain-of-Thought)在自动驾驶决策里至关重要,光识别不够,还得判断"接下来怎么办"。
在机器人操作场景中,它基于视觉输入推理出末端执行器的2D轨迹坐标,一步步拆解完整动作链。它还能做时序动作定位,从一段机器人操作视频中,精确标注每个动作段的起止时间。
精细到这个程度,对机器人行为分析和任务评估来说非常实用。
生成侧,它能根据文字描述生成极具物理细节的场景。
这些图像不只是"好看",它们保留了物体的空间布局、材质质感和物理线索,为下游视频生成和策略规划提供可靠输入。
Cosmos 3 生成的图片可以当作工作输入,相当于"工程图"。
Cosmos 3 能从文字或图像出发生成带有物理意识的视频片段。
推理指导生成,生成验证推理,形成闭环。
这也是为什么 Cosmos 3 不仅仅是把几个模型拼在一起,它的理解和生成在架构层面就是耦合的,跟拼装多模型完全不同。
两个尺寸,全开源
Cosmos 3 提供两个规格,适应不同算力和场景需求。
Cosmos 3 Nano,16B参数(8B推理器 + 8B生成器),为高效推理优化,一张 RTX PRO 6000 GPU 就能跑。
适合部署端侧推理和实时交互场景,比如工厂里的分拣机器人需要实时感知和决策,Nano 的推理速度能跟上产线节拍。
Cosmos 3 Super,64B参数(32B推理器 + 32B生成器),面向大规模合成数据生成和科研,在 NVIDIA Hopper 和 Blackwell GPU 上运行。
做大规模数据工厂、批量生成训练素材、跑前沿研究实验,Super 是更合适的选择。
英伟达此次开源力度相当大。
代码、模型权重、精选合成数据集和评测基准全部放出,许可证是 Linux 基金会的 OpenMDW-1.1,商用友好。
配套发布的还有6个合成数据集,覆盖物理智能的主要应用领域:
这些数据集由英伟达各团队生成,在 Hugging Face 上可以直接下载。
对于物理智能研究者来说,高质量合成数据一直是稀缺资源,这批数据集的开放降低了训练和评测世界模型的门槛。
特别是 Physical-Interaction-Scenes 基于 Isaac Sim 物理引擎生成,数据本身的物理一致性有保障,比从互联网抓取的杂乱视频数据质量高得多。
Embodied-Robot-Scenes 覆盖了多种机器人在不同场景下的操作数据,Autonomous-Driving-Scenarios 包含了各类驾驶仿真场景,Warehouse-Operations-Scenes 则聚焦仓库安全场景,这类数据在现实世界里采集成本高、风险大,合成数据恰好填补了这个空缺。
仓库还附带了后训练脚本,方便开发者用自己的数据集微调 Cosmos 3,适配不同的机器人、环境和任务。
英伟达官方鼓励对 Cosmos 3 进行后训练,让它在特定场景下发挥更大价值。
Agent Skills 工具包也一并提供,帮助快速搭建环境、验证依赖、了解代码结构、生成高质量提示词和运行推理脚本。
这一整套工具链,从推理到训练到部署,覆盖了物理智能开发的全流程。
从 Cosmos Predict、Transfer、Reason、Policy 四兄弟,到 Cosmos 3 一个模型统一天下,英伟达在物理智能这条路上走了一条清晰的路线:先拆开做深,再合起来做强。
MoT 架构让理解和生成共享计算,联合注意力让推理和生成交互,开源策略把能力交到社区手里。
参考资料:
https://research.nvidia.com/labs/cosmos-lab/cosmos3/
https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf
https://github.com/nvidia/Cosmos
https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai
