当前位置: 首页 > news >正文

英伟达全模态Cosmos 3:一个模型搞定物理智能看、想、做、演

五种模态一把抓,英伟达开源全模态世界模型Cosmos 3。

物理世界需要一种新的智能,能同时看懂画面、听出声音、理解语言、预测运动、生成动作,还能把这一切串起来。

英伟达的 Cosmos 3 做到了,一个模型,五种模态,理解和生成一把抓,在多个主流榜单上拿下开源第一。

Cosmos 3 是英伟达最新发布的全模态(Omnimodal)世界模型,面向 Physical AI(物理智能),用一套统一的 Mixture-of-Transformers(MoT,混合Transformer)架构,同时处理和生成语言、图像、视频、音频与动作序列。

它把视觉语言模型、视频生成器、世界模拟器、世界-动作模型四种角色合并成一个框架.

在后训练阶段被 Artificial Analysis 评为最佳开源文生图和图生视频模型。

被 RoboArena 评为最佳策略模型。

代码、模型权重、精选合成数据集和评测基准全部开源,采用 Linux 基金会的 OpenMDW-1.1 许可。

五种模态,一套架构

此前,开发者做物理智能得拼积木。世界生成用 Cosmos Predict,受控生成用 Cosmos Transfer,场景理解用 Cosmos Reason,策略生成用 Cosmos Policy。

四个模型,四条推理管线,切换成本高,信息没法在模型间流动。

更麻烦的是,不同模型之间没有共享表征,一个模型看懂的物体位置和运动趋势,另一个模型得从头再理解一遍。

做机器人抓取任务的时候,Cosmos Reason 理解了桌上物体的位置关系,但到 Cosmos Policy 生成动作时,这个理解传不过去,等于白费功夫。

Cosmos 3 把这一切塞进了一个模型。

文本、图像、视频、音频、动作五种输入,先经过各自的编码器,视觉理解走 ViT,视觉和音频生成走 VAE,动作走领域感知向量,全部投射到一个共享表征空间。

同一个物体的位置信息、运动状态、声音特征,在这个空间里是一份统一的表示,不需要重复编码。

MoT 架构的核心思想在于:不同模态不需要完全独立的网络,它们可以共享大部分计算,只在关键的地方分叉。这让参数效率大幅提升,16B 的 Nano 模型能顶过去好几个专用模型的活。

输入序列在这个共享空间里被拆成两条子序列:自回归(AR,Autoregressive)子序列负责推理和理解,走 next-token prediction;扩散(DM,Diffusion)子序列负责生成,走迭代去噪。两条子序列在每一层 Transformer 里用各自的参数集,但通过联合注意力(Joint Attention)交互。

模型无需任何架构改动,就能在 VLM(视觉语言模型)、视频生成器、前向/逆动力学模型、机器人策略之间自由切换。

理解能帮生成,生成能反哺理解。比如机器人要执行"把花放进红色瓶子"这个任务,Cosmos 3 先在 AR 通道里推理出抓取轨迹的坐标,再在 DM 通道里根据轨迹生成对应视频。

两条线共享注意力,推理结果直接引导生成方向,生成画面又反过来验证推理合理性。"先想后做"的方式,比直接端到端生成可控得多,出错概率也小得多。

英伟达把这一能力叫做"推理+生成联动",也是 Cosmos 3 区别于纯生成模型或纯推理模型的关键差异。

灵活的输入输出组合,让 Cosmos 3 覆盖了物理智能最核心的应用场景:

五种输入、五种输出,排列组合下来远不止上面这些,但最关键的几个物理智能任务已经全部覆盖。

你想要一个既能看路况又能规划行驶轨迹的自动驾驶系统,或者一个能看懂桌面场景并生成机械臂抓取动作的机器人控制器,Cosmos 3 都能在同一个前向传播里完成。

这就省去了多模型串联的工程开销,也让信息在理解和生成之间无损耗传递。

理解和生成双线开挂

Cosmos 3 在理解和生成两个维度上都交出了亮眼成绩单。

推理侧在机器人、智能空间、驾驶三大基准测试平均分上排名开源第一,生成侧在文生图、图生视频和机器人策略上排名开源第一。

理解侧,它能在自动驾驶场景中识别关键物体并推理下一步动作。

它做的远不止识别画面里有什么物体,还会把物体的状态、相互关系、潜在风险综合起来做推理:交通灯在前方,车辆在减速,自己当前速度偏快,需要减速。

链式推理(Chain-of-Thought)在自动驾驶决策里至关重要,光识别不够,还得判断"接下来怎么办"。

在机器人操作场景中,它基于视觉输入推理出末端执行器的2D轨迹坐标,一步步拆解完整动作链。它还能做时序动作定位,从一段机器人操作视频中,精确标注每个动作段的起止时间。

精细到这个程度,对机器人行为分析和任务评估来说非常实用。

生成侧,它能根据文字描述生成极具物理细节的场景。

这些图像不只是"好看",它们保留了物体的空间布局、材质质感和物理线索,为下游视频生成和策略规划提供可靠输入。

Cosmos 3 生成的图片可以当作工作输入,相当于"工程图"。

Cosmos 3 能从文字或图像出发生成带有物理意识的视频片段。

推理指导生成,生成验证推理,形成闭环。

这也是为什么 Cosmos 3 不仅仅是把几个模型拼在一起,它的理解和生成在架构层面就是耦合的,跟拼装多模型完全不同。

两个尺寸,全开源

Cosmos 3 提供两个规格,适应不同算力和场景需求。

Cosmos 3 Nano,16B参数(8B推理器 + 8B生成器),为高效推理优化,一张 RTX PRO 6000 GPU 就能跑。

适合部署端侧推理和实时交互场景,比如工厂里的分拣机器人需要实时感知和决策,Nano 的推理速度能跟上产线节拍。

Cosmos 3 Super,64B参数(32B推理器 + 32B生成器),面向大规模合成数据生成和科研,在 NVIDIA Hopper 和 Blackwell GPU 上运行。

做大规模数据工厂、批量生成训练素材、跑前沿研究实验,Super 是更合适的选择。

英伟达此次开源力度相当大。

代码、模型权重、精选合成数据集和评测基准全部放出,许可证是 Linux 基金会的 OpenMDW-1.1,商用友好。

配套发布的还有6个合成数据集,覆盖物理智能的主要应用领域:

这些数据集由英伟达各团队生成,在 Hugging Face 上可以直接下载。

对于物理智能研究者来说,高质量合成数据一直是稀缺资源,这批数据集的开放降低了训练和评测世界模型的门槛。

特别是 Physical-Interaction-Scenes 基于 Isaac Sim 物理引擎生成,数据本身的物理一致性有保障,比从互联网抓取的杂乱视频数据质量高得多。

Embodied-Robot-Scenes 覆盖了多种机器人在不同场景下的操作数据,Autonomous-Driving-Scenarios 包含了各类驾驶仿真场景,Warehouse-Operations-Scenes 则聚焦仓库安全场景,这类数据在现实世界里采集成本高、风险大,合成数据恰好填补了这个空缺。

仓库还附带了后训练脚本,方便开发者用自己的数据集微调 Cosmos 3,适配不同的机器人、环境和任务。

英伟达官方鼓励对 Cosmos 3 进行后训练,让它在特定场景下发挥更大价值。

Agent Skills 工具包也一并提供,帮助快速搭建环境、验证依赖、了解代码结构、生成高质量提示词和运行推理脚本。

这一整套工具链,从推理到训练到部署,覆盖了物理智能开发的全流程。

从 Cosmos Predict、Transfer、Reason、Policy 四兄弟,到 Cosmos 3 一个模型统一天下,英伟达在物理智能这条路上走了一条清晰的路线:先拆开做深,再合起来做强。

MoT 架构让理解和生成共享计算,联合注意力让推理和生成交互,开源策略把能力交到社区手里。

参考资料:

https://research.nvidia.com/labs/cosmos-lab/cosmos3/

https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf

https://github.com/nvidia/Cosmos

https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai

http://www.zskr.cn/news/1455713.html

相关文章:

  • 2026年潮汕凤凰单丛茶与鸭屎香品牌哪家好?深度对比告诉你答案 - 智鸥科技
  • VSC-HVDC系统鲁棒控制与优化控制策略【附仿真】
  • “AI说人话,但不说真话”——揭秘3类高危幻觉话术及5种实时拦截策略(已落地保险电销场景)
  • 3分钟打造你的AI游戏瞄准助手:零基础完整指南
  • 如何优雅地打造个人网易云音乐库?这款开源工具让你轻松拥有无损音乐收藏
  • 微博自动发布工具,超话自动发布软件,自动签到autojs插件
  • ChanlunX缠论插件:3分钟掌握专业缠论分析的终极指南
  • 解放双手:智能QQ自动化签到工具XAutoDaily全面解析
  • 微信排版实用指南|新手免费掌握,公众号编辑器怎么提取公众号文章中的视频 - 鹅鹅鹅ee
  • 揭秘低查重AI教材写作:7款AI工具实测,快速生成专业教材!
  • 20260603
  • 2026 广州衣服批发靠谱 APP 货源渠道权威排行榜|基于千名店主实地回访实测科普 - GrowthUME
  • 现代色彩空间技术深度解析:从传统标准到新一代解决方案
  • 数字化——解读数字政府建设实施方案【附全文阅读】
  • AI英语阅读助手APP的开发
  • win11家庭版用wsl安装Ubuntu
  • 闲鱼自动发布工具,python基础框架软件,自动擦亮批量发布
  • NX/UG二次开发:NX的方式替换面
  • 铁死亡研究要检测哪些指标?
  • 告别平台限制:WorkshopDL让非Steam玩家也能畅玩创意工坊模组
  • 别再只用默认配色了!Seaborn热力图调色板保姆级指南(附代码对比图)
  • PaddleOCR-VL-1.6核心技术解密:区域优化与渐进式训练原理剖析
  • [Java学习日记10】聊聊checked exception和runtime exception
  • 无水印视频下载神器哪个好? 无水印视频下载工具软件推荐,无水印视频下载神器盘点 - 工具软件使用方法推荐
  • css手写奥运五环
  • 基于Seeeduino XIAO与Grove模块的环境监测系统开发实践
  • Joy-Con Toolkit高级配置与性能优化技术方案
  • 2026年嘉德实创冷库服务商推荐榜单:医药GSP冷库、食品速冻冷库、冷链物流系统与温湿度监测工程实力品牌解析 - 品牌企业推荐师(官方)
  • 26NOI内训day6 西安高新一中
  • 基于IMU传感器与Python的单摆周期精确测量:从硬件搭建到STFT分析