阿里巴巴发布千问具身智能大模型 Qwen - Robot 系列,三大模型各展优势助力物理智能应用
Qwen - RobotNav:物理智能体的行动入口
通过可控观测编码和工具接口,把视觉语言能力接入移动控制,统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。其核心思路是将视觉分配策略本身参数化,模型在 1,560 万条样本上训练,一套权重统一五类导航任务。具有统一多域导航、可控观测协议、智能体导航系统、开放环境泛化等优势。
Qwen - RobotManip:物理智能体的交互基石
通过规范状态 - 动作空间和相机坐标系下的末端执行器增量位姿,把视觉语言能力接入操作控制,基于 >38,100 小时开源语料库实现大规模多机型训练。以 Qwen3.5 - 4B VL 为骨干、结合流匹配 DiT 动作头解决问题。具有统一跨本体对齐框架、大规模人 - 机迁移数据合成、分布外泛化、真实环境表现等优势。
Qwen - RobotWorld:物理智能体的无限世界
通过自然语言动作接口,把视觉语言能力接入世界动态预测,能跨操作、驾驶和导航场景预测符合物理规律的未来。通过直接学习世界的状态转移函数解决问题,关键设计是将动作以自然语言表达。具有语言驱动的统一动作接口、双流 MMDiT + Qwen2.5 - VL 动作编码器、榜单排名靠前、核心能力突出等优势。
三个模型各自独立可用,通用 Qwen 模型可将它们组合连接通用智能与物理行动。此外,阿里还有内部项目 Qwen - RobotClaw 推动物理智能应用。
