从“预测下一个词”到“预测下一个物理状态”：一文读懂世界模型的技术原理、产业布局与实战价值-尧图网络科技

从“预测下一个词”到“预测下一个物理状态”：一文读懂世界模型的技术原理、产业布局与实战价值

2026年6月12日，北京中关村。智源研究院院长王仲远在第八届北京智源大会上宣布了一个消息：全球首个通用世界基座模型“悟界·Physis-v0.1”正式发布。

一句话概括这个新闻的意义：人工智能正在告别“只会接话茬”的时代，开始学习“理解世界为什么这样运转”。

这既是一次范式革命——从“预测下一个词元”转向“预测下一个物理状态”，也是一场全球竞赛——谷歌、Meta、英伟达、华为、字节跳动等巨头全部入局。

但你可能更想问三个问题：

这篇文章会用最简单的方式，把这三个问题讲清楚。

先别急着往下看，先记住这句话：

大语言模型是“读过所有物理课本但没做过实验的学生”；世界模型是“亲手做过无数次实验的物理学家”。

两者的区别，可以用这张表概括：

举个例子：你问AI“把一个玻璃杯推下桌子会怎样”。

这正是世界模型被看作“通往通用人工智能必经之路”的原因。

要真正理解世界模型，你需要知道它的大脑是怎么构成的。

传统视频生成模型（比如Sora）的工作方式是：输入一张图，猜下一帧的每一个像素是什么颜色。这本质是“像素级猜谜”。

而悟界·Physis的做法完全不同：它把视频、深度图、3D点云、甚至机器人触觉反馈，全部压缩成统一格式的“物理状态Token”——你可以理解为，它把世界的“物理状态”当成了最基本的语言单位。

打个比方：如果说大语言模型是在学单词的排列组合，那世界模型就是在学牛顿定律本身。

这次智源大会上还发布了另一个世界模型——星源智的ω-EVA。它首创了一个决策闭环：预演 → 验证 → 行动。

什么意思？

普通机器人的逻辑是：“看见指令 → 立即执行。”但ω-EVA的逻辑是：在执行前，先在“脑海”里模拟一次——推演这个动作会引发什么连锁反应，确认没问题了，再真正动手。

在大会现场的华容道互动中，观众可以随机打乱棋盘，机器人会先“思考”每一步对后续路径的影响，再动手还原。这就是理解约束关系和预判后果的能力。

干货知识点：世界模型让AI从“看见即行动”（reactive）升级为“先思考再行动”（deliberative）。这不仅是技术差异，更是安全性的质变——尤其是在自动驾驶和工业机器人场景中。

理论说够了，来点实际的。世界模型已经在三个核心场景中落地。

就在智源大会后几天，上海大晓机器人公司宣布完成数亿美元融资。其核心产品开悟（Kairos）世界模型已经做到了：一个40亿参数的模型，不需要连接云端，就能让机器人自主完成开冰箱、拿麦片、倒碗里这一整套动作。

更夸张的是现场展示：一只机器狗走进便利店，对轮式机器人说“我要两瓶可乐”，后者识别货架、抓取、放入狗背上的篮子——全程没有人为遥控。

你能用上的知识点：如果你在关注机器人赛道，世界模型正在解决一个关键瓶颈——从“云端依赖”转向“端侧直驱”。这意味着机器人的反应速度从“秒级”压缩到“毫秒级”，商业化落地的可能性正在快速提高。

华为乾崑智驾ADS 4是另一个典型案例。它内部构建了“云端世界引擎 + 车端世界行为模型”的双层架构。

关键差异在于：传统端到端智驾的本质是模仿人类司机的行为数据——如果90%的司机在某个路口选择刹车，系统就学会刹车，哪怕有10%的司机能流畅通过。

而世界模型的做法是：理解这个路口为什么可以流畅通过——包括车速、视角、路面摩擦、障碍物轨迹——然后自己推演出一条更优的路线。

你能用上的知识点：如果你在关注智能驾驶投资或选车，可以关注一个指标——该品牌的智驾系统是否基于“世界模型”架构，而不只是“端到端模仿学习”。前者代表“会思考”，后者代表“会背题”。

世界模型还有一个隐藏能力：作为“数据合成引擎”。

什么意思？训练机器人需要海量的“试错数据”，但现实世界中不可能让机器人天天撞墙。世界模型可以在虚拟环境里模拟几万次失败，然后把“成功路径”提炼出来教给真实机器人。

清华大学的综述论文也指出，世界模型可以作为云端数据合成器，生成高质量的仿真数据来训练下游模型。

你能用上的知识点：如果你在做科研或工业仿真，可以关注世界模型在替代传统物理引擎方面的潜力——当数据量足够大时，数据驱动的世界模型在模拟效率上可能超越基于公式的传统仿真器。

目前行业里大致可以分为四条技术路线：

技术路线	代表玩家	核心理念
视频生成派	谷歌Genie 3、阿里HappyOyster、字节Seedance 2.0	通过生成逼真视频来模拟世界演进
空间智能派	腾讯混元3D、World Labs（李飞飞）	输出可编辑的3D资产，侧重工程落地
潜在表征派	Meta V-JEPA 2	在抽象特征空间里做推理，跳过像素
交互闭环派	智源Physis、星源智ω-EVA、大晓开悟	让世界模型参与真实决策闭环，而不仅是离线预测