从“预测下一个词”到“预测下一个物理状态”:一文读懂世界模型的技术原理、产业布局与实战价值

从“预测下一个词”到“预测下一个物理状态”:一文读懂世界模型的技术原理、产业布局与实战价值

从“预测下一个词”到“预测下一个物理状态”:一文读懂世界模型的技术原理、产业布局与实战价值

2026年6月12日,北京中关村。智源研究院院长王仲远在第八届北京智源大会上宣布了一个消息:全球首个通用世界基座模型“悟界·Physis-v0.1”正式发布

一句话概括这个新闻的意义:人工智能正在告别“只会接话茬”的时代,开始学习“理解世界为什么这样运转”

这既是一次范式革命——从“预测下一个词元”转向“预测下一个物理状态”,也是一场全球竞赛——谷歌、Meta、英伟达、华为、字节跳动等巨头全部入局。

但你可能更想问三个问题:

  1. 世界模型到底是什么?跟我之前用的ChatGPT、Sora有什么区别?
  2. 它凭什么被称为“AI的下一个巨大飞跃”?
  3. 这跟我有什么关系?有什么我能直接拿去用的知识点?

这篇文章会用最简单的方式,把这三个问题讲清楚。


一、一张表看懂:大语言模型 vs 世界模型的本质区别

先别急着往下看,先记住这句话:

大语言模型是“读过所有物理课本但没做过实验的学生”;世界模型是“亲手做过无数次实验的物理学家”。

两者的区别,可以用这张表概括:

维度大语言模型(如ChatGPT)世界模型
核心任务预测下一个词(Token)预测下一个物理状态(State)
理解对象文本的统计规律真实世界的物理规律
输入形式文本、图片视频、深度图、3D点云、力触反馈等多模态信息
能“想象”什么下一句对话下一秒世界会变成什么样
典型能力写文章、编程、聊天让机器人在动手前先“预演”后果

举个例子:你问AI“把一个玻璃杯推下桌子会怎样”。

  • 大语言模型:因为它见过无数篇文本里写着“杯子掉下来会碎”,所以它告诉你“会碎”。但它不懂重力、不懂加速度、不懂碰撞
  • 世界模型:它会“想象”杯子的运动轨迹、撞击地面的速度、玻璃的受力——然后告诉你“会碎”。它是理解了物理规律,而不是背下了答案

这正是世界模型被看作“通往通用人工智能必经之路”的原因。


二、技术拆解:世界模型到底是怎么“思考”的?

要真正理解世界模型,你需要知道它的大脑是怎么构成的

2.1 物理状态编码:告别“像素级猜谜”

传统视频生成模型(比如Sora)的工作方式是:输入一张图,猜下一帧的每一个像素是什么颜色。这本质是“像素级猜谜”。

而悟界·Physis的做法完全不同:它把视频、深度图、3D点云、甚至机器人触觉反馈,全部压缩成统一格式的“物理状态Token”——你可以理解为,它把世界的“物理状态”当成了最基本的语言单位。

打个比方:如果说大语言模型是在学单词的排列组合,那世界模型就是在学牛顿定律本身

2.2 “预演-验证-行动”闭环:让机器人不再是“莽夫”

这次智源大会上还发布了另一个世界模型——星源智的ω-EVA。它首创了一个决策闭环:预演 → 验证 → 行动

什么意思?

普通机器人的逻辑是:“看见指令 → 立即执行。”但ω-EVA的逻辑是:在执行前,先在“脑海”里模拟一次——推演这个动作会引发什么连锁反应,确认没问题了,再真正动手。

在大会现场的华容道互动中,观众可以随机打乱棋盘,机器人会先“思考”每一步对后续路径的影响,再动手还原。这就是理解约束关系预判后果的能力。

干货知识点:世界模型让AI从“看见即行动”(reactive)升级为“先思考再行动”(deliberative)。这不仅是技术差异,更是安全性的质变——尤其是在自动驾驶和工业机器人场景中。


三、实战场景:世界模型已经在三个领域“干活”了

理论说够了,来点实际的。世界模型已经在三个核心场景中落地。

场景一:具身机器人——让机器人“想到即做到”

就在智源大会后几天,上海大晓机器人公司宣布完成数亿美元融资。其核心产品开悟(Kairos)世界模型已经做到了:一个40亿参数的模型,不需要连接云端,就能让机器人自主完成开冰箱、拿麦片、倒碗里这一整套动作

更夸张的是现场展示:一只机器狗走进便利店,对轮式机器人说“我要两瓶可乐”,后者识别货架、抓取、放入狗背上的篮子——全程没有人为遥控

你能用上的知识点:如果你在关注机器人赛道,世界模型正在解决一个关键瓶颈——从“云端依赖”转向“端侧直驱”。这意味着机器人的反应速度从“秒级”压缩到“毫秒级”,商业化落地的可能性正在快速提高。

场景二:自动驾驶——从“模仿人类”到“理解物理”

华为乾崑智驾ADS 4是另一个典型案例。它内部构建了“云端世界引擎 + 车端世界行为模型”的双层架构。

关键差异在于:传统端到端智驾的本质是模仿人类司机的行为数据——如果90%的司机在某个路口选择刹车,系统就学会刹车,哪怕有10%的司机能流畅通过。

而世界模型的做法是:理解这个路口为什么可以流畅通过——包括车速、视角、路面摩擦、障碍物轨迹——然后自己推演出一条更优的路线。

你能用上的知识点:如果你在关注智能驾驶投资或选车,可以关注一个指标——该品牌的智驾系统是否基于“世界模型”架构,而不只是“端到端模仿学习”。前者代表“会思考”,后者代表“会背题”。

场景三:物理仿真与科研——在虚拟世界里做“超前实验”

世界模型还有一个隐藏能力:作为“数据合成引擎”

什么意思?训练机器人需要海量的“试错数据”,但现实世界中不可能让机器人天天撞墙。世界模型可以在虚拟环境里模拟几万次失败,然后把“成功路径”提炼出来教给真实机器人。

清华大学的综述论文也指出,世界模型可以作为云端数据合成器,生成高质量的仿真数据来训练下游模型。

你能用上的知识点:如果你在做科研或工业仿真,可以关注世界模型在替代传统物理引擎方面的潜力——当数据量足够大时,数据驱动的世界模型在模拟效率上可能超越基于公式的传统仿真器。


四、赛道格局:谁在做、怎么做、谁领先?

目前行业里大致可以分为四条技术路线

技术路线代表玩家核心理念
视频生成派谷歌Genie 3、阿里HappyOyster、字节Seedance 2.0通过生成逼真视频来模拟世界演进
空间智能派腾讯混元3D、World Labs(李飞飞)输出可编辑的3D资产,侧重工程落地
潜在表征派Meta V-JEPA 2在抽象特征空间里做推理,跳过像素
交互闭环派智源Physis、星源智ω-EVA、大晓开悟让世界模型参与真实决策闭环,而不仅是离线预测

智源研究院院长王仲远在大会上明确说了一句话:“在世界模型这个赛道上,中国不再只是跟随者。我们已经有了独立原创的技术路径,开始去定义问题、定义技术路线本身。

这不是一句口号。悟界·Physis由22岁的北京大学本科生陈博远担任技术负责人,智源计划在训练完成后将模型开源开放