李飞飞下场定调世界模型:渲染、仿真、规划
主体→行动→状态→观察→返回,这个循环赋予了现代术语“世界模型”以技术意义。
目录
01 溯源:回归交互闭环,厘清世界模型本源
02 三大功能范式:特征、现状与能力边界
渲染器:视觉优先,商业化最成熟的视觉类模型
仿真器:物理为核,全行业技术枢纽
规划器:聚焦决策,具身智能的核心大脑
03 仿真器为何是行业胜负手
04 闭环的缺失:从预测到交互的根本困境
05 不断追问现有框架的缺失环节,同等重要
近日,李飞飞发表长文《A Functional Taxonomy of World Models》,从强化学习中的部分可观测马尔可夫决策过程出发,将当前被冠以“世界模型”之名的技术划分为渲染器、模拟器与规划器三大功能范式。
这一分类提供了难得的清晰视角,但同样值得注意的是,分类本身并非终点。
因此基于这篇分享,本文除了梳理这一分类框架外,更想重点探讨文章之外的一个关键问题:
三类模型在工程实现中缺乏统一的闭环反馈机制,导致从“预测”到“真实世界交互”之间存在着结构性的断裂。
这一断裂,使得当前的世界模型大多停留在“单向输出”阶段,而无法形成真正的交互闭环,而后者恰恰是任何智能体在真实世界中持续学习与适应的核心前提。
01 溯源:回归交互闭环,厘清世界模型本源
世界模型的理念最早可追溯至1943年的心智虚拟模型理论,后被引入强化学习与机器人领域,其核心始终围绕部分可观测马尔可夫决策过程(POMDP)交互闭环展开。
▲POMDP框架
在 POMDP 框架下,完整交互闭环由智能体、动作、世界状态、观测四大核心要素构成,形成智能体感知世界、理解世界、干预世界的完整链路:
- 智能体执行动作,进而改变客观世界的完整状态;
- 智能体无法直接获取全域信息,仅能接收传感器采集的局部观测数据;
- 智能依托观测再次生成动作,循环往复。
其中,世界状态是包含物体位置、力学属性等全部客观信息,观测是机器捕捉的视觉、传感表象,动作则是智能体的外界干预行为。
▲基础世界模型(WMs)的近期时间线,涵盖不同类别中的核心方法论
大语言模型学习文本规律,而世界模型聚焦时空、几何与物理规则,二者底层逻辑完全不同。
如今各类“世界模型”,本质都是对交互闭环不同环节的建模。
基于输出目标差异,可划分为渲染器、仿真器、规划器三类,三类模型共享底层世界认知,但定位与应用天差地别。
02 三大功能范式:特征、现状与能力边界
渲染器:视觉优先,商业化最成熟的视觉类模型
渲染器是大众认知度最高的一类世界模型,核心输出为图像、视频等像素级观测内容,评价标准以视觉逼真度为主,而非物理上的精确度。
谷歌Genie 3、Nano Banana等文生视频、交互式画面生成产品均属于此类。
▲谷歌Genie 3
该类模型依托海量互联网音视频数据训练,擅长复刻光影、轮廓等视觉特征,但不显式建模三维结构与物理规则。
这就导致其典型缺陷:
画面观感出色,却经不起多角度、物理逻辑校验。
比如航拍生成的城市视频视觉完美,切换地面视角便会出现建筑穿模;流体、火焰等画面看似逼真,却违背力学定律。
其优势是训练数据充足、技术链路成熟,但物理能力的缺失形成了明显天花板,仅适用于视觉展示场景,无法落地机器人、工业仿真等对精度有要求的领域。
仿真器:物理为核,全行业技术枢纽
仿真器的公众热度最低,却是整个体系中价值最高的核心底座。
它以完整数字化世界状态为输出,严格遵循几何、刚体、流体等物理规则,视觉呈现仅为附加功能。
英伟达Omniverse、工业数字孪生平台、李飞飞团队的Marble都属于仿真器范畴。
▲李飞飞团队Marble
它是承上启下的关键枢纽:高质量渲染画面可由仿真场景生成(渲染器),智能体的动作试错、策略训练也必须依托仿真环境(规划器)。
没有高精度仿真,渲染只是虚假画面,规划也会沦为盲目决策。
目前仿真面临多重行业难题:高精度三维物理标注数据十分稀缺;仿真与现实存在难以消除的虚实鸿沟;多物理场耦合仿真算力成本居高不下。
此外,生成式仿真还存在三维模型结构错误、尺寸异常等新问题。尽管挑战重重,仿真覆盖工业、物流、自动驾驶等万亿级市场,是决定空间智能行业上限的核心技术。
规划器:聚焦决策,具身智能的核心大脑
规划器是面向未来潜力最大、现阶段成熟度最低的范式,核心输出是智能体的连续动作。
它与渲染器逻辑相反,以观测画面、任务指令为输入,直接生成执行动作,主流VLA视觉语言动作模型、机器人决策系统均归为此类。
近两年机器人演示视频层出不穷,但客观而言,规划技术仍处于实验室阶段。
现有方案大多是反应式决策,仅依靠实时观测做出判断,缺少对未来场景的预判。一旦脱离简单实验室环境,进入动态、复杂的真实场景,任务稳定性会大幅下滑。
▲Efficient VLA
03 仿真器为何是行业胜负手
结合三类模型的发展现状,仿真器仍是整个世界模型体系的核心基石,这也是行业最容易被忽视的关键点。
从技术本质来看,渲染、仿真、规划依托同一套几何、物理、动力学知识:
一个真正的世界模型(基础模型),应该是既能够渲染逼真的视图,又能生成物理上精确的结构,还能规划动作序列,并根据下游用户的需求切换输出模式。
例如一个真正理解杯子在桌面上如何放置(其几何形状、材料属性、受力响应等)的模型,应该能够从任何角度渲染杯子,模拟杯子被推动时的情况,并规划出一只手拿起杯子的动作。
渲染技术门槛低、变现快,容易吸引流量与资本;规划概念火热,但落地遥遥无期;而仿真攻坚难度大、短期收益弱,却是打通全产业链的关键。
高保真仿真环境不仅能批量产出训练数据,解决渲染、规划的数据短缺问题,还能为智能体提供零风险、低成本的虚拟训练场。
因此,短期追逐视觉效果可以理解,但长期布局空间智能、具身智能,必须将仿真技术作为核心攻坚方向。当下行业诸多瓶颈,归根结底都源于仿真能力的不足。
04 闭环的缺失:从预测到交互的根本困境
在这篇长文分享的评论区,其中一条留言,恰恰揭示了当前世界模型技术路线的核心盲区,在这里也想和大家重点分享。
▲图源长文评论区
这一问题直指当前世界模型技术路线的核心局限:三类模型分别处理的环节缺乏统一的、可更新的闭环反馈机制。
规划器执行的动作在执行后会改变环境状态,新的状态又会生成新的观测,观测再触发新的规划。这个看似完整的循环在理论上是自洽的,但在工程实现中存在着结构性的断裂。
当前多数技术方案,无论是文生视频的渲染器、工业数字孪生的模拟器,还是VLA规划器,均以“单向输出”为设计目标,缺少一个统一的、可更新的闭环反馈机制。
完整的技术逻辑应当形成 “渲染→模拟→规划→现实行动→反馈修正” 的全链路循环:
规划器生成的动作序列需要落地为现实行为,行为产生的新环境变化,会通过渲染形成新观测、通过仿真更新世界状态,最终反向修正规划策略。
理论上,闭环的三层架构如果可以各自根据与预期的偏差进行更新,就能最大程度地保持与现实世界的一致性。
▲图源长文评论区
但这里又会存在一个基础性的悖论:从定义上说,任何模型都无法完美复现世界本身。
世界模型只能是对现实世界的不完全逼近,而非等同。这意味着反馈闭环不可能完全消除偏差,而是需要在“识别偏差—更新模型—重新预测—再次执行”的循环中不断逼近现实。
如何将这一循环从理论框架落实到可工程实现的技术路径,也是当前世界模型领域最本质的挑战之一。
05 不断追问现有框架的缺失环节,同等重要
三类模型独立发展的格局正在被技术演进的内在逻辑所打破。功能融合成为主流研究方向,人为划分的技术边界正不断模糊。从理论上看,三类模型共用同一套几何、物理与动力学知识体系,这一事实决定了它们的分立状态并非终局。
当前融合路径主要分为三类:
- 一是渲染器延伸出预判能力,结合动作模型实现“视觉想象+行为决策”联动;
- 二是仿真器兼顾可视化与物理交互,如Marble同时输出渲染模型与物理碰撞网格;
- 三是规划器嵌入仿真模块,让智能先虚拟试错再执行动作。
融合是必然选择,单一模型的缺陷在复杂场景中会被持续放大。
然而,在同一套模型架构中同时平衡这三类需求,仍然是当前世界模型领域最核心的攻关课题:
- 一方面,渲染追求视觉、仿真追求物理,优化目标相互冲突;
- 另一方面,各类别数据分布不均,视频数据海量,三维与机器人交互数据严重不足,加大了统一模型的训练难度。
世界模型的技术演进仍处于早期阶段,当前的一切定义与分类都应被视为阶段性工具,而非终点。
结合行业现状判断,短期内不会出现全能统一模型,垂直领域定制融合方案会成为主流:
自动驾驶偏向仿真+规划,影视元宇宙偏向仿真+渲染,家用机器人则整合三类能力。
长远来看,随着三维数据、仿真算力、多目标训练技术的迭代,可灵活切换输出、兼顾视觉、物理与决策的统一世界模型,将成为行业终极形态。
在这个意义上,不断追问现有框架的缺失环节、持续审视现实世界中的反馈失效,与建立清晰的功能分类同等重要。
Ref
文章标题:A Functional Taxonomy of World Models
文章链接:https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models?subscribe_prompt=free
