当前位置：首页 > news >正文

李飞飞世界模型的功能分类法：当渲染、模拟与规划走向融合

news 2026/6/5 2:49:48

李飞飞团队提出世界模型三分法，为空间智能奠定概念基石

世界模型空间智能具身智能计算机视觉

图1. 世界模型的功能分类法：渲染器、模拟器与规划器，三者共同构成智能体与物理世界交互的完整闭环（图片来源：A16Z News / Dr. Fei-Fei Li）

核心观点

李飞飞教授与 World Labs 团队在最新发表的文章中，针对当前"世界模型"概念的泛化与混用现象，提出了一个基于功能视角的系统分类框架。该框架以强化学习中的经典 POMDP 闭环为理论根基，将世界模型划分为渲染器（Renderer）、模拟器（Simulator）与规划器（Planner）三大功能类别。文章指出，模拟器是连接渲染与规划的关键枢纽，而三者的融合正推动着统一世界基础模型的诞生，为空间智能的长远发展指明了方向。

一、引言：当"世界模型"成为最热门也最混乱的概念

2025年以来，“世界模型"大概是人工智能领域最为炙手可热，同时也最为混乱的概念之一。当 OpenAI 发布 Sora 时，将其称为"世界模拟器”；Google 的 Genie 系列允许用户在生成的三维场景中自由行走探索，同样冠以世界模型之名；机器人公司宣称正在构建世界模型以指导机械臂操作；NVIDIA 则将 Omniverse 定位为世界模型的基础设施平台；甚至连传统的游戏引擎也被纳入了这一叙事框架。一时间，似乎所有与三维环境、物理交互或视频生成相关的技术，都在共享同一个名称。

然而，这种命名的泛化带来了严重的概念混淆。一个能够生成视觉上华丽但物理上不可能的火焰效果的视频模型，一个能够即兴生成可玩游戏关卡的语言模型，以及一个忠实模拟燃烧过程中流体动力学与热传导方程的物理引擎——它们在技术路径、评价标准与应用场景上存在本质差异，却被统称为"世界模型"。这种局面让人联想到古希腊哲学家对世界本原的争论：有人认为是火，有人认为是水，有人认为是不可分割的原子。"世界"从来就不是单一的东西，它始终是思想家为了推理某种总体性而使用的替代词。人工智能领域继承了同样的问题，而且恰好发生在该技术最需要精确性定义的时刻。

正是在这一背景下，斯坦福大学计算机科学教授、World Labs 创始人李飞飞（Fei-Fei Li）与其团队于 2026 年 6 月在个人 Substack 发表了题为《A Functional Taxonomy of World Models》的长文，试图为这一混乱的概念场域建立一套清晰的分析框架。文章的核心贡献在于：它并非简单地罗列现有技术，而是回到强化学习理论中最经典的智能体-环境交互闭环，从中提炼出世界模型应当具备的三大功能维度，并据此对当前技术生态进行系统梳理。这一分类法不仅有助于研究者定位自身工作的理论坐标，也为产业界理解不同技术路线的适用边界提供了有价值的参考。

图2. 李飞飞教授，World Labs 创始人，长期致力于计算机视觉与空间智能研究（图片来源：Substack / Dr. Fei-Fei Li）

二、分类法的理论根基：POMDP 闭环与 Craik 的心智模型

要理解李飞飞团队提出的分类框架，首先需要回到一张比当前所有深度学习技术都更为古老的图示。在所有经典的强化学习教材中——包括 Richard Sutton 与 Andrew Barto 的奠基性著作——都使用同一幅图的变体来描述智能体如何与世界交互。这幅图的正式名称是部分可观测马尔可夫决策过程（Partially Observable Markov Decision Process, POMDP），而"世界模型"这一术语最初的严格定义便属于这一理论传统。

POMDP 闭环的结构可以概括为五个核心要素的循环：智能体（Agent）执行动作（Action），动作改变世界的状态（State），但智能体永远无法直接观测到状态本身，它所接收到的只是观测（Observation）——落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测引导智能体做出新的动作，循环往复，形成完整的感知-行动回路。值得注意的是，这里的"状态"具有特定的技术含义：它指的是物理学家与机器人学家所理解的状态，即对世界在某一时刻所发生的一切的完整描述，包括每一个物体的位置、速度、材质属性与几何关系。状态是世界的底层现实，原则上是完备的，但对于身处其中的任何智能体而言，永远不可直接观测。观测是智能体对这一现实的局部视角，动作则是智能体据此做出的回应。

图3. 强化学习中的经典智能体-环境交互闭环：观测、动作、状态与奖励构成 POMDP 的核心要素（图片来源：MathWorks）

"世界模型"这一短语本身具有更为悠久的学术渊源。文章指出，它可以追溯到 Kenneth Craik 在 1943 年的经典提议。在其著作《The Nature of Explanation》中，Craik 认为心智通过运行现实的"小比例模型"来进行推理、预测与规划。这一思想深刻影响了后来的认知科学与人工智能研究。到了 1980 年代末和 1990 年代初，随着神经网络研究的复兴，这一概念被正式引入机器学习领域，成为强化学习与机器人学中的核心术语。李飞飞团队强调，当前被称为"世界模型"的各种技术，实际上都是同一个 POMDP 闭环的不同投影，每一种输出的是闭环中不同的组成部分。这一洞察为后续的功能分类奠定了坚实的理论基础。

三、世界模型的三种功能：渲染、模拟与规划

基于 POMDP 闭环的分析，文章将当前实际在落地的大部分"世界模型"技术划分为三个功能类别：渲染器（Renderer）、模拟器（Simulator）与规划器（Planner）。三者的区分标准非常简洁——看其输出的是闭环中的哪个部分。这一分类法不仅具有理论上的优雅性，也在实践中具备高度的可操作性。

图4. 世界模型的三种功能投影：渲染器输出观测（像素），模拟器输出状态（几何与物理），规划器输出动作（决策序列）（图片来源：什么值得买 / 原文整理）

3.1 渲染器：以像素为语言，追求视觉保真度

第一类世界模型是渲染器。渲染器输出的是观测，具体来说是面向人眼的像素，其最重要的品质指标是视觉保真度。一个将文本提示转化为电影级航拍镜头的视频生成模型，如 Sora、可灵、Runway Gen-3 等，本质上就是渲染器；像 Google 的 Genie 3 或 World Labs 自身的 RTFM（Real-Time Foundation Model）这样的交互式系统，同样属于渲染器范畴，它们根据用户输入实时生成可探索的画面。

渲染器的核心特征在于，其优化的目标是视觉可信度而非物理准确性。这类模型通常不具备对三维结构的显式理解，它生成的是观看者会看到的画面，而不是事物本身在三维空间中的真实样子。文章举了一个生动的例子：航拍镜头里的城市建筑群从空中看也许完美无瑕，但如果你在下面的街道中穿行，就会发现这些建筑缺乏真实的几何结构，无法支撑物理上合理的导航。这一局限性意味着，渲染器虽然目前在商业化程度上最为成熟——大量图像或文本转视频产品正在消费与企业市场快速扩张，Google 的 Nano Banana 模型甚至将渲染器级别的图像生成能力送到了数以亿计的用户手中——但其应用天花板也十分明显：它们的输出很漂亮，但你不能用它来设计一座需要承重计算的建筑，也不能用它来训练一个需要在真实物理环境中行动的机器人。

3.2 模拟器：以几何与物理为基石，追求结构准确性

第二类世界模型是模拟器。模拟器输出的是状态：一种在几何、物理或动力学上忠实的世界表征，人类和计算机程序都能在其上进行计算与交互。与渲染器的纯视觉契约不同，模拟器的契约是结构性的。它要求几何经得起检验——物体的边界不能自相交，比例关系必须符合现实；物理遵循牛顿定律与守恒方程；动力学的行为符合材料力学与流体力学的预期。

模拟器同时服务于两类用户。一类是专业人士：建筑师、设计师、电影人、游戏开发者需要超越视觉可信度的准确性，他们依赖模拟器进行结构验证、光照计算与物理特效仿真。另一类是计算机程序：强化学习智能体、机器人控制器、自动驾驶车辆将模拟器当作训练场，在其中大规模地与世界交互，测试那些在现实中要么危险、要么昂贵、要么根本不可能执行的场景。文章特别指出，模拟器工作在几何、物理和动力学的层面上，它是结构性的骨架，视觉表现（供渲染器使用）和动作后果（供规划器使用）都可以从中推导出来。掌握了模拟，就同时拥有了渲染和规划的基础；反过来则不行。

图5. World Labs 的 Splat World 项目展示了高斯泼溅技术在 VR 环境中的应用，体现了渲染与模拟融合的早期探索（图片来源：World Labs）

3.3 规划器：以决策为目标，追求行动有效性

第三类世界模型是规划器。规划器输出的是动作。给定一个观测和一个目标，规划器回答的核心问题是：智能体下一步该做什么？在很多意义上，规划器是渲染器的逆过程——渲染器以动作为输入、产出观测，规划器以观测为输入、产出动作，从而闭合了完整的感知-行动回路。

当前，视觉-语言-动作模型（Vision-Language-Action Models, VLA）、基于模型的强化学习系统，以及新涌现的世界动作模型（World Action Models, WAMs），都是规划器的不同技术尝试。它们的共同目标是让系统能够在非结构化的真实世界中决定机器人应该执行什么操作。文章指出，规划器与快速演进的机器人学习领域密切相关。过去两年里，该领域产出了不少在视频中看起来令人印象深刻的机器人操作演示。然而，这些演示几乎全都局限于高度受限的实验室环境：物体种类有限，任务时长很短，光照条件固定。它们尚未经受过真实世界部署所要求的复杂度、多样性与持续时长的系统验证。从一段精彩的演示视频到一个能在家庭厨房、工业仓库或医疗手术室中可靠工作的机器人系统，中间仍然存在显著的工程鸿沟。

渲染器 Renderer

**输出：**观测（像素）**目标：视觉保真度代表：Sora, Genie, RTFM优势：商业化成熟，用户基数大局限：**物理准确性不足

模拟器 Simulator

**输出：**状态（几何/物理）**目标：结构准确性代表：NVIDIA Omniverse, MuJoCo, Isaac Sim优势：支撑渲染与规划的基础局限：**3D数据稀缺，计算成本高

规划器 Planner

**输出：**动作（决策序列）**目标：行动有效性代表：VLA, WAMs, RT-2优势：直接驱动具身智能局限：**真实部署复杂度仍高

四、模拟器：被低估的关键枢纽与万亿级市场

在渲染器、模拟器与规划器三者之中，模拟器受到的公众关注最少，却是李飞飞团队认为最为关键的一环。文章用相当大的篇幅试图纠正这种不对称的认知偏差。

从商业维度来看，模拟器所支撑的市场空间极其广阔。仅以 NVIDIA 的 Omniverse 平台为例，其目标市场规模据该公司估计超过万亿美元，涵盖智能制造工厂、仓储物流优化、供应链数字孪生、自动驾驶仿真测试等众多垂直领域。机器人训练、建筑可视化、工程设计验证、药物分子动力学模拟，全都依赖于某种形态的物理准确模拟。渲染器虽然当前商业化程度最高，但其天花板在于视觉美感无法替代物理正确性；规划器虽然最令人兴奋，但离大规模真实部署仍有距离。模拟器则恰好处于两者的交汇点，是连接渲染与规划的桥梁。

图6. NVIDIA Omniverse 数字孪生平台在数据中心热管理仿真中的应用，展示了高保真物理模拟在工业场景中的价值（图片来源：NVIDIA Blog）

文章进一步阐述道：如果说语言是对世界的抽象，像素是对世界的投影，那么几何、物理和动力学就是世界本身。模拟器必须在这个层面上工作。一个掌握了模拟的模型，能够将它的理解向上投射为供人类消费的逼真像素，也能向下投射为供具身智能体使用的动作后果预测。而一个只掌握了渲染或只掌握了规划的模型，无法同时完成这两项任务。这意味着模拟器在概念上具有基础性的地位——它是整个技术栈的枢纽节点。

当然，模拟器也是当前技术挑战最为集中的领域。文章坦诚地列举了多项关键难题：首先，带有显式几何、材质属性和物理标注的三维数据，比渲染器训练所用的互联网视频数据稀缺了数个数量级。其次，sim-to-real 差距——即模拟中的物体行为与真实世界中的行为之间的差异——仍然是机器人学中的经典难题。第三，生成式模拟器引入了新的风险：人工智能生成的几何体可能看起来正确，但实际上包含自相交表面、错误比例或非流形结构，导致物理模拟产生荒谬的结果。第四，大规模的多物理场模拟——刚体、可变形物体、流体、布料全部同时交互——的计算成本仍然比单一领域模拟高出数个数量级。这些挑战的存在，恰恰说明了模拟器领域的研究深度与技术壁垒。

World Labs 的 Marble：模拟器方向的实践探索

作为文章理论框架的落地例证，World Labs 介绍了其正在研发的产品 Marble。该系统接受多模态输入（文本、图像、视频或空间草图），生成可探索的三维环境，同时输出用于视觉探索的高斯泼溅（Gaussian Splatting）表征和供物理引擎操作的碰撞网格。Marble 试图将渲染器与模拟器统一到一个模型中，是 World Labs 在统一世界模型方向上的第一步。团队表示，这只是一段漫长技术弧线的第一章，随着渲染、模拟和规划之间的界限开始消融，整个领域都在书写这一融合故事。

五、边界消融：统一世界模型的技术趋势

文章指出，当前世界模型领域最重要的趋势，是渲染器、模拟器与规划器三个类别之间的边界正在开始消融。这一趋势背后的核心共识是：渲染一个世界、模拟它、在其中行动，所需要的底层知识在很大程度上是相同的。一个真正理解杯子如何放在桌面上的模型——包括它的几何形状、材质属性、对摩擦力和重力的响应方式——应该能够从任意角度渲染这只杯子，模拟杯子被推动后会发生什么，并规划一只手如何安全地把它拿起来。三个类别本质上是同一种底层世界理解的三种不同投影。

图7. 统一世界模型的愿景：一个基础模型能够根据下游需求，在渲染、模拟与规划三种输出模态之间自由切换（图片来源：富途牛牛 / 原文整理）

文章列举了这一融合趋势的具体技术迹象。在渲染器与规划器的交叉地带，已有来自不同机器人实验室的研究表明：一个预训练的视频渲染器可以作为联合世界预测与动作预测的骨干网络，让单一模型同时想象"会发生什么"和"该做什么"，从而在渲染器与规划器之间架起桥梁。在渲染器与模拟器的交叉地带，World Labs 的 Marble 已经能够从单一模型同时输出高斯泼溅和碰撞网格，消解了传统上图形渲染与物理模拟之间的边界。在每一个层面，系统都在从被动输出转向交互式智能：渲染器变得可以响应动作条件，模拟器生成的世界变得更加可控和可编辑，规划器开始进行审慎推理而不仅仅是做出反应。

从更宏观的视角来看，这一融合趋势具有深远的技术史意义。文章回顾道，从 1980 年代末至今，这个领域押的始终是同一个赌注：只要世界模型足够丰富，智能体看见世界、构建世界、在其中行动所需的东西就全在里面了。这个赌注如今正在驱动一整代人的研究。而真正给它加上砝码的，是已经在发生的产业融合：渲染、模拟、规划三条线，每条都已经各自撑起价值数十亿美元的产业，它们起初是独立的研究方向，现在开始汇到一起。当边界消失，三者合流将重新定义一件更大的事：机器智能与它所栖居的物理世界之间的关系，也就是空间智能的长远走向。

图8. 世界模型在游戏、机器人、自动驾驶与通用领域的发展路线图，展示了从基础生成到条件生成再到世界模型的技术演进（图片来源：World Model Roadmap）

文章描绘的逻辑终点是一个统一的世界基础模型（Unified World Foundation Model）：一个基础模型，能够渲染照片级真实的视图、生成物理上准确的结构、规划动作序列，并根据下游使用者的需求在不同输出模态之间自由切换。这一愿景与当前大语言模型（LLM）作为统一文本接口的成功形成了有趣的平行对照——正如 GPT-4 能够根据提示在翻译、摘要、编程与推理之间切换，统一世界模型有望根据上下文在视觉生成、物理模拟与行动决策之间灵活适配。

然而，实现这一愿景仍面临一系列严峻挑战。数据格局的极不均衡是首要问题：渲染器坐拥海量的互联网视频数据，而模拟器和规划器则面临三维资产和机器人示范数据的严重匮乏。其次，针对视觉美感的优化可能会牺牲机器人或高保真模拟所需的精度，如何在单一架构内调和这些张力，是核心开放问题。此外，计算效率、实时性、多物理场耦合精度以及 sim-to-real 迁移的可靠性，都需要持续的技术突破。文章表示，这些挑战也是 World Labs 在持续演进 Marble 的过程中致力于解决的方向。

六、结语：从看见世界到理解世界

文章以维特根斯坦《逻辑哲学论》中的名言开篇："世界是所有发生的事情的总和。"这一哲学基调贯穿全文——世界不是由文字构成的，物理世界运行在完全不同的基底之上。语言模型赋予了机器对概念、词汇和推理的强大掌控力，但物理世界，无论虚拟还是真实，遵循的是几何、物理与动力学的法则。语言模型学习的是文本的统计结构，世界模型学习的是空间与时间的统计结构：光如何落在一个表面上，一座花园从一个从未被相机捕捉过的角度看起来是什么样子，物体如何响应力并遵循物理定律。

“语言给了机器一种谈论这个世界的方式。世界模型，则是机器最终得以理解、想象、推理并与之交互的途径。”

李飞飞团队提出的功能分类法——渲染器、模拟器、规划器——为当前喧嚣的世界模型讨论提供了一个难得的清晰透镜。它既不贬低任何一条技术路线的价值，也不夸大某一方向的短期潜力，而是诚实地指出各自的优势、局限与相互依赖关系。在这一框架下，研究者可以更容易地定位自己的贡献，产业界可以更清晰地评估技术投资的优先级，而整个社区则可以朝着统一世界模型的长远目标协同前进。

从 Sora 的惊艳亮相到机器人演示的频繁刷屏，从 NVIDIA Omniverse 的工业落地到 World Labs Marble 的技术探索，世界模型正在从学术概念快速演变为产业现实。而李飞飞团队的这篇文章提醒我们：在这一波技术浪潮中，概念的精确性同样重要。只有当渲染、模拟与规划各自归位，并走向有机融合，机器才能真正从"看见世界"迈向"理解世界"，空间智能的下一个前沿才会真正打开。