世界模型到底是什么？和智源王仲远深聊3小时后，我们拆解了五大疑惑

出品| 网易科技《态度》栏目

作者| 袁宁杨霞清

编辑| 丁广胜

“世界模型”当下最吊诡的地方：它前所未有的热，却也前所未有的模糊。

正是在这个时间点，智源研究院把“世界模型”推到了今年智源大会的核心位置。

6月12日，2026 智源大会上，智源研究院宣布了两项与世界模型相关的最新进展：悟界·Physis-v0.1 和悟界·RoboBrain Orca。前者指向通用物理世界基座模型，试图让AI 从“生成画面”走向“预测物理状态”；后者面向具身智能，希望让机器人在行动之前，先学会感知、理解和推演世界。

大会前，网易科技与其他同行一起，与智源研究院院长王仲远等进行了一场近3 小时的交流，主题是拆解和探讨当下最热的“世界模型”。

我们试图弄清楚：世界模型到底是什么？它是人工智能的一次重大范式变革吗？世界模型现在到了什么阶段？卡点在哪里？智源研究院在世界模型路线中如何押注？中美在世界模型竞争中有差距吗？

定义之惑：到底什么是“世界模型”？

王仲远认为，世界模拟器并不等于世界模型，视频生成更不等于世界模型。

原因很简单：视频模型可以生成看起来逼真的画面，但不一定真正理解物理规律。

它可以生成一头在天上飞的猪，也可以生成物体凭空消失、流体运动违反物理规律、重力逻辑不成立的片段。这样的模型在影视、游戏、自动驾驶数据生成等场景中有价值，但如果把它直接用于机器人、工业控制或真实世界决策，就可能带来风险。

“如果机器人装上这样的大脑，可能会误以为自己是钢铁侠。”王仲远打了一个形象的比方。

王仲远给出“世界模型”的定义：面向真实物理世界的下一代基座模型。核心是从“预测下一个词”（Next Token Prediction）变成“预测下一个物理状态”（Next Physical State Prediction）。

当下，世界模型还处于早期阶段，路线尚未收敛。王仲远将当前“世界模型”的技术路线梳理为至少五条：

第一类是以语言为中心的世界模型。

包含大语言模型、VLM、VLA都是归类为以语言为中心。世界模型的核心就是能够让人工智能进入物理世界，感知、理解、推理，跟物理世界交互，语言也有总结很多世界的知识，只是以文字的方式表达，VLM、VLA是把其它模态、其它能力映射到语言空间，所以以语言为中心也是属于一类世界模型。

第二类是以像素为中心的世界模型。

目前最广为人知、也最容易被误用的路线。OpenAI当年发布Sora的时候使用了“World Simulator”。它们预测的是下一个画面帧，因此更接近“世界模拟器”。这类模型能够生成连贯视频，但其短板在于：它可能学到的是影视作品中的视觉相关性，而不是真实物理世界的因果规律。

第三类是以三维结构为中心的世界模型。

以李飞飞为代表的空间智能方向，本质上瞄准的是数字世界的构建。这类路线关注3D重建、空间生成和可交互环境。李飞飞提出的“空间智能”，以及 World Labs 发布的 Marble，尝试从单张图片生成可交互、持久化的3D环境。王仲远指出，这更像是元宇宙和游戏场景的延伸，解决的是“数字空间”的问题，而非“物理空间”的问题。

第四类是以视觉表征为轴心的世界模型。

此路线是Yann LeCun（杨立昆）长期强调的方向。从 I-JEPA、V-JEPA 到 V-JEPA-2，这条路线主张模型不必生成完整画面，而是在 latent space，即隐空间中预测世界的抽象状态。

王仲远认同这一路线对大语言模型局限性的判断：仅靠语言模型，确实无法解决真实物理世界中的复杂问题。但他并不完全赞同“语言不重要”。在他看来，未来的世界模型不能只依赖隐式表征，也不能完全绕开语言，因为语言仍然是推理、规划和表达的重要接口。

王仲远认为，智源研究院的世界模型路线其实正在探索第五条路线,也就是第一条和第四条的融合。以语言为中心的分类和以视觉表征为中心的分类可能的融合，也叫做潜空间表征，同一个潜空间能够Decode不同的模态。智源依然延续的悟界·Emu3.5模型训练的思想，就是将各种文字图像视频模态全部压缩，原生统一训练，压缩在同一个语义空间，希望有更多的模态被压缩进来，通过统一潜空间表征各种真实物理世界的状态，Decode成为Action、画面或者其它真实物理世界需要的状态。智源认为将来统一的潜空间建模不仅仅是视觉空间，而是全模态潜空间，很有可能是世界模型真正下一个可能的路径。

“世界模型最终要解决的是看到、感知、理解真实世界，进行推理规划和决策。”王仲远说。它不应只是一个仿真器，而应是一个能够辅助人类和智能体理解物理世界、预测未来状态、做出行动决策的基座模型。

世界模型VS大语言模型：AI的重大范式变革

如果说大语言模型的核心范式是Next Token Prediction（预测下一个词），那么智源认为，世界模型的核心范式将是Next Physical Prediction（预测下一个物理状态）。

“我们认为这是人工智能的一次重大范式变革。” 王仲远表示。

在王仲远看来，过去几年AI 的主线非常清晰：先是语言模型，让机器理解和生成文本；然后是多模态模型，让机器能够处理图像、视频、声音等更多信息；再往后，AI 必须进入物理世界，与硬件、机器人、工业系统、科学实验和生命系统发生关系。

也就是说，AI 不能永远停留在屏幕里。

大语言模型已经在写作、总结、问答、编程等数字世界任务中展现出巨大价值，但真实的人类社会并不只由文字、代码和网页构成。工厂、物流、酒店、医院、实验室、道路、家庭，这些才是更复杂、更高价值、也更难建模的物理世界。

王仲远将这一过程概括为：大语言模型、多模态、世界模型，最终通往物理AGI。

所谓物理AGI，并不是指一个抽象的聊天机器人，而是能够在真实世界中感知环境、理解状态、推演后果、做出决策，并通过实体或工具执行动作的智能系统。

这也是智源过去几年布局的主线。

2021年，智源发布悟道大模型，参与开启了中国大模型时代。随后，智源将重点转向多模态，推出悟界系列大模型。2024年6月的智源大会上，智源已经在人工智能发展路径预判中明确提出：AI 将从原生统一多模态，进入物理世界与硬件结合，再进入微观世界 AI for Science，最终通向物理 AGI。

也就是说，世界模型并不是智源在2026年突然长出来的方向，而是其技术路线中的一个阶段性结果。

王仲远在接受采访时提到，智源研究院一直按照自己对AI 技术路径的判断推进研究：语言大模型、多模态大模型、具身智能，再到世界模型，是连续演进的。

这一脉络在Emu 系列中已经有所体现。

2024年，智源发布悟界·Emu3。2025年，智源发布悟界·Emu3.5。按照智源的说法，悟界·Emu3 和悟界·Emu3.5 是其多模态世界模型探索的重要节点，实现了图像、文本、视频的原生统一。王仲远认为，悟界·Emu系列本质上是智源对世界模型的早期探索，是“多模态世界模型基座”的雏形。

但他也承认，悟界·Emu3.5 时代的多模态世界模型还远远不够。

当时融合的主要是文字、图像和视频，甚至连声音和动作都没有完全融合。真正进入物理世界后，模型必须理解动作，理解状态，理解时间、空间和物理规律，还要能够判断一个动作会导致什么后果。

比如，一瓶盖着盖子的水和一瓶没盖盖子的水，如果即将从桌边跌落，人类会自然预判两者后果不同：前者可能只是摔落，后者可能还会洒水、造成滑倒或损坏物品。但要让模型真正学会这种物理常识，并不容易。

这正是世界模型相较多模态模型的关键区别。

多模态模型解决的是不同信息形式之间的统一理解和生成；世界模型要进一步解决的是：在真实物理世界中，状态如何变化，动作如何产生后果，因果链条如何被推演，长期状态如何保持一致。

王仲远认为，语言模型时代的能力激发方式是Prompt；世界模型时代，能力激发方式可能是 State。

语言模型时代，模型更多是被动观察和响应；世界模型时代，模型必须具备主动交互能力。语言模型时代，模型可以是单模态或多模态；世界模型时代，模型必须走向全模态。

因此，世界模型并不是对大语言模型的简单替代，而是一次更大的范式扩展：从数字符号预测，走向物理状态预测；从回答问题，走向理解世界；从生成内容，走向规划行动。

世界模型有哪些应用场景？和具身智能什么关系？

“VLA是当下，世界模型是未来。”王仲远认为，具身智能是当下最大的应用场景，但世界模型远不止于此：

世界模型还可以应用于以下场景：

它可以替代传统物理仿真引擎（超越人类手工写的物理公式）；

它可以用于科学发现，甚至帮人类发现未知的物理规律；

它可以服务工业、物流、医疗……任何“在真实物理世界中干活”的场景。

以及现在火热的具身模型还很“笨”——一个场景一个任务地训练，换个环境就不会了。缺乏物理常识，缺乏泛化能力。

这正是世界模型要解决的：做一个通用的物理世界基座模型，像大语言模型一样，能适应不同场景，做出合理决策。

智源想做的，正是在这个范式尚未完全收敛的时候，提出自己的定义、分类和路线判断。

智源的路线：
悟界Physis 做物理底座，
悟界RoboBrainOrca做具身大脑

今年，智源在世界模型方向最重要的两个布局，是发布了悟界·Physis-v0.1和悟界·RoboBrain Orca。

它们都指向物理世界，但侧重点不同。悟界·Physis更像是一条通用物理世界基座模型路线，目标是学习真实物理世界中的状态变化规律；悟界·RoboBrainOrca则更聚焦具身智能，目标是让机器人像人一样理解世界、预测世界、改变世界。

一个偏底座，一个偏大脑；一个更强调物理状态建模，一个更强调具身交互闭环。

首先是悟界·Physis。

它的核心范式是Next Physical State Prediction，即预测下一个物理状态。与许多视频生成模型不同，Physis 的目标不是生成更漂亮的视频，而是学习真实物理世界中的状态变化规律。

智源对悟界·Physis 的定位是：全球首个通用世界基座模型，以预测下一个物理状态的范式，探索真实物理世界AI 底层引擎。

这里的关键变化在于，它不以像素或帧为核心，而以“物理状态”为核心。

比如，一个瓶子倒下去之后，它的状态变化不仅包括画面里的像素变化，还包括瓶子的姿态、速度、碰撞、接触关系、液体是否流出、桌面是否吸水、周边物体是否被带倒。

一个模型如果只生成“看起来像瓶子倒了”的视频，并不等于它理解了这个过程。真正的世界模型需要知道：瓶盖是否拧紧、水量是多少、地面材质是什么、受力方向如何、撞击会传导到哪里。

悟界·Physis尝试将视频、RGB-D、3D点云、力触反馈等全模态信息，压缩和统一到隐空间中。也就是说，模型并不是简单预测下一帧画面，而是在latent space 中学习状态的演化。

据介绍，悟界·Physis具备四类核心能力：物理一致性，动作因果性，长程可推演性，通用泛化性。

而悟界·Physis的潜在应用场景则包括严肃工业、具身智能、物理仿真、科学研究等真实物理场景。

如果说悟界·Physis 更像“物理底座”，那么悟界·RoboBrain Orca 更接近“机器人大脑”。

智源对悟界·RoboBrainOrca的定义是：以下一个物理状态预测为核心的具身大脑，具备统一表征、因果推演、模态解码三大核心能力。

过去两年，VLA 几乎是机器人“大脑”的主流叙事。机器人通过视觉观察环境，通过语言理解人类指令，再把理解转化为动作输出。它已经推动机器人在分拣、抓取、包装、酒店服务等特定场景中落地。

但VLA 的短板也很明显：泛化不够、长程任务不稳、复杂场景中的物理理解不足，且在真实机器人上部署时还会遇到延迟、算力和响应频率问题。

王仲远说得很直接：“VLA 是当下，世界模型是未来。”

VLA 能让机器人听懂指令、看到环境、做出动作，但它对世界变化的预测能力还不够。

机器人不能只是执行，它还要能在行动前想一想：这个动作之后会发生什么？

悟界·RoboBrainOrca要解决的，就是具身智能里更底层的问题。

它试图让机器人像人类一样，不仅执行指令，还能感知环境、理解状态、预判后果、规划动作，并在执行后根据反馈继续调整。

从技术范式上看，悟界·RoboBrainOrca试图从 Next Token、Next Frame、Next Action Prediction，升级到NextPhysicalState 世界状态预测。它将语言、视觉、动作等信息统一到状态表征中，使模型能够同时生成语言思考、视觉预测和动作决策。

也就是说，悟界·RoboBrainOrca想实现的是“想、看、动”三位一体。

它既能用语言进行推理，也能预测视觉场景如何变化，还能输出行动决策。这使其更适合复杂环境中的动态决策和长期任务规划。

比如，一个机器人面对复杂房间，要决定关哪扇门、拿哪个物体、绕过哪张桌子。它不应该只是被动执行指令，而应该在内部模拟不同选择导致的未来状态，再做决策。

如果它要端一杯水给人，它需要知道杯子有没有盖子，水会不会洒，路线中是否有障碍，机械臂抓握是否稳定，失败后如何调整。

“世界模型是一个长期过程，我们应该先解决最深层次的问题。”他说。

世界模型卡点在哪？还在大语言模型的2012年

如果用大语言模型的发展阶段类比，今天的世界模型走到哪里了？

王仲远的判断是：世界模型还处在大语言模型的2012年（即深度学习阶段），处于非常早期的阶段。

他进一步展开了这个时间线的推演：2006年，Hinton 提出深度信念网络，深度学习理念开始萌芽；2012年，AlexNet 在 ImageNet 上大放异彩，深度学习进入产业化视野；但直到2018年，Transformer 和大规模预训练才真正成熟；2022年底，ChatGPT 横空出世，大语言模型迎来爆发。从理念萌芽到改变世界的产品，走了将近二十年。

世界模型是否也需要这样漫长的周期？王仲远认为可能不需要——“随着人工智能越来越强，演化速度越来越快，可能三年五年就有足够多的数据累积。”但同时他也强调，“世界模型的周期”可能是三年甚至更长时间”。世界模型是一个十年维度的命题，它的短期价值体现在技术验证而非商业兑现。

也就是说，方向已经开始显现，大家已经意识到它的重要性，但技术路线尚未收敛，数据远远不足，评测标准也不清晰，还没有出现一个像GPT-3.5 或 ChatGPT 那样让行业形成共识的产品。

在王仲远看来，世界模型目前面临着以下难点。

第一个卡点，怎么把物理规律教给模型。

人类看到一瓶水快要跌落，会天然预判接下来会发生什么。瓶子是盖着的还是没盖着的，里面有多少水，桌面是什么材质，落地后会不会碎，这些都会影响我们的动作选择。

但模型并不会天然拥有这些物理直觉。

视频生成模型可以生成一段“水杯倒下”的画面，但这段画面是否真的符合物理规律，是另一回事。

第二个难点，是长时间序列一致性。

很多视频生成模型已经可以从5 秒、10 秒延长到更久，但看起来更长，并不等于真正理解了时间。

王仲远举了一个例子：如果给一个瓶子里加水，旁边放一个时钟，模型进行状态预测。镜头移开又移回来，时钟是不是真的经过了10 秒或 20 秒？水位、动作和环境是否保持一致？

今天的很多视频模型可以生成看似连续的长视频，但不一定符合真实物理世界的时间规律。

第三个难点，怎么把Action 教给模型。