出品| 网易科技《态度》栏目

作者| 袁宁 杨霞清

编辑| 丁广胜

“世界模型”当下最吊诡的地方:它前所未有的热,却也前所未有的模糊。

正是在这个时间点,智源研究院把“世界模型”推到了今年智源大会的核心位置。

6月12日,2026 智源大会上,智源研究院宣布了两项与世界模型相关的最新进展:悟界·Physis-v0.1 和悟界·RoboBrain Orca。前者指向通用物理世界基座模型,试图让AI 从“生成画面”走向“预测物理状态”;后者面向具身智能,希望让机器人在行动之前,先学会感知、理解和推演世界。

大会前,网易科技与其他同行一起,与智源研究院院长王仲远等进行了一场近3 小时的交流,主题是拆解和探讨当下最热的“世界模型”。

我们试图弄清楚:世界模型到底是什么?它是人工智能的一次重大范式变革吗?世界模型现在到了什么阶段?卡点在哪里?智源研究院在世界模型路线中如何押注?中美在世界模型竞争中有差距吗?


定义之惑:到底什么是“世界模型”?

王仲远认为,世界模拟器并不等于世界模型,视频生成更不等于世界模型。

原因很简单:视频模型可以生成看起来逼真的画面,但不一定真正理解物理规律。

它可以生成一头在天上飞的猪,也可以生成物体凭空消失、流体运动违反物理规律、重力逻辑不成立的片段。这样的模型在影视、游戏、自动驾驶数据生成等场景中有价值,但如果把它直接用于机器人、工业控制或真实世界决策,就可能带来风险。

“如果机器人装上这样的大脑,可能会误以为自己是钢铁侠。”王仲远打了一个形象的比方。

王仲远给出“世界模型”的定义:面向真实物理世界的下一代基座模型核心是从“预测下一个词”(Next Token Prediction)变成“预测下一个物理状态”(Next Physical State Prediction)。

当下,世界模型还处于早期阶段,路线尚未收敛。王仲远将当前“世界模型”的技术路线梳理为至少五条:

第一类是以语言为中心的世界模型。

包含大语言模型、VLM、VLA都是归类为以语言为中心。世界模型的核心就是能够让人工智能进入物理世界,感知、理解、推理,跟物理世界交互,语言也有总结很多世界的知识,只是以文字的方式表达,VLM、VLA是把其它模态、其它能力映射到语言空间,所以以语言为中心也是属于一类世界模型。

第二类是以像素为中心的世界模型。

目前最广为人知、也最容易被误用的路线。OpenAI当年发布Sora的时候使用了“World Simulator”。它们预测的是下一个画面帧,因此更接近“世界模拟器”。这类模型能够生成连贯视频,但其短板在于:它可能学到的是影视作品中的视觉相关性,而不是真实物理世界的因果规律。

第三类是以三维结构为中心的世界模型。

以李飞飞为代表的空间智能方向,本质上瞄准的是数字世界的构建。这类路线关注3D重建、空间生成和可交互环境。李飞飞提出的“空间智能”,以及 World Labs 发布的 Marble,尝试从单张图片生成可交互、持久化的3D环境。王仲远指出,这更像是元宇宙和游戏场景的延伸,解决的是“数字空间”的问题,而非“物理空间”的问题。

第四类是以视觉表征为轴心的世界模型。

此路线是Yann LeCun(杨立昆) 长期强调的方向。从 I-JEPA、V-JEPA 到 V-JEPA-2,这条路线主张模型不必生成完整画面,而是在 latent space,即隐空间中预测世界的抽象状态。

王仲远认同这一路线对大语言模型局限性的判断:仅靠语言模型,确实无法解决真实物理世界中的复杂问题。但他并不完全赞同“语言不重要”。在他看来,未来的世界模型不能只依赖隐式表征,也不能完全绕开语言,因为语言仍然是推理、规划和表达的重要接口。

王仲远认为,智源研究院的世界模型路线其实正在探索第五条路线,也就是第一条和第四条的融合。以语言为中心的分类和以视觉表征为中心的分类可能的融合,也叫做潜空间表征,同一个潜空间能够Decode不同的模态。智源依然延续的悟界·Emu3.5模型训练的思想,就是将各种文字图像视频模态全部压缩,原生统一训练,压缩在同一个语义空间,希望有更多的模态被压缩进来,通过统一潜空间表征各种真实物理世界的状态,Decode成为Action、画面或者其它真实物理世界需要的状态。智源认为将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间,很有可能是世界模型真正下一个可能的路径。

“世界模型最终要解决的是看到、感知、理解真实世界,进行推理规划和决策。”王仲远说。它不应只是一个仿真器,而应是一个能够辅助人类和智能体理解物理世界、预测未来状态、做出行动决策的基座模型。


世界模型VS大语言模型:AI的重大范式变革

如果说大语言模型的核心范式是Next Token Prediction(预测下一个词),那么智源认为,世界模型的核心范式将是Next Physical Prediction(预测下一个物理状态)

“我们认为这是人工智能的一次重大范式变革。” 王仲远表示。

在王仲远看来,过去几年AI 的主线非常清晰:先是语言模型,让机器理解和生成文本;然后是多模态模型,让机器能够处理图像、视频、声音等更多信息;再往后,AI 必须进入物理世界,与硬件、机器人、工业系统、科学实验和生命系统发生关系。

也就是说,AI 不能永远停留在屏幕里。

大语言模型已经在写作、总结、问答、编程等数字世界任务中展现出巨大价值,但真实的人类社会并不只由文字、代码和网页构成。工厂、物流、酒店、医院、实验室、道路、家庭,这些才是更复杂、更高价值、也更难建模的物理世界。

王仲远将这一过程概括为:大语言模型、多模态、世界模型,最终通往物理AGI。

所谓物理AGI,并不是指一个抽象的聊天机器人,而是能够在真实世界中感知环境、理解状态、推演后果、做出决策,并通过实体或工具执行动作的智能系统。

这也是智源过去几年布局的主线。

2021年,智源发布悟道大模型,参与开启了中国大模型时代。随后,智源将重点转向多模态,推出悟界系列大模型。2024年6月的智源大会上,智源已经在人工智能发展路径预判中明确提出:AI 将从原生统一多模态,进入物理世界与硬件结合,再进入微观世界 AI for Science,最终通向物理 AGI。

也就是说,世界模型并不是智源在2026年突然长出来的方向,而是其技术路线中的一个阶段性结果。

王仲远在接受采访时提到,智源研究院一直按照自己对AI 技术路径的判断推进研究:语言大模型、多模态大模型、具身智能,再到世界模型,是连续演进的。

这一脉络在Emu 系列中已经有所体现。

2024年,智源发布悟界·Emu3。2025年,智源发布悟界·Emu3.5。按照智源的说法,悟界·Emu3 和 悟界·Emu3.5 是其多模态世界模型探索的重要节点,实现了图像、文本、视频的原生统一。王仲远认为,悟界·Emu系列本质上是智源对世界模型的早期探索,是“多模态世界模型基座”的雏形。

但他也承认,悟界·Emu3.5 时代的多模态世界模型还远远不够。

当时融合的主要是文字、图像和视频,甚至连声音和动作都没有完全融合。真正进入物理世界后,模型必须理解动作,理解状态,理解时间、空间和物理规律,还要能够判断一个动作会导致什么后果。

比如,一瓶盖着盖子的水和一瓶没盖盖子的水,如果即将从桌边跌落,人类会自然预判两者后果不同:前者可能只是摔落,后者可能还会洒水、造成滑倒或损坏物品。但要让模型真正学会这种物理常识,并不容易。

这正是世界模型相较多模态模型的关键区别。

多模态模型解决的是不同信息形式之间的统一理解和生成;世界模型要进一步解决的是:在真实物理世界中,状态如何变化,动作如何产生后果,因果链条如何被推演,长期状态如何保持一致。

王仲远认为,语言模型时代的能力激发方式是Prompt;世界模型时代,能力激发方式可能是 State。

语言模型时代,模型更多是被动观察和响应;世界模型时代,模型必须具备主动交互能力。语言模型时代,模型可以是单模态或多模态;世界模型时代,模型必须走向全模态。

因此,世界模型并不是对大语言模型的简单替代,而是一次更大的范式扩展:从数字符号预测,走向物理状态预测;从回答问题,走向理解世界;从生成内容,走向规划行动。

世界模型有哪些应用场景?和具身智能什么关系?

“VLA是当下,世界模型是未来。”王仲远认为,具身智能是当下最大的应用场景,但世界模型远不止于此:

世界模型还可以应用于以下场景:

它可以替代传统物理仿真引擎(超越人类手工写的物理公式);

它可以用于科学发现,甚至帮人类发现未知的物理规律;

它可以服务工业、物流、医疗……任何“在真实物理世界中干活”的场景。

以及现在火热的具身模型还很“笨”——一个场景一个任务地训练,换个环境就不会了。缺乏物理常识,缺乏泛化能力。

这正是世界模型要解决的:做一个通用的物理世界基座模型像大语言模型一样,能适应不同场景,做出合理决策。

智源想做的,正是在这个范式尚未完全收敛的时候,提出自己的定义、分类和路线判断


智源的路线:
悟界Physis 做物理底座,
悟界RoboBrainOrca做具身大脑

今年,智源在世界模型方向最重要的两个布局,是发布了悟界·Physis-v0.1悟界·RoboBrain Orca。

它们都指向物理世界,但侧重点不同。悟界·Physis更像是一条通用物理世界基座模型路线,目标是学习真实物理世界中的状态变化规律;悟界·RoboBrainOrca则更聚焦具身智能,目标是让机器人像人一样理解世界、预测世界、改变世界。

一个偏底座,一个偏大脑;一个更强调物理状态建模,一个更强调具身交互闭环。

首先是悟界·Physis。

它的核心范式是Next Physical State Prediction,即预测下一个物理状态。与许多视频生成模型不同,Physis 的目标不是生成更漂亮的视频,而是学习真实物理世界中的状态变化规律。

智源对悟界·Physis 的定位是:全球首个通用世界基座模型,以预测下一个物理状态的范式,探索真实物理世界AI 底层引擎。

这里的关键变化在于,它不以像素或帧为核心,而以“物理状态”为核心。

比如,一个瓶子倒下去之后,它的状态变化不仅包括画面里的像素变化,还包括瓶子的姿态、速度、碰撞、接触关系、液体是否流出、桌面是否吸水、周边物体是否被带倒。

一个模型如果只生成“看起来像瓶子倒了”的视频,并不等于它理解了这个过程。真正的世界模型需要知道:瓶盖是否拧紧、水量是多少、地面材质是什么、受力方向如何、撞击会传导到哪里。

悟界·Physis尝试将视频、RGB-D、3D点云、力触反馈等全模态信息,压缩和统一到隐空间中。也就是说,模型并不是简单预测下一帧画面,而是在latent space 中学习状态的演化。

据介绍,悟界·Physis具备四类核心能力:物理一致性,动作因果性,长程可推演性,通用泛化性。

悟界·Physis的潜在应用场景则包括严肃工业、具身智能、物理仿真、科学研究等真实物理场景。

如果说悟界·Physis 更像“物理底座”,那么悟界·RoboBrain Orca 更接近“机器人大脑”。

智源对悟界·RoboBrainOrca的定义是:以下一个物理状态预测为核心的具身大脑具备统一表征、因果推演、模态解码三大核心能力

过去两年,VLA 几乎是机器人“大脑”的主流叙事。机器人通过视觉观察环境,通过语言理解人类指令,再把理解转化为动作输出。它已经推动机器人在分拣、抓取、包装、酒店服务等特定场景中落地。

但VLA 的短板也很明显:泛化不够、长程任务不稳、复杂场景中的物理理解不足,且在真实机器人上部署时还会遇到延迟、算力和响应频率问题。

王仲远说得很直接:“VLA 是当下,世界模型是未来。”

VLA 能让机器人听懂指令、看到环境、做出动作,但它对世界变化的预测能力还不够。

机器人不能只是执行,它还要能在行动前想一想:这个动作之后会发生什么?

悟界·RoboBrainOrca要解决的,就是具身智能里更底层的问题。

它试图让机器人像人类一样,不仅执行指令,还能感知环境、理解状态、预判后果、规划动作,并在执行后根据反馈继续调整。

从技术范式上看,悟界·RoboBrainOrca试图从 Next Token、Next Frame、Next Action Prediction升级到NextPhysicalState 世界状态预测它将语言、视觉、动作等信息统一到状态表征中,使模型能够同时生成语言思考、视觉预测和动作决策。

也就是说,悟界·RoboBrainOrca想实现的是“想、看、动”三位一体。

它既能用语言进行推理,也能预测视觉场景如何变化,还能输出行动决策。这使其更适合复杂环境中的动态决策和长期任务规划。

比如,一个机器人面对复杂房间,要决定关哪扇门、拿哪个物体、绕过哪张桌子。它不应该只是被动执行指令,而应该在内部模拟不同选择导致的未来状态,再做决策。

如果它要端一杯水给人,它需要知道杯子有没有盖子,水会不会洒,路线中是否有障碍,机械臂抓握是否稳定,失败后如何调整。

“世界模型是一个长期过程,我们应该先解决最深层次的问题”他说。


世界模型卡点在哪?还在大语言模型的2012年

如果用大语言模型的发展阶段类比,今天的世界模型走到哪里了?

王仲远的判断是:界模型还处在大语言模型的2012年(即深度学习阶段),处于非常早期的阶段。

他进一步展开了这个时间线的推演:2006年,Hinton 提出深度信念网络,深度学习理念开始萌芽;2012年,AlexNet 在 ImageNet 上大放异彩,深度学习进入产业化视野;但直到2018年,Transformer 和大规模预训练才真正成熟;2022年底,ChatGPT 横空出世,大语言模型迎来爆发从理念萌芽到改变世界的产品,走了将近二十年。

世界模型是否也需要这样漫长的周期?王仲远认为可能不需要——“随着人工智能越来越强,演化速度越来越快,可能三年五年就有足够多的数据累积。”但同时他也强调,“世界模型的周期”可能是三年甚至更长时间”。世界模型是一个十年维度的命题,它的短期价值体现在技术验证而非商业兑现。

也就是说,方向已经开始显现,大家已经意识到它的重要性,但技术路线尚未收敛,数据远远不足,评测标准也不清晰,还没有出现一个像GPT-3.5 或 ChatGPT 那样让行业形成共识的产品。

在王仲远看来,世界模型目前面临着以下难点。

第一个卡点,怎么把物理规律教给模型。

人类看到一瓶水快要跌落,会天然预判接下来会发生什么。瓶子是盖着的还是没盖着的,里面有多少水,桌面是什么材质,落地后会不会碎,这些都会影响我们的动作选择。

但模型并不会天然拥有这些物理直觉。

视频生成模型可以生成一段“水杯倒下”的画面,但这段画面是否真的符合物理规律,是另一回事。

第二个难点,是长时间序列一致性。

很多视频生成模型已经可以从5 秒、10 秒延长到更久,但看起来更长,并不等于真正理解了时间。

王仲远举了一个例子:如果给一个瓶子里加水,旁边放一个时钟,模型进行状态预测。镜头移开又移回来,时钟是不是真的经过了10 秒或 20 秒?水位、动作和环境是否保持一致?

今天的很多视频模型可以生成看似连续的长视频,但不一定符合真实物理世界的时间规律。

第三个难点,怎么把Action 教给模型。

世界模型必须理解动作和后果之间的因果关系。机器人推一下、夹一下、拧一下、倒一下,都会带来不同的状态变化。

如果没有动作数据,没有交互反馈,模型很难真正知道“我做了什么”和“世界发生了什么变化”之间的关系。

第四个难点,是数据的匮乏。

今天的世界模型,最大的现实问题之一仍然是数据的匮乏。大语言模型之所以爆发,一个关键原因是互联网文本足够多。图像和视频模型也受益于海量互联网视觉数据。

但世界模型需要的数据复杂得多。它需要真实物理世界中的多模态数据:视觉、声音、动作、时间、空间、物体状态、机器人轨迹、人类指令、执行反馈、成败结果。

更重要的是,这些数据必须能反映真实因果关系,而不是只呈现表面画面。

这类数据目前远远不够。

但王仲远表示,世界模型不可能等到“数据完全 Ready”之后再做。

具身智能和真实物理场景的落地,本身也会形成数据闭环。比如工厂分拣、酒店服务、仓储搬运等场景,虽然一开始只是解决具体问题,但落地过程中采集到的数据,反过来会帮助未来世界模型训练。

也就是说,世界模型的发展不是先有完美数据、再有完美模型,而是模型、场景和数据共同迭代。

这也是智源为什么愿意在世界模型还不成熟时提前投入。“我们看到了一些可能的方向,但仍需要全世界一同努力。”他说。


结语:世界模型,中美在同一起跑线

在大语言模型领域,业界普遍的认同是中国和美国的差距在6-12个月。

当问到世界模型中美的差距时,王仲远给出了出人意料的答案:“没有差距,中美在同一起跑线上。因为方向都刚刚开始”。

从行业竞争来看,短期内呈现“百花齐放” 的状态,各类技术路线持续并存:视频生成团队、3D 数字场景团队、传统大模型厂商、车企、具身智能企业都会入局。大家的研发目标、技术路径各不相同,短时间内难以形成统一标准。长期来看,能否打造出通用世界基座模型将是决定胜负的关键。

世界模型不是一场短暂的风口,而是人工智能发展的必经之路。