小鹏的世界模型,又有新进展了。
在本周举行的全球计算机视觉顶级学术会议CVPR 2026上,小鹏集团通用智能中心负责人刘先明受邀参与,并在首届具身智能基座模型部署研讨会上做主题演讲。
在演讲中,刘先明首次完整展现了小鹏世界模型的技术图谱,并表示小鹏正在研发具备主动思考、可控生成和长时序推演能力的世界模型。
(图源:小鹏)
至于世界模型和VLA之间的关系,刘先明表示,世界模型和小鹏的第二代VLA并非相互替代和相互竞争的关系,而是通过不同训练信号共同提升模型对物理世界的理解能力和物理世界的行动能力。
一句话来概括,就是小鹏的物理世界基座模型,既是第二代VLA,也是世界模型。
目前汽车主机厂使用的智能驾驶模型,大都采用VLA或世界模型二选一,而小鹏是为数不多同步使用VLA及世界模型训练智能驾驶辅助及L4自动驾驶技术的车企。
那么,小鹏采用的世界模型+VLA技术路线,有什么样的特点,对比其他车企选择的VLA/世界模型二选一,又有什么优势呢?
对于世界模型,小鹏官方给它的定位是:“小鹏基座模型的另一支柱”,而小鹏物理世界的另一支柱,就是现在已经量产上车的VLA 2.0。
此前,VLA与世界模型这两条自动驾驶模型的技术路线之争,一直以来都没有停止过。各家也频频“秀肌肉”,来验证自身技术路线的优越性。
在聊车企们的路线选择前,先简单介绍一些VLA和世界模型各自的特点以及二者的不同之处。
这里引用一下刘先明在朋友圈发布的对于VLA和世界模型两个技术的总结。他表示,“VLA学的是:人在这个世界中会怎么做;世界模型学的是:这个世界本身会怎么变化。”
放在智能辅助驾驶技术上,VLA是感知到道路状况,然后思考人类在遇到这类状况时会怎么做,然后再去执行。而世界模型则是感知到道路状况之后,思考车辆执行之后,道路会发生怎样的变化。
VLA的能力,在于能读懂当下环境,并且知道如何去执行。例如路口拐弯之前知道应该提前变道到对应车道、别的车加塞知道应该去刹停,而至于车辆执行之后,道路交通状况会变得怎么样,VLA是没办法去预测的。
世界模型的能力,则在于对未来的推演、想象。例如能够想象出如果在路口不提前变道,就没法完成拐弯的动作,所以会提前变道。别的车加塞自己不刹车的话,未来就会撞上,所以会刹车,但世界模型只能根据想象的结果去做决策,无法理解传感器输入的场景代表着什么含义。
在模型的选择上,各家品牌明面上分为了VLA和世界模型两派,例如理想、小鹏是VLA路线,蔚来、华为是世界模型路线,但实际上的技术路线并非这么死板。
就比如理想,虽然一直称呼自己的辅助驾驶技术为VLA司机大模型,但在今年3月理想发布的下一代自动驾驶基础模型MindVLA-o1中,就引入了预测式隐空间模型,也就是在模拟的隐空间中去预测未来。
预测未来,是不是很熟悉?没错,这不就是世界模型的技术路线吗?所以理想下一代的VLA模型,也融入了世界模型的预测机制,即能够对当下如何执行进行思考,也能够对执行后的结果进行预测,理想官方称这种思考为“多模态思考”。
而走世界模型路线的蔚来和华为,目前暂时没有将VLA的技术融入到世界模型之中,但随着技术不断迭代,或许在蔚来和华为的下一代自动驾驶中,就能看到一些VLA的能力?
再聊回小鹏。其实从去年小鹏科技日官宣第二代VLA时,我们就能看到小鹏的技术路线和常规的VLA的差异:去掉了VLA中的“L”,也就是语言转译这一层,直接实现由视觉信号到动作指令的端到端生成。
(图源:小鹏)
小鹏也表示,第二代VLA是“既是动作生成模型,也是理解和推演的物理世界模型”。
2026年上半年,小鹏公开的自动驾驶技术中,也都是围绕世界模型展开的。
3月31日,小鹏发布了世界模型X-World技术报告,小鹏称,这份报告从数据、模型、训练、验证及应用等多层面详解了X-World的构建与使用。
根据小鹏官方介绍,X-World可以被视为一个会思考的物理AI系统,可以根据当下的路况和驾驶操作,想象出数秒后路况的变化。而该技术也被用于第二代VLA的环境仿真和模型评估中。
4月29日,小鹏发布了X-Cache技术报告,可以在世界模型生成未来画面时,做到减少约七成的重复计算,实现最高2.7倍的推理加速。
在6月2日发布的X-Foresight技术中,小鹏就直接表示:“X-Foresight的核心,是把预测式世界模型直接融入VLA,在统一的token空间内联合预测未来的多视角画面(video)与自车动作(action)”。
简单点来说,就是在X-Foresight技术的加持下,模型既能够去感知当下道路状况,决策车辆行驶,还能够在输出车辆动作的同时对决策后的未来画面进行推理。
对此小鹏也表示,X-Foresight在驾驶决策层面全面超越传统反应式 VLA 基线模型。
X-Foresight加上前面提到的X-Cache和X-World,小鹏称三者形成了完整技术闭环,三者协同构建“知识学习-场景仿真-推理加速”全栈体系。
在此之后,就是小鹏在CVPR上,官宣的物理世界基座模型技术图谱。其中,第二代VLA和世界模型的结合,最终目标就是“构建能够深度理解真实世界并在其中安全行动的物理 AI 基座模型”。
此外,小鹏还官宣,即将发布有关“X-mind”的技术报告,将解析模型如何“主动思考”,并可视化地呈现驾驶决策背后的中间推理过程。
目前,小鹏还没给出更新一代的自动驾驶技术,或者智能辅助驾驶技术的上车时间。但现在已经是6月了,距离惯例在10月举行的小鹏科技日并不远,可以期待一下到时候小鹏又会端上什么技术。
对于小鹏汽车,亦或是整个小鹏集团而言,给人的印象都是很重视技术,甚至重技术到有点“直男”。
所以,小鹏之前用“臭搞技术的”来自嘲,倒也蛮合理的。
但玩笑归玩笑,实际落到小鹏本身的产品上,在智能化领域的技术实力是肉眼可见的强。
就举个最明显的例子:别家品牌要想证明自己的辅助驾驶好,至少车得有个激光雷达凸起,甚至有车企用了舱内的激光雷达,也要加个凸起的小蓝灯来起到造型作用。
对于小鹏而言,即使全系在售车均采用视觉方案、没有激光雷达,也不影响用户对其智能辅助驾驶的信任程度,这一点,就是技术方面的体现。
(图源:小鹏)
车子本身技术领先、靠谱,用户放心并选择,进而销量提升、研发资金更充裕,最终研发出更领先的技术,这本身就是一个正向的循环,小鹏这几年做到了,像小米、蔚来、理想、鸿蒙智行等品牌也都做到了。
这一次,小鹏又在CVPR上端上了最新的物理世界基座模型技术图谱,期待一下技术的落地、上车吧!