据智东西,斯坦福大学教授、World Labs联合创始人兼CEO李飞飞与团队发布文章《世界模型的功能分类》,系统拆解了当下释义混乱的“世界模型”概念。

文章指出,计算机视觉、机器人、强化学习和生成式AI各领域都在研发世界模型,但各方所指内涵截然不同。李飞飞从强化学习的POMDP(部分可观测马尔可夫决策过程)框架出发,为世界模型建立了清晰的功能分类体系。

李飞飞将世界模型归纳为三大功能类别:渲染器输出供人观看的像素画面,核心评判标准是视觉还原度;仿真器输出贴合客观规律的环境状态,需恪守结构真实性;规划器输出智能体的动作指令,依托观测信息与预设目标给出行动方案。

文章重点论证,在三者中受关注度最低的仿真器,恰恰具备最深远的产业价值与最棘手的技术难题。仿真器是衔接渲染与规划的桥梁,也是机器人训练、自动驾驶测试、建筑可视化等领域的核心支撑。但仿真赛道面临三维数据稀缺、仿真与现实的域差、生成式仿真的几何隐患、多物理场仿真的高算力成本等挑战。

李飞飞进一步提出,三类模型底层共用同一套世界知识,当前最重要的趋势是三者边界正不断消融,最终将走向能够灵活切换输出形式的大一统世界基础模型。在同一套模型架构中平衡各项需求,是当前世界模型领域最核心的攻关课题。