VLA模型走不通，机器人的下一步该怎么走？,vjc机器人仿真软件

商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚

具身智能一直仰仗的VLA技术线路，在实际开发过程中正在面临越来越多的挑战。

所谓VLA模型，即视觉-语言-动作模型。它的技术逻辑可以简单描述为，将人类指令和外界多模态信息（声音、图像、视频）转化为计算机语言，继而控制机器人行为。

但在VLA模型的训练中，互联网上的静态、非结构化文本和图像数据，并不是训练所需的核心数据。训练VLA模型需要的具身智能数据，是连续的、动态的、三维甚至四维的时空轨迹流。而物理世界数据的稀缺与复杂性，成为了制约VLA模型能力跃升的主要瓶颈。

“具身智能的大脑，靠读文章、看图片永远不可能理解真实的物理世界。”

商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚对笔者表示，AI的研究范式，要从以机器为中心转变成以人为中心，通过采集人类的真实行为数据，学习真实的物理规律，去训练具身智能的世界模型。

“以人为中心”的ACE范式

12月18日，基于“以人为中心”的研究路径，大晓机器人推出了ACE具身研发范式。

具体来讲，ACE范式就是以人类与物理世界的互动规律作为研究起点，以环境式数据采集为引擎，构建了一套从“环境式数据采集—开悟世界模型3.0—具身交互”的技术体系。

在环境式数据采集中，通过整合第一视角与第三视角视频、力触觉信息、运动轨迹、语音等多模态数据，构建基于物理基础的3D资产库。

在数据处理环节，通过时序一致性对齐、交互动态轨迹预测建模与物理正确性仿真校正，将采集到的“人—物—场”信息转化为可直接用于模型训练的动态场景数据。

同时，以环境式采集数据为基，大晓机器人发布了首个开源且商业化应用的世界模型——开悟世界模型3.0，形成跨本体的统一世界理解框架，融合物理规律、人类行为和真机动作，使机器不仅能“理解”物理世界因果规律，还能“生成”长时动静态交互场景。

“在跟物理世界的交互过程中产生智能，这也是世界模型存在的价值。”

王晓刚对笔者表示，至于模型能否覆盖更多的场景以及人类的更多的动作，这则是大晓机器人的目标。实现这一切核心的关键是，ACE范式能否实现更大范围的快速扩展，让更多的厂商和开发者使用这种方式采集数据，产生回流。

模型开源，行业共建

为了让ACE范式实现更大范围内的适用，大晓机器人宣布“开悟世界模型3.0”面向全行业开源。

据介绍，开悟具身智能世界模型产品平台集成了多模态生成能力，内置支持11大类、54细类，累计328个标签，覆盖115个垂类具身场景，开发者只需输入简单指令，就能快速生成可视化的任务模拟内容，以此降低具身智能的开发门槛。

在具身本体领域，大晓机器人已携手智元机器人、银河通用、钛虎机器人、国地中心等多家具身智能企业，打通ACE技术范式、世界模型与机器人硬件的适配链路，共同打造适用于不同场景的解决方案。

在算力侧，开悟世界模型3.0则与沐曦、壁仞科技、中科曙光、辉曦智能、影微创新等多款国产厂商芯片完成适配。

硬件领域，大晓机器人与Insta360、卧龙电驱、帕西尼等深度绑定，依托硬件厂商的感知等各类硬件，强化世界模型、模组产品对多视角、动态场景的信息采集能力。

而在具身智能产品的落地节奏上，王晓刚则认为：

短期内，以具备自主导航能力的四足机器狗为主，在安防、巡检等B端场景快速推广；中期，机器人会聚焦前置仓、闪购仓等物流场景，解决人力密集型作业痛点；长期来看，机器人将探索家庭场景，但需解决安全性、责任界定等复杂问题。

“从明年开始，国内将出现大量前置仓与闪购仓，这类场景需要大量人力支持7×24小时服务，而机器人的加入不仅能提升生产效率，还具备较强的可复制性，能够充分发挥其在这类环境中的优势。”

王晓刚表示，“以人为中心”的ACE范式，大方向是正确的，特斯拉、Figure AI等企业，也在朝着这个方向转变。“这个赛道还没到收敛阶段，仍在不断涌现新的机会点，接下来的一到两年会是非常关键的时期。”（作者 | 科技潜线，文 | 饶翔宇编辑 | 钟毅）