商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚

具身智能一直仰仗的VLA技术线路,在实际开发过程中正在面临越来越多的挑战。

所谓VLA模型,即视觉-语言-动作模型。它的技术逻辑可以简单描述为,将人类指令和外界多模态信息(声音、图像、视频)转化为计算机语言,继而控制机器人行为。

但在VLA模型的训练中,互联网上的静态、非结构化文本和图像数据,并不是训练所需的核心数据。训练VLA模型需要的具身智能数据,是连续的、动态的、三维甚至四维的时空轨迹流。而物理世界数据的稀缺与复杂性,成为了制约VLA模型能力跃升的主要瓶颈。

“具身智能的大脑,靠读文章、看图片永远不可能理解真实的物理世界。”

商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚对笔者表示,AI的研究范式,要从以机器为中心转变成以人为中心,通过采集人类的真实行为数据,学习真实的物理规律,去训练具身智能的世界模型。

“以人为中心”的ACE范式

12月18日,基于“以人为中心”的研究路径,大晓机器人推出了ACE具身研发范式。

具体来讲,ACE范式就是以人类与物理世界的互动规律作为研究起点,以环境式数据采集为引擎,构建了一套从“环境式数据采集—开悟世界模型3.0—具身交互”的技术体系。

在环境式数据采集中,通过整合第一视角与第三视角视频、力触觉信息、运动轨迹、语音等多模态数据,构建基于物理基础的3D资产库。

在数据处理环节,通过时序一致性对齐、交互动态轨迹预测建模与物理正确性仿真校正,将采集到的“人—物—场”信息转化为可直接用于模型训练的动态场景数据。


同时,以环境式采集数据为基,大晓机器人发布了首个开源且商业化应用的世界模型——开悟世界模型3.0,形成跨本体的统一世界理解框架,融合物理规律、人类行为和真机动作,使机器不仅能“理解”物理世界因果规律,还能“生成”长时动静态交互场景。

“在跟物理世界的交互过程中产生智能,这也是世界模型存在的价值。”

王晓刚对笔者表示,至于模型能否覆盖更多的场景以及人类的更多的动作,这则是大晓机器人的目标。实现这一切核心的关键是,ACE范式能否实现更大范围的快速扩展,让更多的厂商和开发者使用这种方式采集数据,产生回流。

模型开源,行业共建

为了让ACE范式实现更大范围内的适用,大晓机器人宣布“开悟世界模型3.0”面向全行业开源。

据介绍,开悟具身智能世界模型产品平台集成了多模态生成能力,内置支持11大类、54细类,累计328个标签,覆盖115个垂类具身场景,开发者只需输入简单指令,就能快速生成可视化的任务模拟内容,以此降低具身智能的开发门槛。

在具身本体领域,大晓机器人已携手智元机器人、银河通用、钛虎机器人、国地中心等多家具身智能企业,打通ACE技术范式、世界模型与机器人硬件的适配链路,共同打造适用于不同场景的解决方案。

在算力侧,开悟世界模型3.0则与沐曦、壁仞科技、中科曙光、辉曦智能、影微创新等多款国产厂商芯片完成适配。

硬件领域,大晓机器人与Insta360、卧龙电驱、帕西尼等深度绑定,依托硬件厂商的感知等各类硬件,强化世界模型、模组产品对多视角、动态场景的信息采集能力。

而在具身智能产品的落地节奏上,王晓刚则认为:

短期内,以具备自主导航能力的四足机器狗为主,在安防、巡检等B端场景快速推广;中期,机器人会聚焦前置仓、闪购仓等物流场景,解决人力密集型作业痛点;长期来看,机器人将探索家庭场景,但需解决安全性、责任界定等复杂问题。

“从明年开始,国内将出现大量前置仓与闪购仓,这类场景需要大量人力支持7×24小时服务,而机器人的加入不仅能提升生产效率,还具备较强的可复制性,能够充分发挥其在这类环境中的优势。”

王晓刚表示,“以人为中心”的ACE范式,大方向是正确的,特斯拉、Figure AI等企业,也在朝着这个方向转变。“这个赛道还没到收敛阶段,仍在不断涌现新的机会点,接下来的一到两年会是非常关键的时期。”(作者 | 科技潜线,文 | 饶翔宇 编辑 | 钟毅)