既要又要的结果就是勺叉,咱不当勺叉,咱们当一个好用的叉子就行。

作者丨刘欣

编辑丨高景辉

在机器人产业蓬勃发展的浪潮下,具身智能已然成为驱动产业变革的核心赛道,而高质量数据的缺失与不足,正是制约其发展的关键瓶颈。

在此背景下,诺亦腾机器人(Noitom Robotics)作为目前中国唯一一家明确以“数据”为交付界面的公司,凭借着其在动作捕捉技术上的积累为机器人数据提供关键支撑。

作为诺亦腾机器人(Noitom Robotics)创始人的戴若犁博士在2025年12月13日雷峰网举办的第八届GAIR全球人工智能与机器人大会现场上,做了题为《用动作捕捉技术构建具身智能数据工厂》的分享。

他指出,人形机器人所代表的具身智能,正在成为一个天花板足够高、且对高质量数据有强烈需求的新赛道。由于遥操作的一些现实痛点,行业开始将视角逐步拓展至以人为中心(human-centric)的数据路径,尝试构建不与单一机器人本体强绑定的数据体系。

以下为他的演讲内容,雷峰网做了不改变原意的编辑:

大家好,今天早晨我是从北京坐飞机赶过来,早晨出门的时候是北京今年的第一场雪,大概零下七八度,而深圳非常温暖,也让我非常开心。今天我想跟大家来聊一聊,具身智能数据的一些认知。

我的公司叫诺亦腾机器人(Noitom Robotics),可能是服务全球具身智能公司,本体公司、大厂最多的一家数据公司。我们服务了六七十家不同的机器人公司、模型公司,并且关于具身智能数据的全链路Pipeline都做过,包括遥操作、Human-centric数据采集、数据标注、预训练、后处理。所以在这个行业里,我们有第一手的经验或教训,今天可以跟大家来分享一下。


首先我先介绍一下,我12年创办的第一家公司叫诺亦腾(Noitom Ltd.),诺亦腾是做动作捕捉和动作追踪技术的,甚至Noitom的名字由来都是把动作Motion这个词反过来拼写,所以我们一直在研究人和空间物体的Motion。但在过去的十年里,我们一直都在寻找一个天花板足够高、且对人的数字化行为、高精度的物体位姿和高质量的数据是有刚需的领域。

我们服务了好莱坞影视、体育运动分析、医疗健康等各种不同的行业,这些行业大概都是几千万一年的收入,比较小但都很稳定。所以诺亦腾的市占率做到了全球第一名,每年小几个亿的营收。

但在23年底,诺亦腾24年全年机器人的营收相比过去任何一年涨了5、6倍。今年还没有过完,所以还没统计第四季度的收入,但比去年已经又涨了6倍,所以两年加一块已经有将近四十倍的增长了。

我们看到了一个机会,虽然这个机会我们是被动进入的。其实我的博士学位就是Robotics,准确来说我是第一批做控制算法、非线性控制下的抓取振动抑制(grasping vibration damping)这方面科研的,但后面一直都在做感知,直到机器人把我又拖回了原来熟悉的科研。

最后复盘时发现,从23年的9月底开始,这个密集的需求,其实是建立在两件事情被验证的基础上。第一件事情是大家信了一件事情:如果只做单一构型,那么人形是一个最好的Solution。


第二是,不管是VLA还是其他架构的模型里面,都有人阶段性地验证了具身智能的Scaling Law。这说明把数据量提高,或者按模型的规模体量所需要的算力投进去,是能得到一些泛化的能力和灵巧性的。


这两件事情都被证明之后,出现了一个很有意思的事情。上图蓝色和橙色区域的企业(人形机器人本体和模型)都开始问我们要三种东西:设备、项目和数据,他们会直接问我们能不能卖数据,各种数据都可以,无论是单模态、低精度还是高质量的数据都要的。而且他们对于数采的设备、服务和对数据的渴求,在过去的两年中完全没有看到任何减速的迹象,不停地往上走。

几周之前,美国有几个工作,告诉了大家用多大体量的数据。比如说Generalist的GEN-0用了27万小时的真实世界操作轨迹,这个数字给了整个行业巨大的信心。

Scaling Law不需要自己验证,有人验证就行。大家原本不知道:数据堆到什么体量ROI不会掉下来;或者堆到什么体量能有显著的泛化能力提升。但现在有人告诉你,你可以放心大胆堆到30万小时,这就像有一条路摆在前面一样。

于是,来找我们询价和问26年的产能的客户,一下子从原先讨论的千小时、万小时到了十万小时为单位起。其实我们没有人能接得住,在座的所有人都接不住,但是大家需求的胃口已经被打到那个数量级了。

很多人包括投资人跟我聊,你们是不是对标的Scale AI?其实不是的。Scale AI诞生于多模态模型和自动驾驶这两个行业,跟机器人行业的数据需求是有着本质的区别的。其中最大的区别就在于,这两个行业所服务的甲方获取数据的能力比乙方强,比如自动驾驶的甲方可以用自己的车队获取数据。

如果当甲方获取生数据的能力强于或平权于乙方时,那么数据生意的毛利天花板就不够可观。这件事可以在美国做,因为美国可以全球众包,这样就可以在美国40%或50%毛利的天花板下面努力的卷,但很难突破50%。但和美国用本地劳动力置换海外的劳动力不同,中国是本地置换本地的劳动力。所以中国的天花板是20%,苦一点的10%以下的生意也有人做。

美国有三家数据生意做得比较好的公司,分别是Scale AI、Mercor和Surge AI。我认为做得最好的一家不是Scale AI,而是Surge AI。因为它的毛利很多时候能做到60%,这是非常杰出的一个能力。Surge AI的主要能力是AI Infra(基础设施),把工具链做得特别好。Scale AI最厉害的能力是对benchmark和data validation数据的利用,以及它的训练模型的优化能力其实强于他的甲方,somehow强于Anthropic。而Mercor其实是一家AI人力招聘公司,所以它最厉害的是筛人、找人、卷人,把人激励好,把人的数据给回流,最后快速的轮转,全球都可以合规。

所以这三家其实是天纵英才,甲方拿着数据来找你拉框框,还可以做到40%或50%的毛利,每年做几十亿美金的生意,这是很杰出的。中国做得比较好的有曼孚和海天瑞声。

整体来说,当乙方没有显著优于甲方的数据获取能力的时候,这个数据生意其实就是一个劳动力置换和外包,在中国卷的天花板就是15%到20%的毛利。

硬件销售也是一个苦生意。我做了十几年to B的硬件销售,综合毛利能做到45%、50%,人均产能的效能做到90万,已经很厉害了,但是很难再突破。所以在这个行业里,我觉得知道该怎么做机器人数据这个生意远重要于其他,就是你的business model应该是什么,这件事情非常非常的重要。

很多人来找我们,买我们的设备,做遥操作,请我们做retargeting,然后去采集数据。也有人做whole body的teleoperation,包括工具的使用、双手的协同。更加复杂的可能是做双向的数据互传,比如人到机器人的motion的互传,机器人到人的视觉的互传,甚至一些感官的替代,比如力反馈。

但这个世界上没有真正力反馈的Solution,我从大概14、15年开始做XR领域的力反馈,应该是中国第一批,但后来在这个领域中的玩家通通放弃了。这是一个比人形机器人还难的赛道,为了解决一个A命题而去挑战一个更难的B命题这是不对的。所以行业内普遍的做法都会做感官转移,比如把力和触觉转换成视觉和听觉,或者其他更加易得的感官,然后再去完成复杂的任务。


这是西湖机器人的全身遥操作(whole-body teleoperation),做得特别好,强于很多公司和高校所做的全身遥操作,穿的是我们的设备,我们也贡献了一些力量。


这是宇树的全身控制(whole-body control),也做的很不错,是遥操作里面比较杰出的工作。

遥操作绝对是非常好的获取数据的方式,因为获取的数据是真机数据,里面包含着宝贵的真机特性。但是遥操作有三大结构性挑战(“原罪”):


大家可以看这张流程图,这是我们典型的服务遥操作的客户,就是典型的工作流,也是我们赚钱的流程。这里有一个特别重要的步骤叫retargeting mapping,这是指把一个人的数字化形象和行为翻译成一个机器人的数字化形象和行为,然后让机器人的运维系统去跟。

但是mapping同时也使得模态丢失、损失,维度降低。所以retargeting mapping结束之后,你从机器人身上采到的数据已经极大的降维了,已经极大的comply到机器人的构型和它的传感器上了。所以它有极差的跨本体能力,从宇树的G1上采的数据到同家公司另一个型号上就学不了。

这件事情让很多的客户以及我自己都很恐慌,24年7月份,全球包括我的团队在内的五个组都开始探索“如何让数据能够跨本体”。到了24年年底,很多个组跳出了遥操作的工作,追寻新的方向。

但这并不是说遥操作的数据不重要,这是我必须要强调的。遥操作的数据很重要,它的第一性是真机特性,可以去表征。但是需要的体量不高,因为它不能跨本体,没有灵巧性,很昂贵。所以如果获得足够去表征真机特性的数据,就应该停。


于是行业开始将视角逐步拓展至以人为中心(Human-centric)的数据路径 ,跳出遥操作的范畴,不再和本体绑定,直接进行操作。把机器人身上可能有的全量甚至是Over kill的Sensor 穿在你身上,视觉传感器力触觉传感器,甚至于连温度感知、声音感知、深度视觉、旁观视觉、旁观的深度视觉都集合在某一个形态的设备里头,来尝试捕捉一个人直接在打螺丝时候的全量的模态维度,以超高的精度,远超于机器人感知的精度去获取信息。

刚才说的有五个组,其中有两个组用的就是这个流程:先把数据从人身上捕捉,然后做一个粗的Retargeting,这个数据就变得跟机器人很像了,然后再做一个很细的Retargeting,但是是在仿真环境里的强化学习,这个强化学习可以保证任务真的能完成。这个流程其实在24年12月份的时候已经被好几个组所验证走通了。

但是这种超高精度的数据获取非常昂贵,诺亦腾机器人(Noitom Robotics)在国内的一个城市和海外的一个城市各建设了一个数据工厂,我的数据工厂是不采集遥操作数据的,因为遥操作数据不值得大体量累积。它应该是一个甲方行为,不应该是个乙方行为。在数据工厂我们采了大量的数据,服务业内很多的伙伴。



以人为中心的数据采集,我们分成了工厂采(In-the-factory)和野采(In-the-wild)。上面这两张图是我们用过的一些采集方案,但目前已经有了更新迭代的版本,这些图里的方案已经被放弃了。无论是ITF还是ITW,数据获取的方式有很多,但你需要不断验证。


我是怎么判断这么多不同的数据获取的方式的?非常重要的一件事情就是:要知道每一层数据的第一性是什么?真机遥操数据的第一性,在于真,这是其他三层都没有的。所以,你可以通过遥操作的数据学习pick and place,这其实同时是在学它的真机特性,而真机特性更重要,因为pick and place的技能策略、泛化性其它数据里面有。

Human-centric是中间的这两层,第二层是超高精度,超全模态,从工厂里采集的数据。第三层是野采(In-the-wild)的数据,这两层的第一性也是不同的:第二层的第一性是多维度或者全维度,多模态、高精度,要做到的是跨本体。所以我们希望在模态、维度、精度等所有方面要能比机器人的维度和模态都全,都强,都高,这样的话将来你映射的时候就是一个降采样,不需要做一个升采样。

比如机器人的视觉传感器,是720P、双目、50赫兹、卷帘快门,那你就要达到双目、8K、120赫兹、全局快门。这样将来降采样还有的做,但要比他低的话,那就只能忍了,就得忍维度的损失,有模态的损失,everything。

第三层野采(In-the-wild)的第一性是视觉泛化性,要走到真实的环境中去追求视觉的泛化性。不要尝试在任何数采工厂里面做遥操作,也不要尝试去在工厂中搭建真实环境——你可以搭一个厕所,但主要的目的是为了避免数采员无实物表演,但你完全没有必要去搭100个或更多的厕所,而是应该in the wild。所以这一层的精度和维度就不太重要了,要舍弃一些东西。

通过这几层数据,我们可以真正把生意做起来,给行业带来价值。不要去访谈客户——客户都是既要又要的;也不要做市场调研,但要想清楚每一层该做啥,不应该做啥,要学会舍弃。不然就像Sergey Levine的那篇文章里所讽刺的:“如果你是麦当劳里的勺叉,不仅在喝汤的时候会漏,还叉不起来鸡块。”既要又要的结果就是个勺叉,咱不当勺叉,咱们当一个好用的叉子就行。

今天跟大家汇报了我们做的生意,也讲了我们对于数据的一些观点,我最后跟大家总结一下,诺亦腾机器人(Noitom Robotics)不是一家设备公司。我们卖设备,就是交个朋友,毛利不重要,价格不重要。大家需要的话就来找我们买设备,还可以给你们做系统集成,主要是大家开心就好。

诺亦腾机器人也不是一家项目公司,因为我们是一个数据公司,有自己的数据集,但我们有设备,也能做项目,如果你的项目足够大的话,也欢迎大家跟我们联系,我姓戴,戴若犁,谢谢大家。