正文
数据成为撬动人形机器人破局的密钥
来源: 中国工业新闻网 2026-06-02 22:01
分享到:

中国工业报 王珊珊 吴晨

大语言模型靠“吃”互联网变聪明,机器人却连“摸”一下东西的数据都缺。2026年,行业终于明白:机器人能不能真正干活,不看电机多牛,而看数据够不够。

ChatGPT为什么那么能聊?因为它把整个互联网上的文字、代码、图片都“吃”进去了——足足几万亿个词,相当于人类有史以来写下的所有东西。

可机器人要的不是文字,也不是图片。它要的是:眼睛看到杯子后,手臂用多大劲儿伸过去,手指用什么角度捏,再感觉到杯子滑不滑,最后把杯子拿起来。这一连串“看-动-感觉”的信息,要精确到同一毫秒,才算一条有用的数据。

为什么人形机器人会面临数据荒

“数据荒不是人形机器人的‘配套问题’,而是决定这个行业能否从‘能动’走向‘会思考’的核心瓶颈。”天娱数科首席数据官吴邦毅接受中国工业报采访时给出了一组惊人的数字:2025年,全行业沉淀下来的有价值数据,有效时长不超过3万小时,而自动驾驶领域已形成百万公里级成熟数据集——具身智能的真实场景数据不足前者的十分之一。

为什么差距如此之大?湖南中财开元私募股权基金高级合伙人、深圳市华雅科技成果转化研究院数据资产专委会副会长胡双接受中国工业报采访时从三个层面拆解了原因:第一,数据的“世界”不同。AI的数据是“纯信息”——文本、图片、视频,是人类思想和信息的直接记录。机器人需要的是“物理交互”数据:看到一张图,以某个速度和角度施加力矩,再感受到反作用力后,进行物体移动。这个闭环链条必须完整,光有视频(只有看,没有摸和动)远远不够。

第二,获取代价天差地别。AI数据几乎是免费的,互联网就是一个自动生成的数据矿。机器人数据极其昂贵,需要硬件、场地、安全监督,数据采集的速度上限就是物理世界的1倍速。机器人没法像AlphaGo那样自我对弈几百万局——一旦动作出错,代价是硬件损坏,不是程序报错。

第三,数据的“体感”无法推断。你看再多别人开瓶盖的视频,也转化不成自己手指的肌肉记忆,这就是“莫拉维克悖论”:对AI来说,困难的逻辑推理反而容易;而我们认为本能的感知和运动技能,对机器人来说需要海量的、第一人称的物理交互数据。

2026年,大家终于意识到,机器人能不能真正干活,瓶颈已经不是电机、减速器、灵巧手这些硬件了——真正的命门,是数据。

每一条高质量的数据都得从零开始生产。有多难?谷歌曾经用13台机器人,在一个厨房里整整忙了17个月,才攒了13万条操作数据。而GPT-4训练用的数据量,换成这种单位,大概是这个数字的几亿倍。

这就是“数据荒漠”的真相。换句话说,我们连“起步”都还算不上。

数据金字塔:越往上越贵,越往下越“水”

为了解决数据荒,行业摸索出四种数据来源,它们像一座金字塔。

顶层,真人“手把手”教——最准,但贵得离谱。最靠谱的办法,就是让真人操作员戴着外骨骼或手柄,远程操控机器人干活。这叫“遥操数据”或“真机数据”。它包含了完整的视觉、力觉、关节位置、控制量——是金字塔尖上的“黄金数据”。

在上海智元机器人的数据工厂。那里有200台机器人,每一台前面坐着一个人,像打游戏一样操控着机器人搬东西、摆字母、叠衣服。

你可别以为这活儿简单。有参观人员试了一下,连让机器人把字母块摆整齐都失败了。一个金牌采集员告诉媒体,这活儿得练一个月才能上手。而且就算是高手,干8小时,也就产出2-3小时的有效数据——中间得换场景、调道具、删掉失败的动作。

算下来,一个小时有效数据的成本要好几百块钱。智元今年能采200万小时,背后是2000台机器人和同样多的采集员。但对此,吴邦毅指出一个更严峻的问题:“数据通用性”极差——目前大部分数据与特定机器人本体强绑定,换一个关节尺寸、力矩参数,数据就失效了。这导致数据复用率低,采集成本居高不下。

胡双把这一层称为“交互行为数据”,并点明它的技术困境:规模化瓶颈。一名熟练操作员一小时只能产生一小时的数据。斯坦福的MobileALOHA系统为了学会挂衣服等任务,需要人反复演示五十次。

第二层,虚拟世界“练功”——无限量,但有“水土不服”。既然真机数据太贵,那能不能让机器人在电脑游戏里练?这就用到“仿真数据”。你在英伟达的仿真软件里,可以同时开几千个虚拟机器人,让它们疯狂练习,想要多少数据就有多少数据。

但问题也随之而来:仿真和现实,差着一层“窗户纸”。胡双解释:“物理引擎无法完美模拟真实世界的摩擦、碰撞、光线等复杂细节。在仿真里练得再好的策略,放到现实中也可能失效。”这就是著名的“Sim-to-RealGap”(水土不服)。

科技部国家科技专家库专家周迪接受中国工业报采访时认为,未来2-3年最该优先突破的就是这个迁移能力。“提升Sim-to-Real能力,能让我们用低成本的仿真数据快速生成海量高质量训练素材,再通过少量真机数据微调,就能让机器人在真实世界里表现良好。”

第三层,动作捕捉——动作漂亮,但“人机不一样”。动作捕捉大家不陌生,就是拍电影那种,演员身上贴满小球,电脑记录他的一举一动。把这些动作“翻译”给机器人,机器人也能跳舞、打拳。

这种数据质量不错,尤其适合复杂动作。但胡双指出它的硬伤:“观察者偏差”——这类数据本质上是“旁观”,不包含任何动作指令和力反馈。而且,人的身体和机器人不一样,这叫“具身鸿沟”。所以动捕数据也被归入“低质量”那一类。

最底层,网上视频——海量,但只能当“预习”。最后一种,就是网上的海量视频——YouTube、抖音,什么都有。机器人看这些视频,就像你看别人打乒乓球的比赛。你看再多,第一次拿起拍子还是接不住球。视频只能帮机器人建立一些基本认知:哦,杯子长这样,开门大概这个动作……但它学不到“怎么用力”“怎么反馈”。

胡双总结:这类数据“不包含任何动作指令和力反馈,从‘看’到‘动’的鸿沟无法直接跨越”。

最有价值的视频,是第一人称视角(像机器人自己眼睛看到的)加上人类主动干活的内容。苹果、英伟达、特斯拉都在拼命收集这类视频。

中国建“工厂”,硅谷走“捷径”

面对这个数据困局,不同地方的公司在走不同的路。

中国公司,比如智元,选择硬扛——直接建工厂,雇人,一条一条采数据。利用人力成本优势,把真机数据的产能做到全球第一。天娱数科也深度参与其中,吴邦毅介绍:“公司在空间智能领域已积累超150万条3D数据及518万条多模态数据,其中10项核心数据集已完成北京国际大数据交易所登记。我们构建的Behavision空间智能MaaS平台,可适配人形机器人、双臂机器人、轮式机器人等多类本体。”

智元还把自己辛苦采的100万条数据免费开源,取名AgiBotWorld。为什么这么大方?因为行业没有公共的测试标准,大家各采各的,谁也不知道谁的方法对。智元说:“我们来种第一棵树。”结果,英伟达后来的机器人模型GROOTN1,训练用的真实数据里80%来自智元的开源数据集。这就是“以数据换生态”。

硅谷公司,则想方设法绕过人工采集。

Physical Intelligence,让机器人在真实的巧克力工厂、办公室里自己试错。机器干错了就重来,自己产生数据。但周迪指出一个核心障碍:奖励函数设计——机器人在真实世界里的失败往往很模糊,拿东西没拿稳,到底是力度不够、角度不对还是感知偏差?很难设计出精准的奖励信号来引导学习。

Figure AI,跟全美最大的公寓管理公司合作,让人戴着摄像头在真实的家里录视频,然后用这些视频训练机器人。

Sunday Robotics,直接花钱请普通人在家录自己做家务的视频。

两种路线谁对谁错?还需拭目以待。

破题路径:黄金配方与数据飞轮

单一方法无法解决问题,需要组合拳。周迪给出了一个未来的“黄金配方”:互联网视频数据占70%左右,用来注入通用物理常识和人类行为模式;仿真合成数据占25%,负责覆盖长尾边界和危险场景;真机遥操和动作捕捉数据加起来占5%,主要用于垂直场景微调。这种混合模式既能保证数据规模,又能控制成本,还能通过不同层级数据的互补提升整体质量。

那么,具身智能会不会像大语言模型一样,遵循“数据越多、模型越大、智能越强”的Scaling Law(规模化法则)?周迪的判断是:大概率会。“清华大学和GeneralistAI的研究已经发现了机器人领域的智能阈值和幂律扩展现象,证明数据量和模型规模的增长确实能持续提升性能。”但要形成真正的“数据飞轮”,还需要三个关键突破:一是高质量数据闭环,让机器人在真实部署中自动收集失败案例并高效回流;二是具身大模型与物理世界的深度融合;三是低成本高可靠的硬件平台,支撑大规模部署和数据采集。

吴邦毅同样强调,不能靠“堆人堆设备”的线性思维,而要靠“架构创新”的指数思维。具体路径包括:用大模型自动化采集、清洗、标注,将数据生产效率提升3-4倍;仿真-真机混合训练,科学配比;以及通过数据资产交易平台推动数据要素流通与价值变现。

目前,部署出去的机器人,大概只有不到5%的数据会被回传——而且主要是失败案例。智元机器人合伙人&具身智能业务部总裁、觅蜂科技董事长&CEO姚卯青对媒体表示:“机器人不一样。你问ChatGPT一个问题,它答得不太对,你可能就算了。但机器人在工厂里打螺丝,差一毫米都不行。它必须在真实部署中不断遇到失败,把这些失败数据收回来训练,才能越来越强。”

如果把有效真机数据积累到1亿小时,会不会出现智能“涌现”?没有人知道答案。但大家都在拼命往那个方向跑。

PI的创始人SergeyLevine算了一笔账:美国有1万家麦当劳,如果每家放一台机器人,每天工作两小时,一年就能产生1000万小时的数据——比现在全球所有机器人数据加起来还多几个数量级。

智元已经下线了1万台机器人。京东启动了一场“千万小时级”的数据采集行动,动员了60万人。数据,正在成为机器人行业最值钱的“石油”。

抓、放、拧、插,每一帧数据,都是机器人理解物理世界的一小块拼图。数据荒漠里,终于有人开始种树了。能不能长成森林,还要看这颗“数据种子”到底能不能深深扎根。

【作者:王珊珊,吴晨】
【编辑:龚忻】