具身智能告别“炫技时代”：仿真数据跑通商业闭环

来源: 中国工业新闻网 2026-06-27 21:10

分享到：

中国工业报 王珊珊

2026年的具身智能行业，正从“讲故事”切换到“拼交付”模式。世界模型取代VLA成为技术风口，各家忙着晒榜单；投资人的关注点也从“技术多酷”转向“能卖多少”。另一边，真实机器人数据的采集又慢又贵，仿真数据到底靠不靠谱，争议一直没停过。

行业吵得热闹，但有一家深圳公司已经悄悄跑出了自己的节奏。

跨维智能刚完成新一轮融资，由成都科创投、洪泰基金领投，天鹰资本、四川院士基金、南山战新投、一村淞灵、探元创投等跟投，老股东联想创投继续加码。这家公司2025年营收已经过亿，2022年到2024年每年增速都超过100%，2026年预计还要翻三四倍。联想创投投资负责人评价其为“赛道罕见的既仰望星空（技术超前）又脚踏实地（商业落地）的企业”。

6月25日下午，中国工业报与跨维智能创始人贾奎携团队进行了一张关于世界模型、数据策略与商业模式的深度交流，聊了聊他们对技术和商业的判断：具身智能想真正落地，模型得换思路，数据得换用法，收费也得换逻辑。

世界模型之争

世界模型现在很火，但到底什么样才算“对”的世界模型，业内根本没共识。

贾奎说得很直白：行业这两年已经发现，之前主流的VLA（视觉-语言-动作模型）这条路有问题——“它本质上就是一个捷径学习，看见什么就直接猜动作，中间不经过真正的推理。”他打了个比方，这种学习方式效率极低，跟正确的方法比，可能差出几千倍甚至几万倍。

贾奎表示可以做两个核心：第一，模型脑子里的“想象空间”必须建立在真实的三维物理世界上，不能只是二维画面；第二，模型得能把各种乱七八糟的数据——图像、力度、电机信号——都整合到一起用。

近期，跨维智能发布的DEXBEV技术，就是把自动驾驶里的BEV（鸟瞰视角）思路升级到了三维物理世界。“物理世界是三维的，不是照片。”贾奎说，“杨立坤（YannLeCun）那套想法方向对，但他建模的方式还是没真正抓住三维物理世界的本质。”杨立坤（YannLeCun）的方法，核心就是不预测像素，只预测“抽象特征”。打个比方：传统的生成式模型（像Sora）预测未来，就像要求一个人必须背下未来每一帧画面里每个像素的颜色。而杨立坤的方法，是让AI只看“大概发生了什么”，总结成几个关键词，然后基于这些关键词去推理下一步。他具体实现这一想法的架构叫做JEPA（联合嵌入预测架构）。

数据怎么来：不是比例问题，是分工问题

数据是另一个让行业头疼的事。现在大家普遍用真人遥控机器人采集数据，一天一个人只能采100到150条，想靠这个喂出通用模型，“得干十万年”——这是贾奎的原话，也是加州大学伯克利分校（UCBerkeley）的KenGoldberg教授。在2026年IEEE国际机器人与自动化会议（ICRA2026）上发表的主旨演讲中提出相同判断。

NVIDIA高级研究科学家JimFan也给出了相似的判断。他认为，过去几年由遥操作主导的机器人数据采集方式“正在接近上限”。遥操数据与机器人本体高度对齐、质量高，但成本、效率和规模都受制于真实机器人系统本身。要让机器人训练进入基础模型级别的数据规模，行业需要全新的数据来源。他预判，未来一到两年，遥操占比会降到几乎可以忽略不计，机器人的“主食”将变成第一视角人类视频。

国内头部具身智能企业银河通用的联合创始人张直政指出，具身智能与多模态大模型最大的不同在于“它无法直接从互联网获取数据”。行业早期采用遥操作方式采集数据，但发展到目前，“这种方式已经无法获取足够大量、足够具备多样性的数据”。他给出的判断是，具身世界大模型对数据规模的要求比通用大模型更高，“需要上万亿条数据，模型才能与环境真正交互、形成生产力”。银河通用的解决方案是仿真合成，其搭建的物理真实仿真合成管线，已在零售、工业等场景落地验证。

北京大学助理教授、智源具身智能研究中心主任王鹤主张采用“合成数据为主、真实数据校准”的训练范式，通过十亿级高质量仿真数据训练的端到端模型，可实现零样本泛化，已在零售、工业等场景逐步落地。

一个清晰的信号正在发出：依赖真人遥控机器人采集数据的时代正在过去。行业正在从遥操数据转向仿真合成数据、传感化人类数据（第一视角视频、动作捕捉等）以及真实部署闭环中的数据回流。

贾奎把机器人的“聪明程度”分成两种：一种是语义泛化性，就是机器人看到东西能认出它是什么、知道该怎么处理，这部分需要真实数据（本质上就是人的操作数据）；另一种是物理泛化性，就是东西换了个位置、换个颜色、换个材质，机器人照样能干，这部分完全可以用仿真数据解决。

“从来不存在仿真数据和真实数据各占多少比例的问题。”贾奎说。真实数据主要用来做“预训练”，让机器人有个基础认知；仿真数据则100%用来做“后训练”，让机器人达到真正能干活的程度——精度高、稳定、不出错。“生成式仿真”：给一张图片或者一句文字描述，系统就能自动生成一个任务环境，然后让AI自己在里面练、自己产生数据、自己优化模型。以前人工搭建50个任务环境可能要几个月，现在几天就能搞定。

在真实数据这块，贾奎表示一年多前就搞了一套方案：人头上戴个摄像头正常干活就行，不用戴手套、不用拿专用夹爪，系统自动追踪手的运动轨迹，一天能采集的数据量比传统方式多得多。目前跨维智能已经在50多个行业落地，部署了超过1500个具身智能模型。在WorldArena这个全球评测里，他们拿下了Track2赛道第一。

商业化落地：一台机器人怎么赚钱

2025年，跨维的人形机器人曾经亮相全球妇女峰会，给彭丽媛教授和多国政要展示做咖啡。但现在，公司已经不太提“咖啡”这回事了。

“我们从来就没把咖啡机当主业。”贾奎说，现在两块业务：一块是用AI能力赋能第三方的工业机械臂，做工厂里的分拣、装配；另一块是用自己的人形机器人做商业服务，比如在景区、商场里干活。

模式上，跨维把装了技能包的机器人卖给运营商，“我们提供技术和本体，让合作伙伴拿它去赚钱，这样才可持续。”

更有意思的是，贾奎提出了一个“物理Token经济学”的概念。什么意思呢？就像现在大语言模型按调用次数收费一样，以后机器人也可以按“干活量”收费——“是机器人在消耗Token，不是程序员在消耗Token”。理想状态是客户买了本体，然后按机器人实际干的活付费。“如果机器人消耗的Token能给客户带来更多价值，我们甚至可以按增量价值来分成。”

贾奎判断，今年会是“人形机器人商业服务真正起量的元年”，机器人的成本要让客户在18到36个月内能收回投资。

【作者：王珊珊】

【编辑：龚忻】

登录中国工业报新闻网

登录中国工业新闻网

找回密码