中国工业报 王珊珊
2026年的具身智能行业,正从“讲故事”切换到“拼交付”模式。世界模型取代VLA成为技术风口,各家忙着晒榜单;投资人的关注点也从“技术多酷”转向“能卖多少”。另一边,真实机器人数据的采集又慢又贵,仿真数据到底靠不靠谱,争议一直没停过。
行业吵得热闹,但有一家深圳公司已经悄悄跑出了自己的节奏。
跨维智能刚完成新一轮融资,由成都科创投、洪泰基金领投,天鹰资本、四川院士基金、南山战新投、一村淞灵、探元创投等跟投,老股东联想创投继续加码。这家公司2025年营收已经过亿,2022年到2024年每年增速都超过100%,2026年预计还要翻三四倍。联想创投投资负责人评价其为“赛道罕见的既仰望星空(技术超前)又脚踏实地(商业落地)的企业”。
6月25日下午,中国工业报与跨维智能创始人贾奎携团队进行了一张关于世界模型、数据策略与商业模式的深度交流,聊了聊他们对技术和商业的判断:具身智能想真正落地,模型得换思路,数据得换用法,收费也得换逻辑。
世界模型之争
世界模型现在很火,但到底什么样才算“对”的世界模型,业内根本没共识。
贾奎说得很直白:行业这两年已经发现,之前主流的VLA(视觉-语言-动作模型)这条路有问题——“它本质上就是一个捷径学习,看见什么就直接猜动作,中间不经过真正的推理。”他打了个比方,这种学习方式效率极低,跟正确的方法比,可能差出几千倍甚至几万倍。
贾奎表示可以做两个核心:第一,模型脑子里的“想象空间”必须建立在真实的三维物理世界上,不能只是二维画面;第二,模型得能把各种乱七八糟的数据——图像、力度、电机信号——都整合到一起用。
近期,跨维智能发布的DEXBEV技术,就是把自动驾驶里的BEV(鸟瞰视角)思路升级到了三维物理世界。“物理世界是三维的,不是照片。”贾奎说,“杨立坤(YannLeCun)那套想法方向对,但他建模的方式还是没真正抓住三维物理世界的本质。”杨立坤(YannLeCun)的方法,核心就是不预测像素,只预测“抽象特征”。打个比方:传统的生成式模型(像Sora)预测未来,就像要求一个人必须背下未来每一帧画面里每个像素的颜色。而杨立坤的方法,是让AI只看“大概发生了什么”,总结成几个关键词,然后基于这些关键词去推理下一步。他具体实现这一想法的架构叫做JEPA(联合嵌入预测架构)。
数据怎么来:不是比例问题,是分工问题
数据是另一个让行业头疼的事。现在大家普遍用真人遥控机器人采集数据,一天一个人只能采100到150条,想靠这个喂出通用模型,“得干十万年”——这是贾奎的原话,也是加州大学伯克利分校(UCBerkeley)的KenGoldberg教授。在2026年IEEE国际机器人与自动化会议(ICRA2026)上发表的主旨演讲中提出相同判断。
NVIDIA高级研究科学家JimFan也给出了相似的判断。他认为,过去几年由遥操作主导的机器人数据采集方式“正在接近上限”。遥操数据与机器人本体高度对齐、质量高,但成本、效率和规模都受制于真实机器人系统本身。要让机器人训练进入基础模型级别的数据规模,行业需要全新的数据来源。他预判,未来一到两年,遥操占比会降到几乎可以忽略不计,机器人的“主食”将变成第一视角人类视频。
国内头部具身智能企业银河通用的联合创始人张直政指出,具身智能与多模态大模型最大的不同在于“它无法直接从互联网获取数据”。行业早期采用遥操作方式采集数据,但发展到目前,“这种方式已经无法获取足够大量、足够具备多样性的数据”。他给出的判断是,具身世界大模型对数据规模的要求比通用大模型更高,“需要上万亿条数据,模型才能与环境真正交互、形成生产力”。银河通用的解决方案是仿真合成,其搭建的物理真实仿真合成管线,已在零售、工业等场景落地验证。
北京大学助理教授、智源具身智能研究中心主任王鹤主张采用“合成数据为主、真实数据校准”的训练范式,通过十亿级高质量仿真数据训练的端到端模型,可实现零样本泛化,已在零售、工业等场景逐步落地。
一个清晰的信号正在发出:依赖真人遥控机器人采集数据的时代正在过去。行业正在从遥操数据转向仿真合成数据、传感化人类数据(第一视角视频、动作捕捉等)以及真实部署闭环中的数据回流。
贾奎把机器人的“聪明程度”分成两种:一种是语义泛化性,就是机器人看到东西能认出它是什么、知道该怎么处理,这部分需要真实数据(本质上就是人的操作数据);另一种是物理泛化性,就是东西换了个位置、换个颜色、换个材质,机器人照样能干,这部分完全可以用仿真数据解决。
“从来不存在仿真数据和真实数据各占多少比例的问题。”贾奎说。真实数据主要用来做“预训练”,让机器人有个基础认知;仿真数据则100%用来做“后训练”,让机器人达到真正能干活的程度——精度高、稳定、不出错。“生成式仿真”:给一张图片或者一句文字描述,系统就能自动生成一个任务环境,然后让AI自己在里面练、自己产生数据、自己优化模型。以前人工搭建50个任务环境可能要几个月,现在几天就能搞定。
在真实数据这块,贾奎表示一年多前就搞了一套方案:人头上戴个摄像头正常干活就行,不用戴手套、不用拿专用夹爪,系统自动追踪手的运动轨迹,一天能采集的数据量比传统方式多得多。目前跨维智能已经在50多个行业落地,部署了超过1500个具身智能模型。在WorldArena这个全球评测里,他们拿下了Track2赛道第一。
商业化落地:一台机器人怎么赚钱
2025年,跨维的人形机器人曾经亮相全球妇女峰会,给彭丽媛教授和多国政要展示做咖啡。但现在,公司已经不太提“咖啡”这回事了。
“我们从来就没把咖啡机当主业。”贾奎说,现在两块业务:一块是用AI能力赋能第三方的工业机械臂,做工厂里的分拣、装配;另一块是用自己的人形机器人做商业服务,比如在景区、商场里干活。
模式上,跨维把装了技能包的机器人卖给运营商,“我们提供技术和本体,让合作伙伴拿它去赚钱,这样才可持续。”
更有意思的是,贾奎提出了一个“物理Token经济学”的概念。什么意思呢?就像现在大语言模型按调用次数收费一样,以后机器人也可以按“干活量”收费——“是机器人在消耗Token,不是程序员在消耗Token”。理想状态是客户买了本体,然后按机器人实际干的活付费。“如果机器人消耗的Token能给客户带来更多价值,我们甚至可以按增量价值来分成。”
贾奎判断,今年会是“人形机器人商业服务真正起量的元年”,机器人的成本要让客户在18到36个月内能收回投资。
客户端
媒体矩阵
企业邮箱