近日,具身智能领域的真实数据采集技术迎来重要突破。蚂蚁数科天玑实验室团队推出了一款名为AoE(Always-OnEgocentric)的持续性第一人称视频采集框架,以低成本、轻量化的方式,为具身智能的数据采集提供了全新解决方案。只需一部手机和一个成本低于20美元的颈挂式支架,即可替代以往动辄数万美元的专业采集设备,有效化解了具身数据采集成本高昂、规模化难的行业难题。相关技术论文已在Arxiv平台发布。
随着基础模型的持续演进,模型的泛化能力与跨场景适应性愈加依赖于真实世界交互数据的规模、质量与覆盖广度。AoE的核心创新在于将“人+手机”转化为可持续运行的轻量数据节点。其载体是一款符合人体工学的颈挂式支架,通过机械夹具或磁吸等方式将手机稳固于胸前,持续采集贴近用户视角的第一人称画面,从而完整记录人类在自然交互过程中的操作细节。
在技术表现上,AoE方案实现了毫米级的轨迹跟踪精度与超过90%的手部关键点识别准确率,并支持数千台设备并行采集与云端自动化处理。以宇树G1机器人执行关电脑任务为例,仅依靠50条遥操作数据时成功率为45%,引入200条AoE采集的真实数据后,成功率提升至95%。在数据匮乏的情况下,AoE发挥了关键的“启动学习”作用,有效支撑模型从零开始构建基础能力。
低成本采集仅为起点。研究团队进一步攻克了“长视频转化为训练数据”的技术难关。该方案依托端侧轻量级视觉模型,自动识别手物交互行为并触发录制;随后借助大语言-视觉模型,将连续视频切分为带有语义标签的原子动作片段;最终通过云端自动标注、清洗与过滤,将原始视频转化为高质量、标准化的训练数据集。
此外,AoE构建了一套完整的端云协同体系,实现了从数据采集、预处理、清洗、筛选到调度的全流程自动化,有效降低人工介入的同时,大幅提升了整体数据处理的吞吐量与效率。
客户端
媒体矩阵
企业邮箱