具身智能“数据荒”，催热“卖水人”

来源：盖世汽车

2026-03-19 07:30:23

（原标题：具身智能“数据荒”，催热“卖水人”）

近日，灵初智能和光轮智能相继宣布完成20亿元及10亿元融资。

作为两家新晋“独角兽”企业，光轮智能主攻支撑物理AI生态运行的仿真与数据基础设施，灵初智能则致力于攻克灵巧操作难题，用自研的数采引擎将数据采集成本砍至“骨折”。换言之，在核心业务上，这两家公司均聚焦于底层的数据基建。

那么，在各种机器人本体百花齐放的当下，资本为何纷纷开始重注赛道的“买水人”？

答案藏在一个行业共识里：数据，正在成为具身智能发展的“命门”。

如果说算法是机器人的“大脑”，硬件是“骨骼”，那么数据就是流淌其间的“血液”——没有血液，大脑的指令传不到四肢，四肢的反馈回不到大脑，整个系统将陷入瘫痪。

伴随着具身智能从概念验证快速走向规模化落地，当前行业的竞争主轴正在悄然移位，从“本体秀”进入“数据战”。

数据饥渴：具身机器人的“成长之困”

在AI的世界里，所有智能都源于数据的“喂养”。

回顾过去几年大语言模型能力的涌现，正是建立在海量互联网文本之上。同理，具身智能机器人想要实现真正意义上的“通用”，也必须用海量的数据去驱动“大脑”。

“很多团队以为具身模型训不出来是卡在训练阶段，实际多数问题在数据生成的起点就已经埋下了，后面再堆模型、堆算力，只是在给错误输入继续加速。”此前，在谈及具身智能数据重要性时，鹿明机器人CTO丁琰就如是说。

不仅如此，对于具身智能而言，数据规模越大、质量越高，模型的泛化能力和操作精度就越强。没有数据，再先进的算法、再精密的硬件，都只是没有灵魂的空壳。

然而，与大语言模型可以从互联网上低成本甚至免费获取数据不同，具身智能所需的数据因其多方面的独特性，大规模获取并不容易。

图片来源：灵初智能

首先，是数据模态的复杂性。

不同于大语言模型，具身智能需要的是机器人在真实物理世界中与环境互动产生的多模态数据，这不仅包括图像、视频，还需要力觉、触觉、听觉等多种传感器的实时反馈，以及机器人自身的运动学、动力学参数。这种多维度数据的同步采集和标注，比单纯的文本或图像处理复杂得多。

其次，是应用场景的开放性与多样性。

具身智能需要面对的环境覆盖家庭、工厂、商场、户外等多个不同类型的三维空间，涉及的交互对象既包括静态的物体，也包括动态的人类和其他生物，并且不同场景下的物理交互方式、物体属性、环境特征千差万别，物体的材质、形状、光照条件、甚至微小的干扰因素，都会对数据产生显著影响，由此使得数据的采集、标注和处理难度也呈几何级增长。

例如，为了教会机器人完成一个简单的拧瓶盖动作，可能就需要在不同光照、不同瓶型、不同握持力度下进行成百上千次的尝试和数据记录，每一次尝试都需要专业的设备和人工配合。

再者，是数据的闭环时序性。

与自动驾驶一样，具身智能需要的数据也是“状态-动作-新状态”的连续闭环序列，因为机器人每个动作都会改变环境，模型必须学会根据新状态调整下一步动作。这意味着，采集数据时不仅要记录动作，还要同步记录环境变化和决策过程，这也导致技术实现难度指数级上升。

还有数据与硬件的强耦合关系，也是制约具身数据发展的关键瓶颈。

图片来源：智元机器人

具身数据存在“数据跟着本体走”的现象，不同型号机器人的传感器布局、算法差异，导致采集的数据往往会格式互不兼容。比如，工厂流水线上的装配数据无法直接迁移到家庭服务场景，另外，不同品牌、型号的机器人硬件参数差异也会导致数据兼容性差。

全国政协委员贺晗此前就直言，目前国内各研究机构和企业的数据采集平台、传感器接口、数据格式各自为战，形成了大量“数据孤岛”。这种碎片化现状，导致数据难以共享和复用，行业缺乏具有广泛共识的高质量、大规模开源数据集，严重制约了技术进步。

而即便跨越了采集门槛，后续的数据清洗、标注同样是“深坑”——第一人称视频需要拆解为原子动作片段，力觉数据需要对齐时序，3D点云需要位姿标注，这每一项都需要耗费大量的人力和时间成本。

然而目前的现实是，现有标注工具多侧重于静态图像或简单视频标注，难以高效支持VLA模型对长序列、3D空间和物理动态标注的需求。

正是由于上述多重挑战，目前具身智能行业整体面临巨大的数据缺口。据全球知名中文IT技术交流平台CSDN的数据显示：具身智能需要数百PB级物理交互数据，当前存量缺口超99%。

如此显著的数据鸿沟下，数据采集早已不再是锦上添花的辅助工作，而是决定行业向下一阶段进阶的关键战役。特别是如何低成本、高质量、高效率地打通数据管道，已成为具身智能从实验室走向真实世界必须跨越的关键隘口。

四大流派，逐鹿具身数据“金矿”

毋庸置疑，在具身智能领域，数据正成为决胜下一阶段竞争的关键锚点。

借鉴自动驾驶领域的技术演进范式，不难预测在具身智能赛道，谁能率先跑通“采集-训练-落地-反馈”的数据闭环，谁就能在模型迭代速度上形成代际优势，并且这种优势一旦确立，后来者想要追赶十分困难。

正因如此，面对同一道“数据难题”，不同企业依据各自的技术基因，纷纷给出了差异化的解题思路，由此形成了四条主流技术路线。每条路线都在“数据质量”与“获取成本”之间做出了不同的权衡取舍，如同四支勘探队，从不同方向向着同一座“金矿”掘进。

第一种技术路线是遥操作采集，即通过人类操作员远程控制机器人完成特定任务，从而记录下关节角度、末端位姿、相机图像以及力传感器等数据。

图片来源：智元机器人

智元机器人在上海打造的数据采集工厂与应用实验基地，就是这一路线的典型代表。依托该基地，智元的AgiBot World数据集深度复刻了家居、餐饮、工业、商超和办公五大核心场景，包含数百种真实子场景与3000多种真实物品，为机器人研发和测试构建了实现具身智能的必要条件。

但这同时也是一条极为“烧钱”的路线，主打以高成本换取高质量。

“遥操作数据采集能够提供高质量真实机器人操作数据，对模型起到有效的训练效果，”日前，在盖世汽车第四届具身智能机器人产业发展论坛上，穹彻智能研究科学家吕峻如是说。但他同时也直言，遥操作数据采集的局限也很明显，总结下来主要有三点：

第一，成本极为高昂，因为需要配套昂贵的机器人本体与遥操作设备；

第二，操作难度很大，据相关调研显示，约1/3的普通受试者首次使用遥操作设备时无法完成对应任务，即便完成任务的受试者，操作速度也普遍很慢，并且带有明显的机械感；

第三，遥操作还存在一个无法克服的缺陷：真实世界的背景多样性、物体多样性与数采工厂往往存在巨大的差异，这会使得采集到的数据与真实世界偏差较大，从而导致模型在真实场景中的表现较为糟糕。

简言之，遥操作采集虽然是具身数据的“黄金标准”，但因其高成本、低效率，注定难以快速大规模铺开。

相较于遥操作采集的“重投入”，第二种路线——仿真合成数据，则试图用无限虚拟空间对抗真实世界的长尾难题。

所谓仿真合成数据，即通过物理仿真引擎，在虚拟环境中生成机器人与环境交互的数据。这条路线的优势在于单条数据成本更低、更容易规模化，环境高度可控，且场景几乎能无限扩展。

银河通用便是这条路线坚定的支持者。

基于“以合成仿真数据为主、真机数据为辅”的虚实融合训练范式，银河通用已经构建了百亿级具身智能数据集。按照其说法，该方案实现了仅需少量样本甚至零样本即可让人形机器人对新场景、新物体“举一反三”的泛化能力，在实现机器人训练效率比特斯拉高1000倍的同时，基于该数据集训练的模型成功率达到99%。

近期刚刚拿到10亿元融资的光轮智能，采用的也是这一路线。

图片来源：光轮智能

在光轮智能CEO谢晨看来，当前机器人领域存在巨大的数据短缺，但与大语言模型不同，现实世界中没有足够的机器人持续采集数据，因此必须在仿真环境中，通过人类遥操生成足够的数据来训练机器人基础模型。

光轮智能认为，在物理AI时代，仿真世界、行为数据与评测体系正在成为新的技术底座。

为此，光轮智能以世界、行为、评测三层架构为核心，构建了一套覆盖从物理真实仿真、规模化数据生产到模型能力评测的完整链路。其中在数据环节，光轮智能构建了大规模非本体数据引擎，覆盖仿真合成数据与人类视频数据两大路径，目前已在全球范围内规模化交付。

跨维智能更是大胆假设，仅凭100%的生成式仿真数据，只要生成速率突破临界点，机器人就能在真实世界中涌现出超越SOTA的泛化能力。

尽管如此，这并不能完全掩盖仿真合成的缺陷：虚拟环境的状态过于理想化，并且无法完美模拟真实物理规律，由此导致一些模型在仿真中虽然学到了很好的策略，但迁移到实体机器人时性能容易衰减，这就像在游戏里考了满分，到了真实考场却不及格。

因此业界普遍认为，仿真合成最终还是必须结合真机数据，才能真正解决“最后一公里”问题。在银河通用的方案里，就是先让机器人在虚拟世界中遍历各种极端情况，再以极少量真机数据完成实战打磨。

如果说，仿真合成是在虚拟世界中构建“练兵场”，那么第三种路线便携采集（UMI），则相当于随身携带了一个“数据记录仪”，让数据采集可以更好地突破场景限制。

UMI数据采集，即通过手持集成了夹爪、鱼眼相机、IMU等的轻便设备，在真实环境中演示操作，实时记录下操作过程中的力反馈、图像信息、运动轨迹等关键数据，从而将数据解耦后供不同机器人学习。

相较于同样是采集真实场景数据的遥操作方案，UMI便携式采集硬件成本更低，数据采集效率更高，且跨本体可复用，可以极大地提升数据的复用价值。

图片来源：灵初智能

鹿明机器人、它石智航、灵初智能、穹彻智能等，以及国外的Sunday Robotics、Generalist等，都是这一技术路线的践行者。

其中，灵初智能自研的具身原生人类数据采集方案Psi-SynEngine，可以直接采集一线作业人员在真实工作中的操作数据，覆盖物流、工厂、商超、酒店和家庭等真实场景，并且无需二次迁移。

不过与传统UMI方案主要使用夹爪不同，灵初智能的Psi-SynEngine末端搭配的是便携式外骨骼触觉手套数采套装，即便如此据悉该方案的综合成本也已经降至真机遥操作方案的十分之一左右。在此基础上，未来灵初智能还计划推出可携带的便携式众包版本，有望让成本进一步下降。

而穹彻智能的RoboPocket，通过复用智能手机成熟的硬件生态，更是让每一位普通用户都可以成为数据采集的参与者。

图片来源：穹彻智能

该方案利用手机内置的RGB相机、深度相机及传感器，替代传统昂贵且笨重的专业采集设备，实现了从“定点采集”到“随时随地采集”的范式转变。据穹彻智能此前公布数据，RoboPocket自今年初正式发布并启动规模化交付以来，首月即成功签约数百套订单。

其后，穹彻智能通过与头部二手电子产品平台达成深度合作，实现了极致的成本与效率平衡。据悉，按照严苛的12个月折旧计算，该方案硬件成本仅占数据采集成本的3.5%。

但UMI也有其“阿喀琉斯之踵”——数据质量治理。由于缺乏对数据采集过程的监管，这一路线下很多设备采出的数据，可能存在无法用于训练的情况，需要严苛的数据治理流程。

吕峻就坦言，按照3月第一周该公司设备上海数据采集情况，以单日8小时工作时长计算，其RoboPocket最新单人单日有效数据采集量平均值约3小时。

第四种是人类视频学习，即让机器人像人类一样“看视频学习”，这种方式的优势在于成本更低，更容易大规模获取真实场景数据。

代表企业如特斯拉，早期曾花大量时间和金钱在真实数据采集上，去年5月，特斯拉宣布Optimus将告别传统的动作捕捉和远程操控训练方式，转向基于视频数据的“纯视觉”AI训练模式，从而提升数据收集效率、提升训练规模。

图片来源：枢途科技

枢途科技的SynaData解决方案，也是这一路线的典型代表。该方案开创了从互联网单目视频中提取多模态训练数据的新路径，据称将具身智能数据综合采集成本降至了行业平均水平的千分之五，有效解决了行业长期面临的数据成本与质量困境。

除此之外还有跨维智能、逐际动力、千寻智能等，都不同程度采用了视频学习方式，进行具身智能训练。

纵使如此，视频学习的缺陷同样不容忽视：信息密度相对较低，缺乏力觉、触觉等关键交互信号，需要强大的后处理技术将视频转化为训练数据。

结语

从智元的遥操作工厂到银河通用的仿真帝国，从穹彻智能的RoboPocket到枢途科技的视频学习，不同的数据路线凭借各自不同的优劣势，共同构成了当前具身数据领域多元发展的生态图景。

其中不少头部企业甚至同时布局了多种技术路线，这种“多线并举”的策略，恰恰印证了一个事实：具身智能领域这场围绕数据的“掘金之战”，远未进入终局。

接下来，随着技术的不断演进和实践深入，各技术流派有望进一步融合创新，比如根据不同阶段、不同项目或者不同成本预算，选取合适的采集方式组合，抑或催生新的数据范式。

最终，这场“数据战”的胜负手，或许并不在于某条技术路线的单点突破，而在于谁能率先跑通“采集—训练—部署—反馈”的完整闭环。

询价

特别推荐

依赖授权难稳营收，管线研发“烧钱”不止，益方生物赴港上市“补血”

证券之星资讯

2026-03-19

算力需要有望进一步提升，莲花控股股价涨停

证券之星资讯

2026-03-19

重罚！监管层重磅出手

证券之星资讯

2026-03-18

询价信息已提交

确定

首页股票财经基金导航

举报专区联系我们

具身智能“数据荒”，催热“卖水人”

相关阅读

特别推荐