两周前,OpenAI宣布将重启其于2021年关闭的机器人项目,这标志着顶尖AI实验室正竞相教机器在现实世界中操作。然而,打造高效机器人需要一个AI行业尚未具备的关键资源——与语言模型训练数据相匹配的机器人训练数据。
这一缺口催生了一种全新的基础设施业务。与基于大量公开文本训练的大型语言模型不同,机器人需要捕捉物理交互的数据,而这类数据几乎不存在。YouTube视频和零工拍摄的素材质量低且难以与物理世界对应。
新晋创业公司XDOF(发音为“ecks-doff”)今日正式亮相,押注AI的下一个瓶颈不是模型或芯片,而是教机器人如何与物理世界互动所需的数据反馈循环。
该公司致力于构建数据管道、采集工具和标注系统,帮助前沿实验室和机器人公司解决难以自行搭建的数据基础设施问题。XDOF已获得Thrive Capital、Spark Capital、a16z、Lux和WndrCo共7000万美元融资。联合创始人兼CEO Philipp Wu透露,XDOF拥有约60名员工,已与20家客户合作,其中包括多家顶尖AI实验室,但尚未公开具体名称。
“所有顶尖实验室都在追求机器人技术,”Wu表示,“我们已经看到语言模型竞赛中稍有落后的后果……你不想在这项技术上追赶得太晚,因为物理AI是下一片蓝海。”
Wu在加州大学伯克利分校攻读博士时亲身经历了这一难题。他的研究方向是让机器人从大规模数据集中学习技能,但问题是缺乏大规模数据。
“这是个鸡生蛋还是蛋生鸡的问题——我们必须先采集数据,才能探讨如何训练机器人基础模型,”Wu告诉TechCrunch。
Wu和未来的XDOF联合创始人兼CTO Fred Shentu开发了GELLO项目,一种低成本远程操作系统,允许人类操作者控制机械臂生成训练数据。“这篇论文在机器人领域影响深远,许多人面临类似瓶颈,纷纷采用这类设备进行数据采集,”Wu说。
意识到机遇后,Wu、Shentu和第三位联合创始人兼COO Nemo Jin于2024年10月创立XDOF,旨在为机器人模型研发提供完善的数据生态系统。公司不仅提供数据采集,还专注于数据清洗、工具开发和标注,打造机器人训练的自我强化反馈循环。

作为起点,XDOF与伯克利AI研究实验室合作,发布了迄今为止最大规模的高质量机器人训练数据集,名为ABC。该数据集包含13万个机器人操作轨迹、300小时模拟数据和100小时评估数据,规模之大前所未有。
“在语言、图像生成等领域,我们看到模型和数据一旦公开,社区能取得意想不到的成果,”参与数据发布的伯克利博士生David McAllister告诉TechCrunch。
团队已利用这些数据训练机器人完成折叠T恤、压平纸箱、将AirPods放入充电盒等基准任务。
无限自由度
XDOF计划在数据金字塔的三个层级展开工作。最高价值层级是针对实际部署机器人采集的远程操作数据;其次是通过远程操作机器人采集的更通用数据,如GELLO项目;最后是由人类执行日常任务时采集的“第一视角”数据,XDOF计划开发自有可穿戴传感器进行采集。
“摄像头的选择会影响数据质量,进而影响手部追踪算法的表现,”Wu说,“如果硬件设计不合理,采集的数据可能会出现预料之外的问题。”
公司计划在全球范围内招聘并培训大量远程操作员和第一视角数据采集员。这种劳动密集型模式引发疑问:为何大型实验室不自己做数据生产?
“你需要一个数十万平方英尺的仓库,配备数百台机器人,”Wu解释,“还要维护机器人,校准物理参数,培训操作员。”
这需要专注、资金和运营规模,大多数AI实验室更愿意外包,这正是XDOF瞄准的市场。
XDOF的名称来源于机器人学中的“自由度”(degrees of freedom)概念,指机器人可执行的独立运动数量。人的手臂从肩膀到手腕有七个自由度,类人机器人公司Figure AI的最新机器人拥有30个自由度。XDOF中的“X”代表其雄心:“任意自由度,无限自由度。”Wu说。


