总部位于旧金山、成立仅两年的机器人初创公司Physical Intelligence近日发布了最新研究成果,展示了其最新模型π0.7能够指导机器人完成从未明确训练过的任务——这一能力甚至让公司的研究人员感到意外。

该模型被公司视为通用机器人大脑的早期但重要一步,目标是让机器人能够面对陌生任务,通过自然语言指导完成操作。如果研究结果经得起验证,这意味着机器人AI可能正接近一个类似于大型语言模型出现时的拐点——能力开始以超出数据本身预测的方式复合增长。

论文的核心主张是“组合泛化”能力,即将不同环境中学到的技能组合起来解决模型未曾遇见过的问题。此前,机器人训练通常依赖于机械记忆:针对特定任务收集数据,训练专用模型,然后为每个新任务重复此过程。Physical Intelligence表示,π0.7打破了这一模式。

公司联合创始人、加州大学伯克利分校教授Sergey Levine指出:“一旦模型跨越了只能完成训练数据中任务的门槛,开始以新的方式重新组合技能,能力的提升就不再是线性的。这种更有利的扩展特性我们在语言和视觉领域也见过。”

论文中最引人注目的演示是模型对一款空气炸锅的操作。训练数据中几乎没有相关内容:只有两段相关片段,一段是另一台机器人推关闭空气炸锅,另一段是开源数据集中机器人根据指令将塑料瓶放入空气炸锅。模型却能将这些零散信息与更广泛的网络预训练数据融合,形成对该设备工作原理的功能性理解。

Physical Intelligence研究员、斯坦福计算机科学博士生Lucy Shi表示:“很难追踪知识的具体来源,也难以预测模型何时成功或失败。”尽管如此,模型在没有任何指导的情况下尝试用空气炸锅烹饪红薯,表现尚可;在逐步的口头指导下——类似于人类向新员工解释任务的方式——模型成功完成了操作。

这种指导能力尤为重要,因为它意味着机器人可以在新环境中部署,并通过实时指导改进,而无需额外收集数据或重新训练模型。

研究人员坦言模型仍有局限,且不愿过早下结论。Shi提到,有时失败并非机器人或模型的问题,而是团队在提示工程上的不足。她回忆起一次空气炸锅实验,最初成功率仅为5%,经过约半小时优化任务描述后,成功率跃升至95%。

Physical Intelligence机器人模型演示

目前,模型尚不能仅凭单条高层指令自主完成复杂多步骤任务。Levine表示:“你不能简单告诉它‘去帮我烤面包’,但如果逐步引导——‘打开烤面包机这个部分,按那个按钮,做这个动作’——它通常能很好地完成。”

团队也承认,机器人领域缺乏标准化基准,外部验证其成果较为困难。公司采用与自身之前专用模型的对比测试,发现通用模型在制作咖啡、叠衣服和组装盒子等复杂任务上表现相当。

研究最令人注目之处或许不是单个演示,而是结果令研究人员本人感到惊讶——这些人对训练数据内容了如指掌,通常能准确预测模型能力。

Physical Intelligence研究科学家Ashwin Balakrishna说:“我通常不会感到惊讶,因为我深知数据内容。但过去几个月是第一次真正被惊讶。我随意买了一套齿轮,问机器人‘你能转动这个齿轮吗?’结果它成功了。”

Levine回忆起研究人员首次见到GPT-2生成关于“安第斯山脉独角兽”的故事时的震惊:“它到底从哪里学到秘鲁独角兽的?这组合太奇怪了。我认为在机器人领域看到类似现象非常特别。”

当然,批评者会指出语言模型拥有整个互联网作为学习资源,而机器人没有,且再巧妙的提示也无法弥补这一差距。但Levine认为质疑的焦点应转向别处。

他说:“对任何机器人泛化演示的批评总是任务太无聊,机器人没做出翻筋斗之类的动作。我反对这种看法。令人印象深刻的机器人演示和真正泛化的机器人系统之间的区别正是关键。泛化看起来不如精心编排的特技戏剧性,但实用性更强。”

论文中对π0.7的描述谨慎,称其展示了“泛化的早期迹象”和“新能力的初步演示”,属于研究成果而非已部署产品。

当被问及基于这些发现的系统何时能投入实际应用时,Levine拒绝预测:“我认为有理由乐观,进展也比几年前预期的快。但我很难回答具体时间。”

Physical Intelligence迄今已融资超过10亿美元,最新估值达56亿美元。投资者热情部分源自联合创始人Lachy Groom,他曾是硅谷著名天使投资人,支持过Figma、Notion和Ramp等项目,后来决定Physical Intelligence是他一直在寻找的公司。这一背景帮助初创公司吸引了大量机构资金,尽管尚未给出商业化时间表。

据报道,公司正洽谈新一轮融资,估值可能接近翻倍至110亿美元。团队对此未予置评。