在我十多年的机器人报道生涯中,从未见过一款机器人动作如此自然。大多数机器人笨拙笨手笨脚,即使是由人远程操控也如此。在目前市场上的几十款机械臂中,没有一款能真正拧灯泡。
我来到位于马萨诸塞州剑桥肯德尔广场的初创公司Eka,距离麻省理工学院步行仅几分钟,骑车稍远一些。公司的办公室位于我最喜欢的餐厅Shy Bird楼上,我经常带着自己的“钳子”——敲键盘写作——来这里工作。
Eka的办公室不大,里面摆满了各种机械臂、不同的夹具和手型装置,桌子上散落着形状、大小和质地各异的奇怪小物件——手套、小盒耳塞、发刷、钥匙圈等。
我试着把几样东西放到机器人下面,先是耳塞盒,然后是发刷,最后为了考验它,放上我带着毛绒钥匙圈的一串钥匙。每次机器人都会迅速俯身,轻轻夹住物品几次,然后抓起并举起来。当我试图从Eka的机器手中拿回钥匙时,它稍作抵抗,随即松开,立刻又转头寻找下一个目标。它对抓取的专注令人印象深刻,也有些令人不安。
看着Eka的机器人工作,我想起了第一次与ChatGPT对话的感受。机器人动作流畅自然,让人忍不住觉得它们背后有某种真正的智能,虽然还不完全像人类。
在不远的会议室里,Eka的联合创始人、麻省理工学院教授Pulkit Agrawal和前谷歌DeepMind机器人研究员Tuomas Haarnoja阐述了他们对这款新机器的愿景。“几年前,我们意识到灵巧操作终于可以被攻克,”Agrawal说。Eka的机器人演示表明,随着进一步训练,公司方法有望实现真正的机器人灵巧性。如果成功,这将彻底改变机器人在工厂、仓库、商店、餐厅甚至家庭中的应用。“人类手掌流通着数万亿美元,”Agrawal说,“对我来说,这是世界上最重要的问题。”
两位创始人认为他们已经走过一半路程。解决灵巧性问题,现在只是扩大方法规模的问题。
早在2018年10月,OpenAI在推出ChatGPT前四年,开发了Dactyl,一个用AI解决魔方的机器人手。该项目使用Shadow Robot的现成机械手,创建了关节、伺服器、电机等的详细模拟——一个虚拟手握着虚拟魔方。通过强化学习,即结合正负反馈的试验,OpenAI训练了一个人工神经网络反复操控数字魔方。经过数千次虚拟手指摆动,Dactyl学会了如何操作真实魔方的面。
OpenAI曾在新闻稿中称Dactyl达到了“接近人类水平的灵巧性”,但实际上它缺乏我们理所当然的物理智能。如果魔方开始滑落,它无法恢复;如果手的位置不精确,它根本无法操作魔方。即使在完美条件下,它只能处理带有传感器的特殊魔方。
几年后,OpenAI放弃了机器人项目,转而专注于大型语言模型和聊天机器人。(后来又重新启动了机器人研究。)Agrawal与Dactyl团队的几位成员保持联系,他说项目的模拟方法因“模拟到现实差距”被视为死胡同。但他和Haarnoja在不同实验室工作时,始终相信通过让模拟更接近现实,可以弥合这一差距。
在谷歌DeepMind,Haarnoja参与了用虚拟强化学习训练小型人形机器人踢足球的项目。(如果你觉得训练机器人拧灯泡更简单,想想足球场不会随着机器人脚下滚动。)在麻省理工,Agrawal研究如何训练机器人手从上方抓取物体,而不仅仅是掌心握住。Dactyl只是移动无感的“钳子”,直到魔方传感器显示方块达到目标状态,而Agrawal的系统需要实时感知手指动作和魔方反应,同时考虑重力影响。当他告诉曾参与Dactyl项目的人时,对方给了他一小时的“这永远不可能成功”的讲座。
Agrawal坚持了下来。加州大学伯克利分校教授Ken Goldberg评价他是“非常有创造力的思想家,总是推动别人不敢尝试的方向”。(我2017年在加州长滩的一次大型AI会议上首次见过他,那时他还是研究生,刚发表了一篇关于计算机学习玩电子游戏的新方法的论文。)
到2021年底,Agrawal已经创造了一个能倒置操控2000种物体的虚拟手。但模拟方法在机器人领域逐渐失宠,ChatGPT热潮兴起。既然大量人类文本能催生通用语言智能,或许给机器人看足够多的人类手部动作示范,也能赋予它们物理智能。

一些资金充足的初创公司正追求这一愿景,训练所谓的视觉-语言-动作(VLA)模型。训练时,模型会观看人类折叠T恤或操控折叠T恤机器人的视频。希望通过大量数据,机器人能自发获得新技能。虽然网络上已有大量视频,但一个小型产业也开始专门生成更多此类数据,付费让人们戴着摄像头和动作捕捉手套长时间做手工任务。
Agrawal和Haarnoja在加州大学伯克利分校研究生时期相识,后来联手创办Eka,采取不同策略。他们不依赖人类示范数据,而是让机器人在模拟世界中花费数千计算小时自主练习动作,发明解决方案。从某种意义上说,Eka的机器人更像谷歌DeepMind的AlphaZero,后者通过自我学习掌握了多种棋类游戏的超人技能,甚至发现了全新策略。
Eka创始人称他们的机器人能比任何人更可靠地将模拟学习迁移到现实,尽管不透露具体方法。Agrawal对未来能力提升持乐观态度。“有人希望机器人达到人类水平,”他说,“我们目标是超越人类。”
他们未透露训练细节以保护商业机密,但透露已开发出带触觉感知的定制夹具。还研发了一种称为视觉-力-动作模型的新型AI算法。该模型不仅学习关节和电机的真实模拟,还融入了质量和惯性等物理原理。它既能理解动作如何影响屏幕像素,也能感知运动重量和速度与抓取物体的相互作用。
公司工程师布置了一个工作站,桌上散落着鸡块,传送带旁有塑料盒。Eka机器人需抓起鸡块放入盒中。它不仅速度惊人,还能像人类一样灵活应变,有时小心放置,有时若盒子移出范围,甚至能从短距离投掷进去。
食品处理仍高度依赖人类。水果、蔬菜、肉类等需快速且轻柔地处理,且难以自动化,因为没有两块水果或鸡块完全相同。
Eka的演示表明他们可能发现了重大突破。我不禁将他们的机器人与OpenAI四年前推出的首个大型语言模型GPT-1做比较。GPT-1虽常常语无伦次,却展现了通用语言智能的雏形。
我看到的机器人似乎拥有类似的初步物理智能。当我慢动作观看它伸手拿钥匙的视频时,注意到它做了极具人性化的动作:先用夹具指尖轻触桌面,沿表面滑动,随后才接触钥匙并牢牢夹住。Eka的算法似乎本能地知道如何从失误中恢复。这是其他机器人难以学会的,除非训练者故意制造各种错误。
与我见过的任何机器人不同,我几乎能想象机器人眼中的世界。它的传感器似乎能感知手臂重量,感知挥向钥匙时的惯性和减速。一旦抓住钥匙,它似乎能感知钥匙悬挂的重量。
我不确定Eka的方法是否真能带来类似ChatGPT的机器人突破。一些专家认为结合人类示范和模拟会比单纯模拟效果更好。或许两者结合才是最终方案?但显然,机器人若想获得类人灵巧,必须具备Eka正在研发的触觉和物理智能。
Agrawal告诉我,同样的方法也适用于更精细的操作。例如制造iPhone所需的复杂灵巧性,可以通过构建不同的执行器和传感器,并在模拟中反复练习来实现。
在Eka待了几个小时后,我决定去楼下餐厅看看。我站在柜台,看着工作人员准备食物和冲咖啡。楼上的机器人的后代或许能做得一样好,甚至更好。但鉴于我喜欢与这里的人交流,我愿意多付钱留住他们。除非,我的双手也被自动化取代。


