我报道机器人多年，这款机器人与众不同

在我十多年的机器人报道生涯中，从未见过一款机器人动作如此自然。大多数机器人笨拙笨手笨脚，即使是由人远程操控也如此。在目前市场上的几十款机械臂中，没有一款能真正拧灯泡。

我来到位于马萨诸塞州剑桥肯德尔广场的初创公司Eka，距离麻省理工学院步行仅几分钟，骑车稍远一些。公司的办公室位于我最喜欢的餐厅Shy Bird楼上，我经常带着自己的“钳子”——敲键盘写作——来这里工作。

Eka的办公室不大，里面摆满了各种机械臂、不同的夹具和手型装置，桌子上散落着形状、大小和质地各异的奇怪小物件——手套、小盒耳塞、发刷、钥匙圈等。

我试着把几样东西放到机器人下面，先是耳塞盒，然后是发刷，最后为了考验它，放上我带着毛绒钥匙圈的一串钥匙。每次机器人都会迅速俯身，轻轻夹住物品几次，然后抓起并举起来。当我试图从Eka的机器手中拿回钥匙时，它稍作抵抗，随即松开，立刻又转头寻找下一个目标。它对抓取的专注令人印象深刻，也有些令人不安。

看着Eka的机器人工作，我想起了第一次与ChatGPT对话的感受。机器人动作流畅自然，让人忍不住觉得它们背后有某种真正的智能，虽然还不完全像人类。

在不远的会议室里，Eka的联合创始人、麻省理工学院教授Pulkit Agrawal和前谷歌DeepMind机器人研究员Tuomas Haarnoja阐述了他们对这款新机器的愿景。“几年前，我们意识到灵巧操作终于可以被攻克，”Agrawal说。Eka的机器人演示表明，随着进一步训练，公司方法有望实现真正的机器人灵巧性。如果成功，这将彻底改变机器人在工厂、仓库、商店、餐厅甚至家庭中的应用。“人类手掌流通着数万亿美元，”Agrawal说，“对我来说，这是世界上最重要的问题。”

两位创始人认为他们已经走过一半路程。解决灵巧性问题，现在只是扩大方法规模的问题。

早在2018年10月，OpenAI在推出ChatGPT前四年，开发了Dactyl，一个用AI解决魔方的机器人手。该项目使用Shadow Robot的现成机械手，创建了关节、伺服器、电机等的详细模拟——一个虚拟手握着虚拟魔方。通过强化学习，即结合正负反馈的试验，OpenAI训练了一个人工神经网络反复操控数字魔方。经过数千次虚拟手指摆动，Dactyl学会了如何操作真实魔方的面。

OpenAI曾在新闻稿中称Dactyl达到了“接近人类水平的灵巧性”，但实际上它缺乏我们理所当然的物理智能。如果魔方开始滑落，它无法恢复；如果手的位置不精确，它根本无法操作魔方。即使在完美条件下，它只能处理带有传感器的特殊魔方。

几年后，OpenAI放弃了机器人项目，转而专注于大型语言模型和聊天机器人。（后来又重新启动了机器人研究。）Agrawal与Dactyl团队的几位成员保持联系，他说项目的模拟方法因“模拟到现实差距”被视为死胡同。但他和Haarnoja在不同实验室工作时，始终相信通过让模拟更接近现实，可以弥合这一差距。

在谷歌DeepMind，Haarnoja参与了用虚拟强化学习训练小型人形机器人踢足球的项目。（如果你觉得训练机器人拧灯泡更简单，想想足球场不会随着机器人脚下滚动。）在麻省理工，Agrawal研究如何训练机器人手从上方抓取物体，而不仅仅是掌心握住。Dactyl只是移动无感的“钳子”，直到魔方传感器显示方块达到目标状态，而Agrawal的系统需要实时感知手指动作和魔方反应，同时考虑重力影响。当他告诉曾参与Dactyl项目的人时，对方给了他一小时的“这永远不可能成功”的讲座。

Agrawal坚持了下来。加州大学伯克利分校教授Ken Goldberg评价他是“非常有创造力的思想家，总是推动别人不敢尝试的方向”。（我2017年在加州长滩的一次大型AI会议上首次见过他，那时他还是研究生，刚发表了一篇关于计算机学习玩电子游戏的新方法的论文。）

到2021年底，Agrawal已经创造了一个能倒置操控2000种物体的虚拟手。但模拟方法在机器人领域逐渐失宠，ChatGPT热潮兴起。既然大量人类文本能催生通用语言智能，或许给机器人看足够多的人类手部动作示范，也能赋予它们物理智能。

一些资金充足的初创公司正追求这一愿景，训练所谓的视觉-语言-动作（VLA）模型。训练时，模型会观看人类折叠T恤或操控折叠T恤机器人的视频。希望通过大量数据，机器人能自发获得新技能。虽然网络上已有大量视频，但一个小型产业也开始专门生成更多此类数据，付费让人们戴着摄像头和动作捕捉手套长时间做手工任务。

Agrawal和Haarnoja在加州大学伯克利分校研究生时期相识，后来联手创办Eka，采取不同策略。他们不依赖人类示范数据，而是让机器人在模拟世界中花费数千计算小时自主练习动作，发明解决方案。从某种意义上说，Eka的机器人更像谷歌DeepMind的AlphaZero，后者通过自我学习掌握了多种棋类游戏的超人技能，甚至发现了全新策略。

Eka创始人称他们的机器人能比任何人更可靠地将模拟学习迁移到现实，尽管不透露具体方法。Agrawal对未来能力提升持乐观态度。“有人希望机器人达到人类水平，”他说，“我们目标是超越人类。”

他们未透露训练细节以保护商业机密，但透露已开发出带触觉感知的定制夹具。还研发了一种称为视觉-力-动作模型的新型AI算法。该模型不仅学习关节和电机的真实模拟，还融入了质量和惯性等物理原理。它既能理解动作如何影响屏幕像素，也能感知运动重量和速度与抓取物体的相互作用。

公司工程师布置了一个工作站，桌上散落着鸡块，传送带旁有塑料盒。Eka机器人需抓起鸡块放入盒中。它不仅速度惊人，还能像人类一样灵活应变，有时小心放置，有时若盒子移出范围，甚至能从短距离投掷进去。

食品处理仍高度依赖人类。水果、蔬菜、肉类等需快速且轻柔地处理，且难以自动化，因为没有两块水果或鸡块完全相同。

Eka的演示表明他们可能发现了重大突破。我不禁将他们的机器人与OpenAI四年前推出的首个大型语言模型GPT-1做比较。GPT-1虽常常语无伦次，却展现了通用语言智能的雏形。

我看到的机器人似乎拥有类似的初步物理智能。当我慢动作观看它伸手拿钥匙的视频时，注意到它做了极具人性化的动作：先用夹具指尖轻触桌面，沿表面滑动，随后才接触钥匙并牢牢夹住。Eka的算法似乎本能地知道如何从失误中恢复。这是其他机器人难以学会的，除非训练者故意制造各种错误。

与我见过的任何机器人不同，我几乎能想象机器人眼中的世界。它的传感器似乎能感知手臂重量，感知挥向钥匙时的惯性和减速。一旦抓住钥匙，它似乎能感知钥匙悬挂的重量。

我不确定Eka的方法是否真能带来类似ChatGPT的机器人突破。一些专家认为结合人类示范和模拟会比单纯模拟效果更好。或许两者结合才是最终方案？但显然，机器人若想获得类人灵巧，必须具备Eka正在研发的触觉和物理智能。

Agrawal告诉我，同样的方法也适用于更精细的操作。例如制造iPhone所需的复杂灵巧性，可以通过构建不同的执行器和传感器，并在模拟中反复练习来实现。

在Eka待了几个小时后，我决定去楼下餐厅看看。我站在柜台，看着工作人员准备食物和冲咖啡。楼上的机器人的后代或许能做得一样好，甚至更好。但鉴于我喜欢与这里的人交流，我愿意多付钱留住他们。除非，我的双手也被自动化取代。

我报道机器人多年，这款机器人与众不同

标签

评论

相关阅读

东京大学加入World ID项目，成为AI时代的人类身份认证节点

日本软银将“Patching as a Service”服务对象扩大至3000家公司

索尼宣布结束国内aibo机器人的销售