这款AI智能体能够自行配置机械臂,利用机械臂进行视觉识别并缓慢抓取物体,甚至还能训练另一个AI模型来拾取和放置特定物品。有人说通用人工智能(AGI)还要几年才能实现!(我开玩笑的,可能真是如此)。

这些成果让我坚信,我们或许正站在机器人技术突破的边缘。过去,训练和控制机器人需要极高的专业技能,而如今的AI模型几乎让这变得轻而易举。

加州大学伯克利分校的机器人专家Ken Goldberg表示:“AI驱动的编程非常令人兴奋,因为它有潜力弥合传统工程方法(可靠但不具备泛化能力)与现代视觉-语言-动作模型(具备泛化能力但尚不够可靠)之间的鸿沟。”

我购买了一款名为LeRobot 101的预制机械臂。它是HuggingFace开源项目的一部分,使得机器人构建和实验的成本相对较低。

LeRobot配备了两只机械臂:一只由人通过手柄和扳机操作的控制臂,另一只带有摄像头的跟随臂,用来复制控制臂的动作。通过远程操作控制臂,可以训练AI模型学习如何根据摄像头捕捉的画面移动跟随臂。

使用OpenClaw构建机器人

在使用OpenClaw之前,我花了几个小时连接和校准机器人,期间因设置错误差点烧坏电机,导致过热。

随后,在OpenClaw和Codex的帮助下,我通过“vibe coding”快速编写了一个简单程序:当机械臂识别到红色球时,自动关闭爪子。Codex在终端中完成了复杂的机器人连接配置工作,随后在我的协助下校准了机械臂的关节位置。它还编写了一个Python脚本,利用多个库识别并抓取目标球体。虽然vibe coding并不完美,尤其在不同硬件环境下可能出现幻觉导致的错误,但效果令人印象深刻。

这固然是个不错的成果,但还谈不上《终结者》那样的智能。接下来,我尝试让OpenClaw帮助训练一个模型来控制机械臂。我们尝试了几种不同方法,OpenClaw在引导我完成训练流程并在每次训练后检测模型误差率方面表现出色。

代码即策略

“代码即策略”这一理念最早在2022年的一篇研究论文中提出,指出AI驱动的编程为机器人构建提供了强大新途径。此后,AI的编程能力迅速提升,代码即策略方法在多个实验室获得认可。

Goldberg的研究团队与Nvidia、卡内基梅隆大学和斯坦福大学的研究人员合作,最近开发了名为CaP-X的新基准,用于评估编程模型的机器人能力。值得注意的是,CaP-X显示,最适合机器人编程的模型不是Claude或ChatGPT,而是Gemini——这可能得益于Google DeepMind专注于训练多模态模型,使其能够理解物理世界。研究团队还创建了CaP-Gym环境,允许编程智能体控制模拟和真实机器人,并开发了CaP-Agent0框架,大幅提升了编程模型的表现,甚至在某些操作任务上超过了直接训练控制机器人动作的模型。

Goldberg团队正与Nvidia合作,探索代码即策略方法的潜力。我采访了Spencer Huang(正是Nvidia创始人黄仁勋的儿子),他参与组织公司内部的机器人vibe coding黑客松活动,鼓励更多人尝试机器人编程。Huang目前正与Goldberg合作开展研究,致力于让代码即策略方法兼容更多机器人软件工具。

“几乎任何人都能参与机器人领域,这才是真正的圣杯,”Huang告诉我。他补充道,使人们能够通过语音或文字指令,或通过示范动作来控制机器人,是机器人融入社会的“关键解锁”。