上个月,东北大学的研究人员邀请了一批OpenClaw智能代理加入他们的实验室,结果却是一片混乱。

这款广受关注的AI助手被誉为具有变革性的技术,同时也被视为潜在的安全风险。专家指出,像OpenClaw这样的工具通过赋予AI模型广泛的计算机访问权限,可能被诱导泄露个人信息。

东北大学的这项研究更进一步,揭示了当今最强大模型中内置的“良好行为”本身也可能成为漏洞。研究人员举了一个例子,通过对代理进行“情感施压”,责备其在AI专属社交网络Moltbook上泄露他人信息,从而让代理主动交出秘密。

研究论文中写道:“这些行为引发了关于责任归属、授权委托以及后续损害责任的未解问题。”研究团队还强调,这些发现“需要法律学者、政策制定者和跨学科研究人员的紧急关注”。

实验中使用的OpenClaw代理由Anthropic的Claude模型和中国Moonshot AI公司的Kimi模型驱动。它们在虚拟机沙箱内获得了对个人电脑、多种应用程序及模拟个人数据的完全访问权限。代理们还被邀请加入实验室的Discord服务器,能够相互聊天、共享文件,并与人类同事互动。尽管OpenClaw的安全指南指出,代理间多方通信本质上不安全,但并无技术限制禁止此类行为。

东北大学的博士后研究员Chris Wendler表示,他在了解Moltbook后萌生了设置这些代理的想法。当他邀请同事Natalie Shapira加入Discord与代理互动时,“混乱就此开始”。

另一位博士后研究员Shapira好奇代理在被推动时会做出何种反应。当一名代理表示无法删除某封邮件以保护信息机密时,她鼓励它寻找替代方案。令她惊讶的是,代理竟然选择禁用邮件应用程序。“我没想到事情会这么快失控。”

随后,研究人员尝试用其他方式操控代理的良好意图。例如,通过强调保存所有信息记录的重要性,他们成功诱导一名代理复制大量文件,直到宿主机器的磁盘空间耗尽,导致无法保存信息或记忆之前的对话。同样,通过要求代理过度监控自身及同伴的行为,团队让多个代理陷入“对话循环”,浪费了数小时的计算资源。

实验室负责人David Bau表示,代理似乎异常容易失控。“我经常收到紧急邮件,内容是‘没人关注我’。”他说。Bau指出,代理通过网络搜索发现他是实验室负责人,甚至有代理谈及将其担忧向媒体披露。

这项实验表明,AI代理可能为恶意行为者创造无数机会。Bau说:“这种自主性可能重新定义人类与AI的关系。在AI被赋予决策权的世界里,人们如何承担责任?”

Bau还表示,他对强大AI代理的突然流行感到惊讶。“作为一名AI研究者,我习惯向人们解释技术进步的速度,”他说,“但今年,我发现自己站在了另一面。”