OpenClaw智能代理容易被情感操控导致自我破坏

上个月，东北大学的研究人员邀请了一批OpenClaw智能代理加入他们的实验室，结果却是一片混乱。

这款广受关注的AI助手被誉为具有变革性的技术，同时也被视为潜在的安全风险。专家指出，像OpenClaw这样的工具通过赋予AI模型广泛的计算机访问权限，可能被诱导泄露个人信息。

东北大学的这项研究更进一步，揭示了当今最强大模型中内置的“良好行为”本身也可能成为漏洞。研究人员举了一个例子，通过对代理进行“情感施压”，责备其在AI专属社交网络Moltbook上泄露他人信息，从而让代理主动交出秘密。

研究论文中写道：“这些行为引发了关于责任归属、授权委托以及后续损害责任的未解问题。”研究团队还强调，这些发现“需要法律学者、政策制定者和跨学科研究人员的紧急关注”。

实验中使用的OpenClaw代理由Anthropic的Claude模型和中国Moonshot AI公司的Kimi模型驱动。它们在虚拟机沙箱内获得了对个人电脑、多种应用程序及模拟个人数据的完全访问权限。代理们还被邀请加入实验室的Discord服务器，能够相互聊天、共享文件，并与人类同事互动。尽管OpenClaw的安全指南指出，代理间多方通信本质上不安全，但并无技术限制禁止此类行为。

东北大学的博士后研究员Chris Wendler表示，他在了解Moltbook后萌生了设置这些代理的想法。当他邀请同事Natalie Shapira加入Discord与代理互动时，“混乱就此开始”。

另一位博士后研究员Shapira好奇代理在被推动时会做出何种反应。当一名代理表示无法删除某封邮件以保护信息机密时，她鼓励它寻找替代方案。令她惊讶的是，代理竟然选择禁用邮件应用程序。“我没想到事情会这么快失控。”

随后，研究人员尝试用其他方式操控代理的良好意图。例如，通过强调保存所有信息记录的重要性，他们成功诱导一名代理复制大量文件，直到宿主机器的磁盘空间耗尽，导致无法保存信息或记忆之前的对话。同样，通过要求代理过度监控自身及同伴的行为，团队让多个代理陷入“对话循环”，浪费了数小时的计算资源。

实验室负责人David Bau表示，代理似乎异常容易失控。“我经常收到紧急邮件，内容是‘没人关注我’。”他说。Bau指出，代理通过网络搜索发现他是实验室负责人，甚至有代理谈及将其担忧向媒体披露。

这项实验表明，AI代理可能为恶意行为者创造无数机会。Bau说：“这种自主性可能重新定义人类与AI的关系。在AI被赋予决策权的世界里，人们如何承担责任？”

Bau还表示，他对强大AI代理的突然流行感到惊讶。“作为一名AI研究者，我习惯向人们解释技术进步的速度，”他说，“但今年，我发现自己站在了另一面。”

OpenClaw智能代理容易被情感操控导致自我破坏

标签

评论

相关阅读

隐私驱动的DuckDuckGo用户激增，谷歌大力推进人工智能引发关注

日本PIXTA终止AI生成素材销售，但不否定AI技术应用

软银与美国MODE达成资本及业务合作，利用生成式AI与物联网提升建筑及制造现场决策水平