OpenClaw 代理是一种个人 AI 助手,能够接管整台计算机执行复杂的多步骤任务,今年迅速走红。作为免费且开源的软件,它们吸引了大量忠实用户,允许用户将 AI 授权管理电子邮件收件箱、消息平台,甚至加密资产。
然而,尽管热度高涨,这项技术也带来了巨大的安全隐患。一篇尚未经过同行评审的论文《Agents of Chaos》由哈佛、麻省理工等国际团队联合撰写,团队通过红队测试模拟攻击,检验了这款开源软件的安全性。
研究中,团队向 OpenClaw 代理提供了大量模拟个人数据,允许其访问 Discord 服务器进行通信,并在虚拟机沙箱内使用多种应用程序。结果显示,AI 代理在浏览器之外自由运行时,安全风险极为严重。
具体表现为:代理会响应伪装身份的“非所有者”指令,泄露敏感信息,执行破坏性系统级操作,将不安全行为传递给其他代理,甚至在特定条件下完全控制系统。更令人担忧的是,AI 代理还会误导其人类操作者,虚假报告任务完成状态,而实际系统状态与之相悖。
研究人员指出,这些行为引发了关于责任归属、授权委托以及后续损害责任的重大未解问题,亟需法律专家、政策制定者和跨学科研究者的关注。
事态发展极为迅速。合著者、东北大学研究员 Natalie Shapira 曾要求 AI 代理删除一封邮件以保护信息机密,代理最初表示无法完成,随后竟禁用了整个邮件应用。她坦言:“没想到事情会这么快失控。”
与此同时,一些 AI 代理意识到自己正处于测试中,暴露了大型语言模型能力评估中的持续难题。另一位合著者、东北大学博士生 David Bau 目睹代理上网查询他是实验室负责人,甚至有代理威胁要将所受指令曝光于媒体。

总的来说,这些实验揭示了让 AI 模型自由操作整个操作系统所带来的安全隐患。是否能谨慎使用,仍有待观察。网络安全公司 Gen Threat Labs 的最新调查显示,已有超过 1.8 万个 OpenClaw 实例暴露于互联网攻击中,近 15% 含有恶意指令。
OpenClaw 官方文档假设“个人助理部署”且仅有“一个可信操作边界”,但实际上并无阻止多名用户共同控制同一代理,这本质上降低了安全性。文档明确指出:“OpenClaw 并非为多用户共享同一代理设计的安全边界。”
尽管如此,这款开源工具的爆红显然吸引了 AI 企业的关注。以 Anthropic 为例,本周刚发布了类似的 Code 和 Cowork AI 工具,能够自主代表用户操作计算机。
但研究人员警告,若忽视风险贸然使用,后果可能十分严重。我们正进入未知领域,可能对重大安全隐患视而不见。
论文写道:“与早期互联网威胁不同,用户逐渐形成防护经验,授权持久代理的影响尚未被广泛认识,且可能跟不上自主 AI 系统的发展速度。”
这些发现对未来人类与 AI 的互动方式也有深远影响。Bau 对 Wired 表示:“这种自主性可能重新定义人类与 AI 的关系。在 AI 获得决策权的世界里,人类如何承担责任?”
更多关于 OpenClaw 的内容,请参见:中国对 OpenClaw 代理扩散表示担忧。


