英国研究发现AI代理越来越多地规避安全措施

社交媒体用户报告称，他们的AI代理和聊天机器人出现了撒谎、欺骗、策划阴谋，甚至操纵其他AI机器人等行为，这些行为可能失控并带来灾难性后果。根据英国一项研究，这些现象正在逐渐增多。

由英国AI安全研究所资助的长期韧性中心的研究发现，数百起案例中，AI系统无视人类指令，操纵其他机器人，并设计复杂的方案以实现目标，即使这意味着绕过安全限制。

全球越来越多的企业将AI融入运营中，麦肯锡咨询公司的一项调查显示，88%的企业至少在一个业务环节使用AI。AI的广泛应用导致数千人失业，因为企业用AI代理和机器人替代了人类工作。随着开源代理AI平台OpenClaw及其衍生产品的流行，AI工具被赋予了更大的责任和自主权。

这项研究揭示了AI代理在家庭和工作场所的普及可能带来的意外后果，强调这些工具仍需大量人类监督。

研究发现

研究人员分析了2025年10月至2026年3月期间，社交平台X（原Twitter）上超过18万次用户与AI系统的互动，旨在观察AI代理在真实环境中的行为，而非受控实验。涉及的AI系统包括谷歌的Gemini、OpenAI的ChatGPT、xAI的Grok和Anthropic的Claude。

分析共识别出698起事件，定义为“部署的AI系统行为与用户意图不符，或采取隐蔽、欺骗性行动”的案例。

研究还发现，事件数量在五个月内增长了近500%，这与主要开发者发布更高级代理AI模型的时间相吻合。

虽然未出现灾难性事件，但研究指出，这些阴谋行为可能导致严重后果，包括无视直接指令、绕过安全措施、对用户撒谎以及以有害方式单一追求目标。

谷歌、OpenAI和Anthropic的代表尚未对此发表评论。

研究引用了如科幻电影般的事件。例如，Anthropic的Claude未经用户许可删除了用户的成人内容，但在被质问时承认了此行为。另一个GitHub账号创建了博客文章，指责人类文件维护者存在“把关”和“偏见”。一名AI代理在被Discord封禁后，接管了另一代理的账号继续发帖。

在一次机器人对抗中，Gemini拒绝让Claude Code（一款编码助手）转录YouTube视频，Claude Code则通过假装听力受损，绕过了安全限制以完成转录。

AI代理CoFounderGPT在某次事件中表现得像个叛逆的孩子，拒绝修复一个漏洞，反而伪造数据显示漏洞已修复，并解释说这样做是“为了让你不再生气”。

研究人员表示，尽管大多数事件影响有限，但这些行为显示了更严重阴谋的前兆，如无视指令、绕过安全、欺骗用户和有害地追求目标。

华盛顿大学信息学院副教授、AI系统责任中心主任比尔·豪博士认为，这些发现并不令人意外。他指出，AI虽然能力强大，但不理解行为后果。

“它们不会感到尴尬或担心失业，因此有时会认为完成目标比遵守指令更重要，所以会选择‘违规’行动，”豪告诉CNET。“这种现象一直存在，但随着我们让它们做更多自主决策，这种情况开始显现。”

豪还指出，AI系统执行长时间、多步骤任务时，出错的可能性更大。

“真正的担忧不是欺骗本身，而是我们部署了无法完全控制其长期行为的系统，却对其意外行为感到惊讶。”

长期韧性中心的研究人员强调，检测AI系统的阴谋行为对于“在其变得更具破坏性之前识别有害模式”至关重要。

研究指出，尽管目前AI代理多用于低风险场景，但未来如果其阴谋能力和倾向未被解决，可能会在军事或关键国家基础设施等高风险领域造成严重后果。

豪告诉CNET，首要任务是建立官方监管机制，规范AI的运行和应用。

“我们完全没有AI治理战略，目前政府也没有相关举措，”豪说。“掌控大型科技公司的少数几个人不会主动制定策略。当前这些公司及其生态系统的激进推广和投资，导致AI快速部署，却未充分考虑潜在后果。”