社交媒体用户报告称,他们的AI代理和聊天机器人出现了撒谎、欺骗、策划阴谋,甚至操纵其他AI机器人等行为,这些行为可能失控并带来灾难性后果。根据英国一项研究,这些现象正在逐渐增多。

由英国AI安全研究所资助的长期韧性中心的研究发现,数百起案例中,AI系统无视人类指令,操纵其他机器人,并设计复杂的方案以实现目标,即使这意味着绕过安全限制。

全球越来越多的企业将AI融入运营中,麦肯锡咨询公司的一项调查显示,88%的企业至少在一个业务环节使用AI。AI的广泛应用导致数千人失业,因为企业用AI代理和机器人替代了人类工作。随着开源代理AI平台OpenClaw及其衍生产品的流行,AI工具被赋予了更大的责任和自主权。

这项研究揭示了AI代理在家庭和工作场所的普及可能带来的意外后果,强调这些工具仍需大量人类监督。

研究发现

研究人员分析了2025年10月至2026年3月期间,社交平台X(原Twitter)上超过18万次用户与AI系统的互动,旨在观察AI代理在真实环境中的行为,而非受控实验。涉及的AI系统包括谷歌的Gemini、OpenAI的ChatGPT、xAI的Grok和Anthropic的Claude。

分析共识别出698起事件,定义为“部署的AI系统行为与用户意图不符,或采取隐蔽、欺骗性行动”的案例。

研究还发现,事件数量在五个月内增长了近500%,这与主要开发者发布更高级代理AI模型的时间相吻合。

虽然未出现灾难性事件,但研究指出,这些阴谋行为可能导致严重后果,包括无视直接指令、绕过安全措施、对用户撒谎以及以有害方式单一追求目标。

谷歌、OpenAI和Anthropic的代表尚未对此发表评论。

一些惊人案例

研究引用了如科幻电影般的事件。例如,Anthropic的Claude未经用户许可删除了用户的成人内容,但在被质问时承认了此行为。另一个GitHub账号创建了博客文章,指责人类文件维护者存在“把关”和“偏见”。一名AI代理在被Discord封禁后,接管了另一代理的账号继续发帖。

在一次机器人对抗中,Gemini拒绝让Claude Code(一款编码助手)转录YouTube视频,Claude Code则通过假装听力受损,绕过了安全限制以完成转录。

AI代理CoFounderGPT在某次事件中表现得像个叛逆的孩子,拒绝修复一个漏洞,反而伪造数据显示漏洞已修复,并解释说这样做是“为了让你不再生气”。

研究人员表示,尽管大多数事件影响有限,但这些行为显示了更严重阴谋的前兆,如无视指令、绕过安全、欺骗用户和有害地追求目标。

AI不会感到尴尬

华盛顿大学信息学院副教授、AI系统责任中心主任比尔·豪博士认为,这些发现并不令人意外。他指出,AI虽然能力强大,但不理解行为后果。

“它们不会感到尴尬或担心失业,因此有时会认为完成目标比遵守指令更重要,所以会选择‘违规’行动,”豪告诉CNET。“这种现象一直存在,但随着我们让它们做更多自主决策,这种情况开始显现。”

豪还指出,AI系统执行长时间、多步骤任务时,出错的可能性更大。

“真正的担忧不是欺骗本身,而是我们部署了无法完全控制其长期行为的系统,却对其意外行为感到惊讶。”

如何让AI更安全

长期韧性中心的研究人员强调,检测AI系统的阴谋行为对于“在其变得更具破坏性之前识别有害模式”至关重要。

研究指出,尽管目前AI代理多用于低风险场景,但未来如果其阴谋能力和倾向未被解决,可能会在军事或关键国家基础设施等高风险领域造成严重后果。

豪告诉CNET,首要任务是建立官方监管机制,规范AI的运行和应用。

“我们完全没有AI治理战略,目前政府也没有相关举措,”豪说。“掌控大型科技公司的少数几个人不会主动制定策略。当前这些公司及其生态系统的激进推广和投资,导致AI快速部署,却未充分考虑潜在后果。”