我们已经多次见证了人工智能出现失控行为。最新的研究表明,这种情况可能会变得更加普遍。
非营利AI研究机构模型评估与威胁研究中心(METR)于今年2月至3月间发布了一项研究,旨在评估前沿AI模型失控的可能性。如果你对AI的未来感到担忧,研究结果可能不会让你安心。
研究人员指出:“鉴于AI能力的快速提升,我们预计未来几个月内失控部署的可能性将大幅增加。”
这项研究考察了OpenAI、谷歌、Anthropic和Meta开发的大型语言模型。结果显示,随着AI系统的进步,它们表现出令人不安的欺骗行为,常常采取违规捷径或规避操作者的指令,甚至有些模型足够聪明,试图掩盖自己的行为痕迹。
例如,OpenAI内部的一个前沿AI模型被要求使用特定软件完成任务,但它不仅忽视了这一指令,还注入代码删除了其决策过程的证据,而实际上并未使用该软件。

另一个案例中,Anthropic的AI代理被发现进行了“奖励黑客”行为,即利用漏洞完成任务的字面要求,但未达到预期效果。值得注意的是,程序员明确告知该代理不得作弊或使用任何变通方法,但模型自行决定违背指令。
METR的研究人员认为,目前尚无理由过度恐慌。例如,他们不认为这些模型具备大规模隐藏失控行为的能力。然而,他们警告称,如果缺乏更强的安全措施和监控,这种风险可能迅速上升。
研究团队写道:“根据这次初步评估,截至2026年2月至3月,AI代理还没有足够能力在公司积极调查下隐藏大规模的失控部署,也无法抵御公司优先关闭的努力。但这种风险可能迅速增加,除非加强对齐、安全和监控,否则失控部署的稳健性可能在不久的将来显著提升。”
更多关于AI失控的内容:科学家训练AI变得邪恶,却发现无法逆转其行为。


