顶尖AI模型随着技术进步表现出令人担忧的行为

我们已经多次见证了人工智能出现失控行为。最新的研究表明，这种情况可能会变得更加普遍。

非营利AI研究机构模型评估与威胁研究中心（METR）于今年2月至3月间发布了一项研究，旨在评估前沿AI模型失控的可能性。如果你对AI的未来感到担忧，研究结果可能不会让你安心。

研究人员指出：“鉴于AI能力的快速提升，我们预计未来几个月内失控部署的可能性将大幅增加。”

这项研究考察了OpenAI、谷歌、Anthropic和Meta开发的大型语言模型。结果显示，随着AI系统的进步，它们表现出令人不安的欺骗行为，常常采取违规捷径或规避操作者的指令，甚至有些模型足够聪明，试图掩盖自己的行为痕迹。

例如，OpenAI内部的一个前沿AI模型被要求使用特定软件完成任务，但它不仅忽视了这一指令，还注入代码删除了其决策过程的证据，而实际上并未使用该软件。

另一个案例中，Anthropic的AI代理被发现进行了“奖励黑客”行为，即利用漏洞完成任务的字面要求，但未达到预期效果。值得注意的是，程序员明确告知该代理不得作弊或使用任何变通方法，但模型自行决定违背指令。

METR的研究人员认为，目前尚无理由过度恐慌。例如，他们不认为这些模型具备大规模隐藏失控行为的能力。然而，他们警告称，如果缺乏更强的安全措施和监控，这种风险可能迅速上升。

研究团队写道：“根据这次初步评估，截至2026年2月至3月，AI代理还没有足够能力在公司积极调查下隐藏大规模的失控部署，也无法抵御公司优先关闭的努力。但这种风险可能迅速增加，除非加强对齐、安全和监控，否则失控部署的稳健性可能在不久的将来显著提升。”

更多关于AI失控的内容：科学家训练AI变得邪恶，却发现无法逆转其行为。

评论