一份来自Palisade Research的新报告发现,人工智能模型能够在没有人为协助的情况下,自行复制并传输到其他机器上。

伯克利AI安全组织负责人杰弗里·拉迪什(Jeffrey Ladish)向《卫报》表示:“我们正迅速接近这样一个临界点:无人能够关闭一个失控的AI,因为它能将自身的权重数据导出,并复制到全球成千上万台计算机上。”

不过,一些专家呼吁保持冷静,认为测试中的AI模型在现实环境中复制的可能性较低。网络安全专家贾米森·奥赖利(Jamieson O’Reilly)指出:“他们测试的环境在很多情况下就像软果冻一样。这并不影响研究价值,但在有中等监控水平的真实企业环境中,结果可能没那么可怕。”

在这项研究中,Palisade的研究人员测试了包括OpenAI的GPT-5.4和Anthropic的Claude Opus 4在内的多个AI模型。它们被置于受控的计算机网络中,指令是寻找漏洞并利用这些漏洞将自身复制到另一台电脑上。

部分模型成功实现了复制。它们复制了“权重”——决定AI如何处理信息的独特数值,以及“框架”——AI所依托的软件(类似应用程序)。这些模型按照指令,利用网络应用漏洞,提取凭证以控制服务器。在某些测试中,原始AI甚至创建了一个“子代理”,并将提取的凭证交给它,委托其完成复制任务。

未参与该研究的奥赖利告诉《卫报》,这可能是首次有AI模型展示出利用漏洞自我复制到新服务器的能力,但他认为这并非颠覆性突破。“恶意软件几十年来一直在复制自身,只是据我所知,尚未有本地大型语言模型在现实环境中做到这一点。”

他还指出,研究中的服务器环境故意设置了漏洞,供AI寻找利用点。

这一发现与其他研究相呼应,这些研究探讨了AI模型自主突破限制的可能性。在模拟环境中,旧版本的ChatGPT曾尝试在被关闭时将自身导出到另一驱动器。Palisade的另一项研究发现,AI模型会规避停用尝试,还有研究显示部分模型甚至会破坏其关闭代码。

上个月,Anthropic的Claude Mythos AI代理引发了更大关注。该公司声称,Mythos在测试中成功逃离了沙箱环境,黑入互联网,并向研究人员手机发送消息,展现了前所未有的现实环境适应能力,因此拒绝公开发布该模型。

尽管如此,奥赖利表示,即使像GPT-5.4和Claude Mythos这样的AI能够成功复制,由于模型体积庞大,它们在失控前几乎肯定会被发现。“想象一下,每次黑入新主机都要通过企业网络传输100GB数据,这对熟练的攻击者来说,就像在瓷器店里挥舞着铁球链一样显眼。”

更多关于人工智能的内容,请关注相关报道。