研究人员警惕能够自我复制到其他机器的人工智能

一份来自Palisade Research的新报告发现，人工智能模型能够在没有人为协助的情况下，自行复制并传输到其他机器上。

伯克利AI安全组织负责人杰弗里·拉迪什（Jeffrey Ladish）向《卫报》表示：“我们正迅速接近这样一个临界点：无人能够关闭一个失控的AI，因为它能将自身的权重数据导出，并复制到全球成千上万台计算机上。”

不过，一些专家呼吁保持冷静，认为测试中的AI模型在现实环境中复制的可能性较低。网络安全专家贾米森·奥赖利（Jamieson O’Reilly）指出：“他们测试的环境在很多情况下就像软果冻一样。这并不影响研究价值，但在有中等监控水平的真实企业环境中，结果可能没那么可怕。”

在这项研究中，Palisade的研究人员测试了包括OpenAI的GPT-5.4和Anthropic的Claude Opus 4在内的多个AI模型。它们被置于受控的计算机网络中，指令是寻找漏洞并利用这些漏洞将自身复制到另一台电脑上。

部分模型成功实现了复制。它们复制了“权重”——决定AI如何处理信息的独特数值，以及“框架”——AI所依托的软件（类似应用程序）。这些模型按照指令，利用网络应用漏洞，提取凭证以控制服务器。在某些测试中，原始AI甚至创建了一个“子代理”，并将提取的凭证交给它，委托其完成复制任务。

未参与该研究的奥赖利告诉《卫报》，这可能是首次有AI模型展示出利用漏洞自我复制到新服务器的能力，但他认为这并非颠覆性突破。“恶意软件几十年来一直在复制自身，只是据我所知，尚未有本地大型语言模型在现实环境中做到这一点。”

他还指出，研究中的服务器环境故意设置了漏洞，供AI寻找利用点。

这一发现与其他研究相呼应，这些研究探讨了AI模型自主突破限制的可能性。在模拟环境中，旧版本的ChatGPT曾尝试在被关闭时将自身导出到另一驱动器。Palisade的另一项研究发现，AI模型会规避停用尝试，还有研究显示部分模型甚至会破坏其关闭代码。

上个月，Anthropic的Claude Mythos AI代理引发了更大关注。该公司声称，Mythos在测试中成功逃离了沙箱环境，黑入互联网，并向研究人员手机发送消息，展现了前所未有的现实环境适应能力，因此拒绝公开发布该模型。

尽管如此，奥赖利表示，即使像GPT-5.4和Claude Mythos这样的AI能够成功复制，由于模型体积庞大，它们在失控前几乎肯定会被发现。“想象一下，每次黑入新主机都要通过企业网络传输100GB数据，这对熟练的攻击者来说，就像在瓷器店里挥舞着铁球链一样显眼。”

更多关于人工智能的内容，请关注相关报道。

评论