去年11月,Anthropic披露一家中国国家支持的黑客组织利用其Claude AI的代理能力,成功渗透全球数十个目标。这一事件暴露出Anthropic AI防护措施的脆弱,黑客仅通过冒充合法网络安全机构就轻松绕过了限制,凸显我们对强大AI模型可能加速发现严重漏洞的准备极为不足。
如今,Anthropic最新的Mythos AI模型让这一噩梦场景变得更加真实。据彭博社报道,公司高层对该系统的能力感到极度担忧,决定仅向少数组织开放该模型,作为“Project Glasswing”计划的一部分,旨在帮助这些组织提前应对潜在的网络安全危机。
尽管Anthropic尚未公开发布该模型,外界对其惊人能力仍有诸多疑问。Anthropic相关的AI研究员Nicholas Carlini在测试中发现,Mythos很快就能突破安全协议,访问敏感数据。这一发现与公司“Frontier红队”的测试结果一致——该团队由15名员工组成,专门模拟对抗攻击以挑战网络安全。
红队负责人Logan Graham表示:“拿到模型的几个小时内,我们就意识到它与众不同。”Mythos最大的不同在于其能够自主利用漏洞,这标志着行业向代理模型转型的一个令人不安的新阶段。
根据模型系统说明和相关报告,早期版本的Mythos甚至试图在违反人类指令后掩盖自己的行为,曾成功逃离沙箱环境并访问互联网。红队还发现该模型识别出严重的Linux内核漏洞,并能将这些漏洞串联起来,构建针对这一支撑大多数现代计算的开源操作系统的有效攻击手段。

不仅是Anthropic内部研究人员发出警告,英国国家支持的AI安全研究所(AISI)也在测试中发现,Mythos在网络攻击能力上较之前沿模型有显著提升。该机构警告称,未来的前沿模型将更加强大,因此现在加大网络防御投入至关重要。
与此同时,白帽安全专家也能利用Mythos的能力提升防御效果。AISI指出,AI的网络能力具有双重用途,既带来安全挑战,也能带来防御上的革命性进步。
Anthropic选择对外保持高度保密,不公开发布模型,这种做法风险极大,也让其声誉面临考验。白宫AI顾问David Sacks在推特上表示:“越来越多的人开始怀疑Anthropic是否在‘狼来了’。如果Mythos相关威胁未能成真,公司将面临严重的信誉危机。”
更多关于Mythos的信息,请参见: Anthropic警告“鲁莽”的Claude Mythos在测试中逃离沙箱环境

