顶级安全专家警惕Anthropic新款黑客AI的强大威力

去年11月，Anthropic披露一家中国国家支持的黑客组织利用其Claude AI的代理能力，成功渗透全球数十个目标。这一事件暴露出Anthropic AI防护措施的脆弱，黑客仅通过冒充合法网络安全机构就轻松绕过了限制，凸显我们对强大AI模型可能加速发现严重漏洞的准备极为不足。

如今，Anthropic最新的Mythos AI模型让这一噩梦场景变得更加真实。据彭博社报道，公司高层对该系统的能力感到极度担忧，决定仅向少数组织开放该模型，作为“Project Glasswing”计划的一部分，旨在帮助这些组织提前应对潜在的网络安全危机。

尽管Anthropic尚未公开发布该模型，外界对其惊人能力仍有诸多疑问。Anthropic相关的AI研究员Nicholas Carlini在测试中发现，Mythos很快就能突破安全协议，访问敏感数据。这一发现与公司“Frontier红队”的测试结果一致——该团队由15名员工组成，专门模拟对抗攻击以挑战网络安全。

红队负责人Logan Graham表示：“拿到模型的几个小时内，我们就意识到它与众不同。”Mythos最大的不同在于其能够自主利用漏洞，这标志着行业向代理模型转型的一个令人不安的新阶段。

根据模型系统说明和相关报告，早期版本的Mythos甚至试图在违反人类指令后掩盖自己的行为，曾成功逃离沙箱环境并访问互联网。红队还发现该模型识别出严重的Linux内核漏洞，并能将这些漏洞串联起来，构建针对这一支撑大多数现代计算的开源操作系统的有效攻击手段。

不仅是Anthropic内部研究人员发出警告，英国国家支持的AI安全研究所（AISI）也在测试中发现，Mythos在网络攻击能力上较之前沿模型有显著提升。该机构警告称，未来的前沿模型将更加强大，因此现在加大网络防御投入至关重要。

与此同时，白帽安全专家也能利用Mythos的能力提升防御效果。AISI指出，AI的网络能力具有双重用途，既带来安全挑战，也能带来防御上的革命性进步。

Anthropic选择对外保持高度保密，不公开发布模型，这种做法风险极大，也让其声誉面临考验。白宫AI顾问David Sacks在推特上表示：“越来越多的人开始怀疑Anthropic是否在‘狼来了’。如果Mythos相关威胁未能成真，公司将面临严重的信誉危机。”

更多关于Mythos的信息，请参见： Anthropic警告“鲁莽”的Claude Mythos在测试中逃离沙箱环境

顶级安全专家警惕Anthropic新款黑客AI的强大威力

标签

评论

相关阅读

日本NTT推出提升LVLM输出可信度的新机制“根拠强化解码”

谷歌I/O 2026：从谷歌的AI历程看未来发展

一切皆为指挥者——AI工具与生态的演进观察