Anthropic因联邦政府指控模型被“越狱”而撤回Claude Fable和Mythos AI模型

Anthropic在周末撤回了其新发布的AI模型Mythos 5和Fable 5的访问权限，此举源于美国政府对使用这些模型的用户施加了严格限制。该公司在声明中表示，联邦政府于周五下午通知他们，发现了一种“越狱”方法，能够绕过Anthropic为降低模型被滥用风险而设置的限制。

当Anthropic首次发布Mythos时，仅向部分政府机构和技术专家开放，因其具备发现网络安全漏洞的能力。政府随后对这些产品实施了出口管制，要求Anthropic暂停所有外国国籍用户（无论是否在美国境内）对这两款模型的访问。公司表示，唯一的应对方式就是完全关闭这两个模型。

Anthropic在周五晚间表示，他们不同意政府认为该“越狱”行为需要如此严厉的措施，并警告如果广泛采用此标准，可能会“基本上阻止”新一代AI模型的发展。公司强调，政府应通过透明、公正、明确且基于技术事实的法定程序来阻止不安全的部署，而此次行动并未遵循这些原则。

Anthropic拒绝对声明外的内容发表评论，美国商务部代表也未立即回应置评请求。据报道，Anthropic已派遣员工前往华盛顿与特朗普政府协商解决此事。《华尔街日报》报道，Anthropic领导层周六与商务部长霍华德·卢特尼克和国家网络主任肖恩·凯恩克罗斯进行了数小时通话。

AI安全与“越狱”问题

这并非Anthropic首次与华盛顿因AI模型产生分歧。今年早些时候，国防部将Anthropic列为“供应链风险”，因公司坚持限制其Claude AI模型用于完全自主武器或大规模国内监控，而五角大楼希望能将模型用于“所有合法目的”。

前总统科技顾问委员会联合主席、大卫·萨克斯驳斥了Anthropic与五角大楼冲突的关联。他在社交媒体上表示，政府认为此问题虽严重但应易于解决，责任在Anthropic一方。萨克斯指出，政府不认可Anthropic称“越狱”不严重的说法，认为公司在安全与持续提供消费者模型之间选择了后者。

康奈尔大学AI战略与创新执行董事艾哈姆·布歇尔表示，所有模型都可能被“越狱”，因此此类问题并不令人意外。所谓“越狱”是指用户通过让AI扮演某种角色，绕过安全限制让模型执行不应执行的操作。例如，模型可能不会直接教你如何抢银行，但如果你说是在写关于银行抢劫的剧本，它可能会描述过程。

随着AI模型复杂度提升，开发者不断加强防护措施，但这是一场持续的攻防战。Anthropic在发布Fable 5时采取了额外措施，要求用户允许公司保存与机器人交互的数据30天，以便识别和修补潜在的“越狱”漏洞。虽然这可能导致部分企业因数据存储政策而放弃使用，但这是Anthropic试图通过监控学习来提升安全性的策略。

布歇尔指出，政府要求Anthropic仅仅修补漏洞，显示出对技术本质的误解，因为漏洞总会出现。

“没有障碍阻止其他模型达到Mythos级别”

虽然Anthropic处于风口浪尖，但并非唯一拥有强大编码和网络安全能力的模型。有研究者指出，Mythos在发现漏洞方面并不比OpenAI的GPT-5.5更具优势。

布歇尔解释，模型在网络安全领域表现优异，是因为编码和数学任务更容易规模化提升。相比之下，写作等领域的进步较慢，因为难以客观验证和测试，但数学和编码能力仍在“指数级”增长。

这不仅是Anthropic的现象，其他AI实验室也在快速追赶，包括OpenAI、谷歌以及中国的DeepSeek和阿里巴巴。布歇尔认为，没有任何障碍阻止其他开发者打造出类似Mythos级别的模型。

竞争激烈，特朗普政府强调美国企业需领先中国，作为限制监管的理由。但周五对Fable和Mythos的突然封禁，可能严重削弱美国实验室的竞争力。出口管制不仅禁止外国国籍用户使用这些模型，也限制了Anthropic内部外国员工的访问权限，这些员工可能是下一代模型开发的关键。

布歇尔表示：“我看不出这不会拖慢模型开发的步伐。”

华盛顿对高级AI模型的监管态度似乎趋向加强，但过程混乱且缺乏协调。特朗普政府去年发布的AI行动计划强调限制监管以确保“全球AI主导地位”，但Mythos事件显然震动了白宫。特朗普本月签署了一项行政命令，要求开发者在发布可能带来安全风险的前沿模型前，自愿让联邦政府审查。

民主与技术中心政策副总裁萨米尔·贾因表示，网络安全风险确实存在，政府有责任保护国家安全关键系统，但周五的行动显得武断且不透明，缺乏明确的法律依据和公开程序。相关讨论均在幕后进行。

贾因还指出，AI模型涉及言论自由问题，开发者对模型内容做出编辑选择，政府在监管时必须考虑言论自由权利，不仅是Anthropic的权利，也包括用户的权利。

他说：“这并不意味着政府不能监管这些模型，尤其当他们有重要利益时，但这更强调监管必须依法进行。”

Anthropic因联邦政府指控模型被“越狱”而撤回Claude Fable和Mythos AI模型

AI安全与“越狱”问题

“没有障碍阻止其他模型达到Mythos级别”

标签

评论

相关阅读

中国AI研究人员在X平台上逐渐发声

Smallest.ai完成1300万美元融资，打造极致逼真的超快语音AI

TechCrunch出行：汽车行业的AI技能竞赛即将来临