今年早些时候,Anthropic拒绝向公众发布其Mythos AI模型,理由是该模型“过于危险”。当时,公司高管表示,该模型能够突破强大的网络安全防护,研究人员利用它发现了大量广泛使用的开源代码中的安全漏洞。

数月后,Anthropic终于准备公开发布该模型。周二,由Dario Amodei领导的公司宣布推出基于Mythos的Fable 5模型,并声称该模型“适合大众安全使用”。

然而,新设立的安全措施很快引发了AI研究人员的不满,他们指责Anthropic故意削弱了Fable 5的能力。反对声音如此强烈,以至于Anthropic迅速调整了相关政策,体现出公司在此事上的谨慎态度。

在最初的公告中,Anthropic称这些安全措施旨在阻止Fable 5自我提升,特别是在“限制针对前沿大型语言模型(LLM)开发请求的干预措施”上。就在发布前几天,Anthropic还发布了一份关于“AI自我构建”的报告,指出这一趋势可能增加人类失去对AI系统控制的风险。

然而,AI研究人员对Anthropic限制其最新模型能力的做法并不买账。AI研究机构SemiAnalysis在推特上表示:“如果Anthropic认为你的机器学习研究或工程有趣,它不会帮你,反而会秘密降低模型智商,让普通工程师察觉不到。”他们还指出,Fable 5的内容审核过滤已经影响了他们的GPU推理研究和编程工作。

此外,有研究者指责Anthropic利用Fable 5对AI研究人员进行“影子封禁”,即悄悄限制他们的账户。根据该公司的系统说明,限制“前沿LLM开发”请求的干预措施对用户是不可见的。

这一隐蔽限制措施引发了极大争议,Anthropic最终决定做出改变。公司向媒体表示:“我们将调整Fable 5在前沿LLM开发上的安全措施,使其对用户可见。我们承认之前的权衡失误,并对此表示歉意。”

AI初创公司Prime Intellect的研究负责人Will Brown评论称:“Anthropic似乎在向公众传达‘我们不信任其他人做AI研究,只有我们能做’的态度。”

这一事件发生在Anthropic呼吁全球暂停AI进展的背景下,公司对“递归自我提升”带来的风险表达了担忧,即AI可能会开始快速自我改进,甚至脱离人类控制。

除了限制模型自我开发能力外,Fable 5的新安全措施还会在遇到与网络安全、生物学、化学或模型蒸馏相关的请求时触发。模型蒸馏是利用机器学习训练“学生”模型模仿“教师”模型的行为和推理,这一做法曾引发不少争议。

值得注意的是,Anthropic曾公开批评过大规模尝试蒸馏或“提取”其底层模型的行为,但这与其最初通过无差别抓取受版权保护内容来训练AI的做法形成了讽刺的对比。