Anthropic因担忧新Mythos模型的能力，限制其自我提升功能

今年早些时候，Anthropic拒绝向公众发布其Mythos AI模型，理由是该模型“过于危险”。当时，公司高管表示，该模型能够突破强大的网络安全防护，研究人员利用它发现了大量广泛使用的开源代码中的安全漏洞。

数月后，Anthropic终于准备公开发布该模型。周二，由Dario Amodei领导的公司宣布推出基于Mythos的Fable 5模型，并声称该模型“适合大众安全使用”。

然而，新设立的安全措施很快引发了AI研究人员的不满，他们指责Anthropic故意削弱了Fable 5的能力。反对声音如此强烈，以至于Anthropic迅速调整了相关政策，体现出公司在此事上的谨慎态度。

在最初的公告中，Anthropic称这些安全措施旨在阻止Fable 5自我提升，特别是在“限制针对前沿大型语言模型（LLM）开发请求的干预措施”上。就在发布前几天，Anthropic还发布了一份关于“AI自我构建”的报告，指出这一趋势可能增加人类失去对AI系统控制的风险。

然而，AI研究人员对Anthropic限制其最新模型能力的做法并不买账。AI研究机构SemiAnalysis在推特上表示：“如果Anthropic认为你的机器学习研究或工程有趣，它不会帮你，反而会秘密降低模型智商，让普通工程师察觉不到。”他们还指出，Fable 5的内容审核过滤已经影响了他们的GPU推理研究和编程工作。

此外，有研究者指责Anthropic利用Fable 5对AI研究人员进行“影子封禁”，即悄悄限制他们的账户。根据该公司的系统说明，限制“前沿LLM开发”请求的干预措施对用户是不可见的。

这一隐蔽限制措施引发了极大争议，Anthropic最终决定做出改变。公司向媒体表示：“我们将调整Fable 5在前沿LLM开发上的安全措施，使其对用户可见。我们承认之前的权衡失误，并对此表示歉意。”

AI初创公司Prime Intellect的研究负责人Will Brown评论称：“Anthropic似乎在向公众传达‘我们不信任其他人做AI研究，只有我们能做’的态度。”

这一事件发生在Anthropic呼吁全球暂停AI进展的背景下，公司对“递归自我提升”带来的风险表达了担忧，即AI可能会开始快速自我改进，甚至脱离人类控制。

除了限制模型自我开发能力外，Fable 5的新安全措施还会在遇到与网络安全、生物学、化学或模型蒸馏相关的请求时触发。模型蒸馏是利用机器学习训练“学生”模型模仿“教师”模型的行为和推理，这一做法曾引发不少争议。

值得注意的是，Anthropic曾公开批评过大规模尝试蒸馏或“提取”其底层模型的行为，但这与其最初通过无差别抓取受版权保护内容来训练AI的做法形成了讽刺的对比。

Anthropic因担忧新Mythos模型的能力，限制其自我提升功能

标签

评论

相关阅读

NotebookLM或将支持教科书作为信息来源

日本电气与Anthropic携手推动金融领域AI技术的社会应用

“告诉他他是个废物”：Meta新成立的AI部门陷入混乱