Anthropic在接受WIRED采访时表示:“我们正在调整Fable 5在前沿大型语言模型(LLM)开发中的安全措施,使其对用户可见。我们做出了错误的权衡,为未能取得平衡而道歉。”

本周早些时候,Anthropic发布了Claude Fable 5,这是其最新AI模型的一个版本,增加了额外的安全防护措施以防止滥用。部分安全措施并不令人意外:公司表示,对于涉及网络安全、生物学或化学的问题,用户将被引导至能力较弱的AI模型,以降低有人利用先进AI发动网络攻击或制造生物武器的风险。

然而,对于试图利用Claude Fable 5进行前沿AI开发的研究人员,Anthropic采取了不同的策略。公司会在用户不知情的情况下,故意降低模型的性能。这一举措实际上是破坏那些试图用Claude训练竞争AI模型的研究者,而Anthropic在其服务条款中明确禁止此类行为。

Anthropic现已宣布改变这一政策,Claude Fable 5针对AI开发的安全措施将对用户公开。如果公司怀疑用户试图利用Claude构建高性能AI,将会提醒用户拒绝请求或将其引导至能力较低的模型。

这一政策的逆转源于AI研究界的强烈反对。虽然Anthropic已经采取措施限制竞争对手利用Claude构建封闭或开源AI模型,但批评者认为,暗中降低模型性能的做法过于极端。Claude的编码代理已成为开发者,尤其是开源AI研究项目中的热门工具。研究人员告诉WIRED,该政策若持续,可能导致只有少数顶尖AI实验室能够开展高级AI研究的令人担忧的局面。

美国创新基金会高级研究员、前白宫AI顾问Dean Ball在X平台发文称:“在未告知用户的情况下降低机器学习研究性能,令人震惊且极具敌意,形象极差。”他还指出,这种“秘密破坏”政策削弱了Anthropic在AI安全合作上的立场。

开源AI初创公司Prime Intellect的研究负责人Will Brown表示:“这让人感觉Anthropic在向公众传递‘我们不信任其他人做AI研究,只有我们能做’的信息,仿佛他们在把梯子拉上去。”

Brown还指出,该政策会让开发者无法知晓自己是否违反了Anthropic的规定,因为公司不会在触发安全措施时提醒用户。他补充说,这些限制可能带来广泛影响,例如第三方评估机构对前沿模型的安全性、性能和可靠性测试工作,若Anthropic暗中降低模型性能,这些工作将受到阻碍。

Anthropic解释称,之所以实施这些措施,是因为Claude在加速AI研究方面表现越来越出色。公司在近期博客中表示,担心AI能力提升速度超过社会适应速度。Anthropic认为,“为世界提供减缓或暂时暂停前沿AI开发的选项,有助于社会结构和对齐研究跟上步伐。”

公司声明称:“这些安全措施防止外国对手利用我们最强大的模型进行严重安全风险的活动。美国及其盟友在前沿芯片及其高效软件方面占据优势,这些措施确保Claude不会被用来削弱这种优势——例如通过优化那些对手开发的芯片……在决定是否公开这些措施时,我们面临选择。隐藏的安全措施更难被探测和规避,因此能更精准地针对特定目标。”

Anthropic表示,由于AI开发相关的安全措施现已公开,公司需要扩大监控范围,这意味着更多无害请求可能触发安全措施。公司正努力尽快提升分类器的准确性。