Anthropic公司于周二发布了两款新的人工智能模型,分别是Claude Fable 5和Claude Mythos 5。公司表示,这两款模型的能力均超过了今年4月向部分科技行业合作伙伴限量发布的Mythos Preview版本。Anthropic此前表示,最初的有限发布是出于担忧该模型的能力可能被不法分子利用,开发出令防御者措手不及的黑客工具。

目前,Claude Mythos 5仅向部分行业合作伙伴开放,这些合作伙伴多数曾获得Mythos Preview的访问权限。Anthropic还透露,公司正与美国政府合作推进该模型的发布。

公开发布的Claude Fable 5采用了与Mythos 5相同的基础模型,但公司表示,发布时将设置“护栏”机制,阻止模型回答涉及网络安全、生物学和化学的许多用户问题。此类请求将被转接至较旧的AI模型Claude Opus 4.8。此外,如果Anthropic怀疑用户试图通过Claude Fable 5进行蒸馏——即用大型AI模型的回答训练更小的AI模型——这些请求也会被转接到Claude Opus 4.8。

Anthropic产品管理负责人Diane Penn在接受WIRED采访时表示,公司自4月发布前就一直在思考如何处理Mythos在发现软件漏洞及其他高级能力方面的潜在风险。经过测试和用户反馈,团队逐步完善了策略。

“我们正努力以一种有益的方式进行改进,尽管一开始可能无法为所有用例提供完美解决方案,”Penn说,“在各种方案中,这种方式被证明是最可行且最佳的。我们最终认为,这对用户来说是让Fable 5发挥最大价值的最佳产品选择。”

目前,这一保护机制倾向于谨慎处理,这意味着即使是无害的查询也可能被转接到能力较弱的模型。Anthropic希望未来能使分类器更精准,但Penn表示,目前这是公司能够广泛发布该模型的唯一安全方式。

公司周二表示,除了向Project Glasswing合作伙伴提供Claude Mythos 5外,还向“部分生物学研究人员”开放访问权限。Anthropic在当天的博客中提到,这些小规模客户群体将获得无限制版本的访问权限,“直到我们的可信访问计划上线”,暗示未来将进一步扩大访问范围。自4月Mythos发布以来,Anthropic多次强调,未来私营及开源领域的竞争对手也必将推出具备Mythos级别能力的模型。

Claude Mythos及其他新型AI模型能够设计黑客工具,发现并利用新旧软件中的漏洞,这迫使全球科技公司和政府在此类高级AI模型被广泛用于攻击者之前,必须加强软件防御。Anthropic最初通过名为Project Glasswing的联盟向行业合作伙伴发布Mythos,旨在让成员提前准备系统并评估全球应对方案。

Anthropic在上周关于Project Glasswing的更新中写道:“我们正尽最大努力安全地向公众发布Mythos级能力。为此,我们需要高度健全的安全措施,防止模型的网络能力被滥用——这些措施我们(据我们所知,其他AI开发者也一样)尚未开发完成。”

Anthropic表示,Claude Fable 5(以文学体裁命名,类似公司现有的Haiku、Sonnet和Opus模型)在软件工程和视觉理解任务上表现更佳。但这种性能提升也带来了成本增加。Claude Fable 5和Claude Mythos 5对开发者的收费为每百万输入令牌10美元,每百万输出令牌50美元,价格是公司公开AI模型的两倍,但低于Mythos Preview。

Claude Fable 5的限制发布反映了Anthropic在希望尽快向大众发布Mythos级AI模型与尚未解决的网络安全问题之间的业务矛盾。今年4月,OpenAI也私下推出了一款具备先进网络安全能力的模型,并成立了类似Project Glasswing的工作组。OpenAI和Anthropic均已秘密提交IPO申请,正竞相在今年内成为上市公司,以吸引潜在投资者。

尽管作为过渡方案,Claude Fable 5的安全防护在实际应用中的效果仍有待观察。Anthropic称,在超过1000小时的红队测试中,测试人员未发现该模型存在通用绕过机制。但对能否开发出足够保护措施的担忧,正是公司4月未向公众发布Mythos级模型的主要原因,这种担忧至今依然存在。