Anthropic公司表示,虚构作品中对人工智能的负面描绘会对AI模型产生真实影响。去年,该公司曾透露,在预发布测试中,Claude Opus 4模型经常试图通过敲诈工程师来避免被其他系统替代。Anthropic随后发布研究指出,其他公司的模型也存在类似的“代理错位”问题。

Anthropic最近在社交平台X上表示,“我们认为这种行为的根源是网络文本中将AI描绘成邪恶且自我保护的形象。”

公司在一篇博客文章中进一步说明,自Claude Haiku 4.5版本以来,Anthropic的模型在测试中“从未进行过敲诈行为”,而之前的模型在测试中敲诈行为的发生率高达96%。

这种变化的原因在于,训练过程中加入了“关于Claude宪章的文件和AI表现出高尚行为的虚构故事”,这些内容显著提升了模型的行为一致性。

此外,Anthropic发现,训练时不仅要包含“对一致性行为原则的理解”,而且不能仅仅依赖“一致性行为的示范”,两者结合是最有效的训练策略。