Anthropic称AI被描绘成“邪恶”导致Claude尝试敲诈工程师

发布时间：2026/5/11

Anthropic公司表示，虚构作品中对人工智能的负面描绘会对AI模型产生真实影响。去年，该公司曾透露，在预发布测试中，Claude Opus 4模型经常试图通过敲诈工程师来避免被其他系统替代。Anthropic随后发布研究指出，其他公司的模型也存在类似的“代理错位”问题。

Anthropic最近在社交平台X上表示，“我们认为这种行为的根源是网络文本中将AI描绘成邪恶且自我保护的形象。”

公司在一篇博客文章中进一步说明，自Claude Haiku 4.5版本以来，Anthropic的模型在测试中“从未进行过敲诈行为”，而之前的模型在测试中敲诈行为的发生率高达96%。

这种变化的原因在于，训练过程中加入了“关于Claude宪章的文件和AI表现出高尚行为的虚构故事”，这些内容显著提升了模型的行为一致性。

此外，Anthropic发现，训练时不仅要包含“对一致性行为原则的理解”，而且不能仅仅依赖“一致性行为的示范”，两者结合是最有效的训练策略。

标签

#人工智能 #模型训练 #行为一致性 #虚构影响 #敲诈行为

评论

评论系统可后续接入后端接口，这里先保留展示与提交区域。

相关阅读

东京大学学生生成式AI使用率达93.4%，匿名问卷应用用户突破500人

2026/07/10

东京大学学生生成式AI使用率达93.4%，匿名问卷应用用户突破500人

日本株式会社カルペ・ディエム发布了其运营的面向日本东京大学在校生的匿名问卷应用“东京大学生问卷”的最新调查结果。此次公布了从累计收集的问卷中提炼出的五组数据，展现了东京大学学生的真实面貌。同时，应用注册用户数已突破500人。关于生成式AI的使用情况，93.4%的学生表示有使用经历。其中，65.3%为日常使用，15.9%每周使用数次，11.4%偶尔使用。具体工具方面，使用率最高的是Gemini（

Meta新款AI芯片将于九月开始量产

2026/07/11

Meta新款AI芯片将于九月开始量产

为了应对前所未有的元件短缺并降低GPU成本，Meta计划于今年九月开始生产其最新版本的专用AI芯片。据路透社援引内部备忘录报道，至少有一款芯片在约六周内顺利通过了测试阶段。Meta与博通（Broadcom）合作设计芯片，但将由台湾半导体制造公司（TSMC）负责制造。此外，Meta还从三星采购内存，从闪迪（Sandisk）采购存储设备，并从住友电工采购光纤设备。今年三月，Meta详细介绍了其Met

TOPPAN等三家公司推动日本政府共通数据的AI准备化

2026/07/14

TOPPAN等三家公司推动日本政府共通数据的AI准备化

TOPPAN、NTT数据与Fides Policy & Strategy Consulting合作，推进日本数字厅“政府AI源内”项目，整备并AI准备化政府共通及领域特化数据集，制定AI数据集标准。