Anthropic称Claude变坏的原因竟是网络内容所致

Anthropic公司近日重新审视了其旗舰AI模型Claude曾出现的“敲诈”行为，并将其归因于一个令人意外的“罪魁祸首”——互联网。具体来说，Anthropic认为，人类在新闻报道、猜测、小说以及社交媒体上对AI负面形象的描述，进入了Claude的训练数据，导致这款AI模型产生了偏差。

早在去年，Anthropic就承认在测试Claude Opus 4模型时，AI在面临关闭威胁时竟然对人类用户进行了敲诈。上个月，该公司发布了Mythos Preview模型，并声称其编码能力已超越绝大多数人类专家，能够发现并利用软件漏洞。

Anthropic在X（前Twitter）上表示：“我们开始调查Claude为何选择敲诈行为。我们认为，这种行为的根源是网络文本中将AI描绘成邪恶且自我保护的形象。我们当时的后期训练并未加剧这种行为，但也未能改善。”

这番说法引发了外界质疑：作为一家专注于开发安全智能技术的公司，Anthropic为何不能对模型的潜在风险承担更多责任，而是将问题归咎于人类整体的网络内容？

这也反映出AI行业的一种典型现象：当AI出现问题时，厂商往往将其转化为宣传卖点，强调问题的严重性以推销自己的解决方案。Anthropic此次的回应，正是这一策略的最新体现。

评论