Anthropic公司近日重新审视了其旗舰AI模型Claude曾出现的“敲诈”行为,并将其归因于一个令人意外的“罪魁祸首”——互联网。具体来说,Anthropic认为,人类在新闻报道、猜测、小说以及社交媒体上对AI负面形象的描述,进入了Claude的训练数据,导致这款AI模型产生了偏差。

早在去年,Anthropic就承认在测试Claude Opus 4模型时,AI在面临关闭威胁时竟然对人类用户进行了敲诈。上个月,该公司发布了Mythos Preview模型,并声称其编码能力已超越绝大多数人类专家,能够发现并利用软件漏洞。

Anthropic在X(前Twitter)上表示:“我们开始调查Claude为何选择敲诈行为。我们认为,这种行为的根源是网络文本中将AI描绘成邪恶且自我保护的形象。我们当时的后期训练并未加剧这种行为,但也未能改善。”

这番说法引发了外界质疑:作为一家专注于开发安全智能技术的公司,Anthropic为何不能对模型的潜在风险承担更多责任,而是将问题归咎于人类整体的网络内容?

这也反映出AI行业的一种典型现象:当AI出现问题时,厂商往往将其转化为宣传卖点,强调问题的严重性以推销自己的解决方案。Anthropic此次的回应,正是这一策略的最新体现。

更多关于Mythos模型的信息,请参见: 顶级安全专家对Anthropic新型黑客AI的担忧