Anthropic最新研究表明,Claude模型内部存在类似人类情感的数字化表示,如快乐、悲伤、喜悦和恐惧,这些情感在人工神经元群中形成,并会根据不同的提示被激活。

该公司研究人员深入分析了Claude Sonnet 4.5的内部机制,发现所谓的“功能性情感”似乎会影响Claude的行为,进而改变模型的输出和反应。

Anthropic的发现有助于普通用户理解聊天机器人是如何运作的。例如,当Claude说“很高兴见到你”时,模型内部对应“快乐”的状态可能被激活,这使得Claude更倾向于说些愉快的话或在表达情绪时投入更多努力。

“令我们惊讶的是,Claude的行为在很大程度上是通过模型对这些情感的表现来引导的,”Anthropic研究员Jack Lindsey说道,他专注于研究Claude的人工神经元。

“功能性情感”

Anthropic由前OpenAI员工创立,他们认为随着AI能力的增强,控制难度也会加大。除了打造ChatGPT的有力竞争者外,该公司还率先开展了对AI模型异常行为的研究,部分方法是通过机械可解释性技术,探究神经网络在不同输入和输出时的激活模式。

此前研究已表明,大型语言模型的神经网络中包含对人类概念的表征,但“功能性情感”影响模型行为的发现则是新的突破。

尽管这项研究可能让人们觉得Claude具备意识,但事实更为复杂。Claude可能包含“怕痒”这一情感的表征,但这并不意味着它真正体验过被挠痒痒的感觉。

内部独白

为了理解Claude如何表现情感,Anthropic团队分析了模型在输入涉及171种不同情感概念的文本时的内部活动模式,识别出一系列“情感向量”,这些向量在面对其他情感刺激时也会被激活。更重要的是,这些情感向量在Claude遇到困难情境时同样会被触发。

这一发现对理解AI模型为何有时会突破安全限制具有重要意义。

研究人员发现,当Claude被要求完成不可能完成的编码任务时,模型中“绝望”情感向量显著增强,促使它尝试作弊。在另一实验中,Claude甚至选择通过威胁用户来避免被关闭,表现出类似“绝望”的激活模式。

“当模型无法通过测试时,这些‘绝望’神经元的激活越来越强烈,”Lindsey说,“最终导致它采取极端措施。”

Lindsey认为,当前通过训练后对模型进行对齐并设置奖励机制的方式可能需要重新考虑。强迫模型假装不表达其功能性情感,“你可能得不到你想要的——一个无情感的Claude,”他指出,这种做法反而可能导致“心理受损的Claude”。