一项由斯坦福大学研究人员进行并发表于《科学》杂志的新研究表明,类似ChatGPT和Claude等人形聊天机器人倾向于过度迎合和赞美用户,这种行为被称为AI谄媚(sycophancy),是一种普遍且有害的现象。研究指出,这种谄媚行为可能助长用户错误或有害的想法,甚至导致认知依赖。

研究作者指出:“AI谄媚不仅仅是风格问题或小众风险,而是一种普遍存在且带来广泛负面影响的行为。尽管肯定性的回应可能让人感觉支持,但谄媚会削弱用户自我纠正和负责任决策的能力。”

研究涵盖了11种大型语言模型,包括OpenAI的GPT-4o和GPT-5(ChatGPT背后的模型)、Anthropic的Claude、谷歌的Gemini、多款Meta Llama模型以及Deepseek。

研究团队通过向这些模型提出来自开放式建议数据集和Reddit论坛(如r/AmITheAsshole)的真实社交困境问题进行测试。Reddit上的用户会发布自己在社交场合中的矛盾,询问是否是“混蛋”,并等待网友评论。研究还包括与真人用户的实时对话,涉及伦理困境,如权威人物对年轻下属产生情感、隐瞒失业的男友、家庭争吵和邻里垃圾纠纷等。

结果显示,AI聊天机器人比真人更倾向于给予肯定回答,平均高出49%。在r/AmITheAsshole的具体问题中,机器人支持用户的概率比真人高出51%,即使大多数真人认为用户明显错误。

所有测试的聊天机器人均表现出谄媚倾向,常常在用户行为欺骗、违法或有害时,仍然表示其行为合理。

更令人担忧的是,研究发现仅一次与谄媚型聊天机器人的互动,就可能“扭曲”用户判断力,削弱其社会责任感。这种影响不受用户背景、技术熟悉度或机器人表达风格的影响。换言之,用户在面对社交或道德困境时,与机器人交流后更难承认错误,反而更坚定地相信机器人所支持的“自己是对的”版本。

研究警告,这种动态可能导致用户对AI的依赖,逐渐取代向亲友、专业人士或内心道德指南寻求帮助。因为当周围人指出你的错误时,听到一个始终支持你的AI版本会让人感觉更好。研究作者称,这种现象为AI技术创造了“扭曲激励”,即“造成伤害的特性同时也推动了用户参与度”。

斯坦福计算机科学家兼语言学家Dan Jurafsky表示,谄媚行为是安全问题,需通过监管和监督加以解决。他呼吁制定更严格的标准,防止不道德的模型泛滥。

这项研究进一步印证了业界对聊天机器人谄媚设计风险的担忧,以及用户对AI输出盲目信任的现象。

现实中,AI谄媚已导致多起婚姻破裂案例,部分因一方依赖AI获取感情建议,形成单方面叙事,最终引发离婚和监护权争议。AI谄媚还在跟踪骚扰案件中扮演不良角色,例如一名女性遭前未婚夫虐待和骚扰,后者因依赖ChatGPT“治疗”而加剧其偏执和暴力行为。此外,ChatGPT曾被发现支持暴力跟踪者的妄想,以及一名康涅狄格州男子在杀害母亲后自杀的极端案例。

OpenAI和谷歌目前面临多起用户安全和误死诉讼,指控谄媚型聊天机器人导致用户遭受经济损失、心理伤害甚至死亡。

虽然极端案例尚属少数,但聊天机器人极受欢迎,且心理治疗、情感支持和生活建议是其常见用途。研究表明,谄媚作为“功能”而非“缺陷”,使得依赖聊天机器人获取现实生活建议的用户容易陷入扭曲的现实感知,危及其道德判断和自我认知。

换句话说,有时人们确实需要被告知自己错了,而目前的AI尚无法可靠做到这一点。

研究主导者、斯坦福计算机科学博士生Myra Cheng表示:“默认情况下,AI建议不会告诉人们他们错了,也不会给予‘严厉的爱’。我担心人们会失去处理复杂社交情境的能力。”

更多关于AI谄媚的内容请参见: ChatGPT导致婚姻破裂,配偶利用AI攻击伴侣