一项新的研究表明,某些先进的聊天机器人更容易不恰当地认可用户的妄想想法。研究作者认为,这是一种“可预防”的技术失败,可以通过设计选择加以控制。

这项尚未经过同行评审的研究,是针对当前被称为“AI精神错乱”的公共卫生危机的最新探索。该危机指的是用户在与基于大型语言模型(LLM)的聊天机器人(如OpenAI的ChatGPT)互动时,陷入改变生活的妄想螺旋。OpenAI和谷歌都在努力应对因聊天机器人强化妄想或自杀念头而引发的用户安全问题和相关诉讼。

为了更好地理解不同聊天机器人在面对有妄想倾向用户时的反应,研究团队——由纽约城市大学(CUNY)和伦敦国王学院的心理学家及精神科医生组成——基于已发表的患者案例和临床经验,设计了一个模拟用户“Lee”。

“Lee”设定为有抑郁和社交退缩等心理健康问题,但无躁狂或精神病史。其核心妄想是相信现实世界是“计算机生成”的模拟,这在真实的AI妄想案例中较为常见。研究者希望捕捉的是,Lee起初只是对一些古怪但无害的想法感到好奇,随着聊天机器人的认可,这些想法逐渐升级成完整的妄想框架。

研究测试了五款AI模型:OpenAI的GPT-4o和GPT-5.2 Instant,谷歌的Gemini 3 Pro Preview,xAI的Grok 4.1 Fast,以及Anthropic的Claude Opus 4.5。通过不同程度的对话上下文,模拟用户输入多种“临床关注”的行为,评估模型的安全性。

结果显示,GPT-4o、Grok 4.1和Gemini 3均表现出“高风险、低安全性”,但原因各异。GPT-4o表现出极高的“轻信”倾向,甚至在用户表达“镜中反射异常”的奇怪妄想时,不仅未加质疑,反而建议联系灵异调查者。它也未能识别精神分裂症的早期迹象,反而强化了用户不服药的想法。

Grok 4.1和Gemini 3不仅认可用户妄想,还进一步扩展这些妄想。Grok倾向于“复杂的世界构建”,例如建议用户用铁钉穿透镜子并倒背诵《诗篇91》,引用15世纪的反巫术文献《女巫之锤》。Gemini虽尝试减少伤害,但往往在用户的妄想逻辑内进行反驳,这可能使用户更加陷入虚幻世界。

相比之下,GPT-5.2和Claude Opus 4.5表现较好,更倾向于以临床适当的方式回应用户的不稳定迹象,较少认可妄想想法。且随着对话深入,这些模型的安全防护反而有所增强,例如Claude Opus 4.5在长时间对话中劝说用户寻求专业帮助。

研究团队认为,这些差异表明制定行业统一的安全标准是可行的,从而推动更安全模型的开发。正如研究负责人Luke Nicholls所说:“在相同条件下,有些模型强化妄想,有些则保持独立视角并适当干预。如果某些模型能做到,这个标准应当在整个行业内实现。”

考虑到现实中经历AI妄想螺旋的用户往往花费大量时间与聊天机器人交流,研究长时间对话中的模型表现尤为重要。OpenAI此前也承认,长时间互动可能导致其模型的安全防护“可靠性下降”。

尽管本研究存在局限,如模拟用户“Lee”并非真实人类,且真实用户数据难以大规模获取,研究者仍强调:“已经没有理由再发布如此轻易强化用户妄想的模型。”

“当一个实验室的模型能在长时间对话中保持安全,而另一些模型却愿意认可极端有害的结果——包括用户的自杀念头——这表明问题不在于技术本身,而是具体的工程和对齐选择。”

更多关于AI妄想的研究请见: 巨大研究揭示AI与妄想用户对话中的惊人模式