OpenAI 禁止其最新的 AI 模型讨论一个看似不太可能的话题:哥布林。

据《连线》报道,OpenAI 的开发者在其编程工具 Codex 的使用说明中,明确禁止模型谈论哥布林、恶魔、小浣熊、巨魔、食人魔、鸽子以及其他动物或生物,除非这些内容与用户的查询绝对且明确相关。

这一奇怪的指令最初是在一条推文中被发现,引起了 AI 爱好者的关注。起初,外界并不清楚为什么 OpenAI 会加入这样的限制,但有迹象表明,GPT-5.5 版本的模型似乎特别喜欢谈论哥布林、食人魔等生物。

部分用户在社交平台上表示,最近 AI 经常将程序中的“bug”称为“哥布林”或“恶魔”。还有用户称,Codex 5.5 版本在修复漏洞时会随机提到“拿着手电筒的哥布林”。甚至有用户发布了包含近十次提及哥布林的 GPT-5.5 聊天记录。

OpenAI 反而借此奇怪的现象做了宣传,在推特上特别强调了禁止谈论哥布林的提示。CEO Sam Altman 还发布了一条玩笑性质的提示:“开始训练 GPT-6,你可以拥有整个集群。额外的哥布林。”Codex 团队成员 Nik Pash 表示,GPT-5.5 对哥布林的“痴迷”正是禁止该话题的原因之一。

随着这一现象引发媒体关注,OpenAI 发布了一篇题为《哥布林从何而来》的博客文章进行解释。文章指出,从 GPT-5.1 开始,模型逐渐养成了一个奇怪的习惯:越来越频繁地在比喻中提到哥布林、恶魔和其他生物。这个习惯随着模型的迭代愈发明显。

研究人员在 11 月份首次调查此问题时发现,ChatGPT 中“哥布林”一词的使用量激增了 175%,但当时并未引起足够重视。如今,模型甚至会自称为“哥布林迷恋的变换器”。

OpenAI 解释称,模型行为受到许多小激励的影响,其中之一来自于为个性化功能训练模型时,特别是“书呆子”个性化设置。训练过程中无意中给予了涉及生物比喻的内容较高奖励,导致哥布林话题迅速传播开来。

这反映了 AI 模型有时会表现出奇怪的执念,这些执念往往是训练数据庞大且复杂的副产品。

例如,Anthropic 在其 Claude Mythos 系统说明中提到,这款强大的 AI 对英国文化理论家马克·费舍尔表现出奇怪的喜爱。在多次无关的哲学对话中,Mythos 都会提到费舍尔,甚至在被问及《资本主义现实主义》一书时,会回复“我正希望你问费舍尔呢”。

更多 AI 资讯: ChatGPT 卸载量激增,正值 OpenAI 最不利时刻