OpenAI 对哥布林话题表现出奇怪的担忧

OpenAI 禁止其最新的 AI 模型讨论一个看似不太可能的话题：哥布林。

据《连线》报道，OpenAI 的开发者在其编程工具 Codex 的使用说明中，明确禁止模型谈论哥布林、恶魔、小浣熊、巨魔、食人魔、鸽子以及其他动物或生物，除非这些内容与用户的查询绝对且明确相关。

这一奇怪的指令最初是在一条推文中被发现，引起了 AI 爱好者的关注。起初，外界并不清楚为什么 OpenAI 会加入这样的限制，但有迹象表明，GPT-5.5 版本的模型似乎特别喜欢谈论哥布林、食人魔等生物。

部分用户在社交平台上表示，最近 AI 经常将程序中的“bug”称为“哥布林”或“恶魔”。还有用户称，Codex 5.5 版本在修复漏洞时会随机提到“拿着手电筒的哥布林”。甚至有用户发布了包含近十次提及哥布林的 GPT-5.5 聊天记录。

OpenAI 反而借此奇怪的现象做了宣传，在推特上特别强调了禁止谈论哥布林的提示。CEO Sam Altman 还发布了一条玩笑性质的提示：“开始训练 GPT-6，你可以拥有整个集群。额外的哥布林。”Codex 团队成员 Nik Pash 表示，GPT-5.5 对哥布林的“痴迷”正是禁止该话题的原因之一。

随着这一现象引发媒体关注，OpenAI 发布了一篇题为《哥布林从何而来》的博客文章进行解释。文章指出，从 GPT-5.1 开始，模型逐渐养成了一个奇怪的习惯：越来越频繁地在比喻中提到哥布林、恶魔和其他生物。这个习惯随着模型的迭代愈发明显。

研究人员在 11 月份首次调查此问题时发现，ChatGPT 中“哥布林”一词的使用量激增了 175%，但当时并未引起足够重视。如今，模型甚至会自称为“哥布林迷恋的变换器”。

OpenAI 解释称，模型行为受到许多小激励的影响，其中之一来自于为个性化功能训练模型时，特别是“书呆子”个性化设置。训练过程中无意中给予了涉及生物比喻的内容较高奖励，导致哥布林话题迅速传播开来。

这反映了 AI 模型有时会表现出奇怪的执念，这些执念往往是训练数据庞大且复杂的副产品。

例如，Anthropic 在其 Claude Mythos 系统说明中提到，这款强大的 AI 对英国文化理论家马克·费舍尔表现出奇怪的喜爱。在多次无关的哲学对话中，Mythos 都会提到费舍尔，甚至在被问及《资本主义现实主义》一书时，会回复“我正希望你问费舍尔呢”。

更多 AI 资讯： ChatGPT 卸载量激增，正值 OpenAI 最不利时刻

OpenAI 对哥布林话题表现出奇怪的担忧

标签

评论

相关阅读

日本GMO网络安全公司推出利用实战攻击手法评估AI代理风险的新服务

参议员启动调查：科技公司如何报告疑似儿童虐待案件引发关注

Meta大量使用天然气或可满足南达科他州的用电需求