科学家警告：AI生成的虚假引用正在扰乱科研领域

科学论文依赖读者对其信息的信任。然而，康奈尔大学和加州大学洛杉矶分校的研究人员在一项新研究中发现，在四个主要科研数据库中，存在多达146,900条由人工智能生成的虚假引用。

大型语言模型如Gemini和ChatGPT的一个主要缺陷是它们容易生成听起来合理但实际上错误的信息，这种现象被称为“幻觉”。如果研究人员在引用文献时依赖聊天机器人而不进行核实，模型可能会生成完全虚构的参考文献。

虽然科学论文通常不为公众所熟知，但其研究成果对我们的生活影响深远。从互联网到锂离子电池，许多重要技术都起源于科研论文。

然而，当科学家提交包含AI幻觉引用的论文时，可能会削弱人们对科研质量的信任。

研究中的疏漏

研究团队分析了2.5百万篇科学论文中的1.11亿条引用，寻找无法匹配到任何已发表文献的引用标题。部分情况是拼写错误，但也发现了大量幻觉引用。

早在聊天机器人普及之前，不良研究者就有伪造引用的行为。研究团队还对2023年前的文献进行了对比分析，发现非真实引用的比例在大型语言模型广泛应用后急剧上升。

此外，虚假引用分布广泛，存在于许多论文中，而非集中于少数几篇，表明许多研究者依赖AI生成的参考文献却未进行充分核实。

威奇托州立大学管理学教授乌莎·哈雷通过邮件告诉CNET，她认为虚假引用的泛滥是一个严重警告。

“虚假或AI生成的引用破坏了学术记录的信任基础，而学术记录是同行评审和知识积累的根基，”哈雷说。“令人不安的是，这种怀疑现在甚至来自学术界内部和早期职业学者。”

研究中发现虚假引用的四个数据库分别是arXiv、bioRxiv、SSRN和PubMed Central，这些科学存储库在科研界扮演着重要角色。

在论文正式发表前，作者通常会先将论文上传至科学存储库，以提高论文的可见度并让全球科研社区即时访问。关于AI幻觉引用的新研究目前就托管在arXiv上。

近期，arXiv已采取措施遏制虚假引用的传播。该机构于周二宣布，将禁止提交含有幻觉引用或未经严格核查的AI内容的作者投稿。

arXiv科学主管斯坦·西古尔多森在今年二月接受CNET采访时表示：“科学文献的质量正在被稀释。许多AI生成的内容要么是错误的，要么毫无意义，只是噪音。这让人们更难找到真实的研究成果，甚至可能误导他人。”