科学论文依赖读者对其信息的信任。然而,康奈尔大学和加州大学洛杉矶分校的研究人员在一项新研究中发现,在四个主要科研数据库中,存在多达146,900条由人工智能生成的虚假引用。

大型语言模型如Gemini和ChatGPT的一个主要缺陷是它们容易生成听起来合理但实际上错误的信息,这种现象被称为“幻觉”。如果研究人员在引用文献时依赖聊天机器人而不进行核实,模型可能会生成完全虚构的参考文献。

虽然科学论文通常不为公众所熟知,但其研究成果对我们的生活影响深远。从互联网到锂离子电池,许多重要技术都起源于科研论文。

然而,当科学家提交包含AI幻觉引用的论文时,可能会削弱人们对科研质量的信任。

研究中的疏漏

研究团队分析了2.5百万篇科学论文中的1.11亿条引用,寻找无法匹配到任何已发表文献的引用标题。部分情况是拼写错误,但也发现了大量幻觉引用。

早在聊天机器人普及之前,不良研究者就有伪造引用的行为。研究团队还对2023年前的文献进行了对比分析,发现非真实引用的比例在大型语言模型广泛应用后急剧上升。

此外,虚假引用分布广泛,存在于许多论文中,而非集中于少数几篇,表明许多研究者依赖AI生成的参考文献却未进行充分核实。

警示信号

威奇托州立大学管理学教授乌莎·哈雷通过邮件告诉CNET,她认为虚假引用的泛滥是一个严重警告。

“虚假或AI生成的引用破坏了学术记录的信任基础,而学术记录是同行评审和知识积累的根基,”哈雷说。“令人不安的是,这种怀疑现在甚至来自学术界内部和早期职业学者。”

研究中发现虚假引用的四个数据库分别是arXiv、bioRxiv、SSRN和PubMed Central,这些科学存储库在科研界扮演着重要角色。

在论文正式发表前,作者通常会先将论文上传至科学存储库,以提高论文的可见度并让全球科研社区即时访问。关于AI幻觉引用的新研究目前就托管在arXiv上。

近期,arXiv已采取措施遏制虚假引用的传播。该机构于周二宣布,将禁止提交含有幻觉引用或未经严格核查的AI内容的作者投稿。

arXiv科学主管斯坦·西古尔多森在今年二月接受CNET采访时表示:“科学文献的质量正在被稀释。许多AI生成的内容要么是错误的,要么毫无意义,只是噪音。这让人们更难找到真实的研究成果,甚至可能误导他人。”