ArXiv 是一个广泛使用的开放预印本研究存储库,近期加强了对科学论文中不当使用大型语言模型(LLM)的监管。

虽然ArXiv上的论文是在同行评审前发布的,但它已成为计算机科学和数学等领域研究传播的主要渠道之一,同时该平台也成为科学研究趋势数据的重要来源。

为了应对越来越多低质量的AI生成论文,ArXiv已经采取措施,例如要求首次投稿者必须获得资深作者的推荐。经过20多年由康奈尔大学托管后,ArXiv正转型为独立的非营利组织,这将有助于其筹集更多资金来解决AI生成内容带来的问题。

ArXiv计算机科学板块负责人Thomas Dietterich近日发布声明称,如果提交的论文中存在“不可辩驳的证据”表明作者未核查LLM生成的结果,那么该论文的内容将被视为不可信。

这类不可辩驳的证据可能包括“虚构的引用”或论文中与LLM交互的注释等。如果发现此类证据,论文作者将面临一年禁发ArXiv的处罚,禁令结束后,作者的后续投稿必须先通过权威同行评审渠道的接受。

需要强调的是,这并非完全禁止使用LLM,而是要求作者对论文内容负“全部责任”,无论内容如何生成。如果研究者直接复制粘贴LLM生成的“不当语言、抄袭内容、偏见内容、错误、错误引用或误导性内容”,他们仍需承担相应责任。

Dietterich向媒体表示,这将实行“一次违规即罚”的规则,但必须由版主标记问题,板块负责人确认证据后才会执行处罚,且作者有权提出申诉。

近期同行评审研究发现,生物医学领域中虚假引用现象有所上升,可能与LLM的使用有关。不过,科学家并非唯一被发现使用AI虚构引用的人群,其他领域也有类似情况出现。