大英百科全书(Encyclopedia Britannica)及其旗下的韦氏词典(Merriam-Webster)近日对OpenAI提起诉讼,指控这家人工智能巨头存在“严重的版权侵权”行为。诉状中指出,OpenAI未经许可,擅自抓取并使用了大英百科全书拥有版权的近10万篇在线文章,用于训练其大型语言模型(LLM)。
诉讼还指控OpenAI在生成内容时,存在“全部或部分逐字复制”大英百科全书内容的行为。此外,OpenAI在其ChatGPT的检索增强生成(Retrieval Augmented Generation,RAG)流程中使用了这些文章,涉嫌违反版权法。RAG技术使得模型在回答查询时能够扫描网络或数据库中的最新信息。大英百科全书还称,OpenAI在生成虚假信息时错误地将其归因于该出版社,违反了《兰哈姆法案》(Lanham Act)——一项商标法。
诉状中指出:“ChatGPT通过生成替代并直接竞争于大英百科全书等出版商内容的回答,剥夺了网络出版商的收入。”同时,大英百科全书认为,ChatGPT的虚假信息危及公众获取高质量、可信赖在线信息的渠道。
大英百科全书加入了众多出版商和作者对OpenAI提起版权诉讼的行列。包括《纽约时报》(New York Times)、Ziff Davis(旗下拥有Mashable、CNET、IGN、PC Mag等品牌)以及美国和加拿大的十多家报纸,如芝加哥论坛报、丹佛邮报、太阳哨兵报、多伦多星报和加拿大广播公司等,都已对OpenAI提起诉讼。

此外,大英百科全书针对Perplexity的类似诉讼仍在审理中。
目前,关于使用受版权保护内容训练大型语言模型是否构成侵权,尚无明确的法律先例。但在一起案件中,Anthropic成功说服联邦法官William Alsup认为,将内容用作训练数据具有足够的变革性,因此合法。然而,法官认为Anthropic非法下载数百万本书籍而未支付费用,导致其需支付15亿美元的集体诉讼和解金。
OpenAI在本文发布前未对TechCrunch的置评请求作出回应。


