美国今日传媒集团(前身为甘尼特公司),旗下拥有其同名报纸及200多个媒体平台,已禁止互联网档案馆的Wayback Machine存档其内容。互联网档案馆的Mark Graham指出:“他们依赖Wayback Machine来汇集新闻研究资料,但同时却阻止访问。”
近期,包括《纽约时报》在内的多家主流新闻机构也开始限制Wayback Machine对其报道的存档。人工智能检测初创公司Originality AI的分析显示,目前有23个主要新闻网站屏蔽了互联网档案馆用于Wayback项目的网络爬虫ia_archiverbot,社交平台Reddit也在其中。其他媒体则采取不同限制措施:例如《卫报》虽未屏蔽爬虫,但其内容被排除在互联网档案馆API之外,且在Wayback Machine界面中过滤文章,令普通用户难以访问其存档内容。
美国今日传媒集团发言人Lark-Marie Anton强调,这一举措并非专门针对互联网档案馆,而是公司阻止所有爬虫抓取的整体策略。《卫报》商务事务及授权主管Robert Hahn表示,双方正就“人工智能公司可能滥用为保存目的抓取的内容”进行沟通。
面对这一趋势,部分记者开始反击。本周,电子前沿基金会(EFF)和Fight for the Future等倡导组织联合发起支持Wayback Machine的行动,召集了100多位在职记者签署支持信,递交给互联网档案馆。签署者涵盖电视名嘴Rachel Maddow、独立记者Spitfire News的Kat Tenbarge及User Mag的Taylor Lorenz等。支持信中写道:“过去,记者会前往地方报纸或公共图书馆的实体档案,追溯历史报道,理清当下事件的历史脉络。如今,随着许多报纸关闭,且地方公共图书馆难以保存纯数字报道,保护新闻记录的工作越来越依赖互联网档案馆。”
签署者之一、《拦截者》播客主管Laura Flynn表示,互联网档案馆是她职业生涯中的“重要工具”,在事实核查和音频片段挖掘中发挥关键作用。另一签署者、《芝加哥读者》记者Micco Caporale称,Wayback Machine帮助他访问旧粉丝网站,便于撰写关于老牌乐队和文化人物的报道。
Caporale还表示,该工具在其工会组织工作中也极为有用:“我经常利用Wayback Machine查找旧招聘信息,了解公司招聘职位与实际分配职责的差异,以及不同岗位的调整情况。这些信息也帮助我们追踪组织内的薪资变动。”

部分出版商阻止Wayback Machine的理由是担忧科技公司利用互联网档案馆数据训练人工智能模型。《纽约时报》发言人Graham James称:“问题在于,互联网档案馆上的时报内容被AI公司用于违反版权法的用途,直接与我们竞争。”(时报未明确说明这是否确有其事,或仅为假设担忧。)
Reddit此前也表示,出于对AI的担忧,阻止了Wayback Machine的爬虫。出版商与AI公司之间围绕未经许可使用内容训练AI工具的合法性争议持续激烈,美国已有100多起相关版权诉讼。科技公司广泛采集互联网内容,Wayback Machine因其庞大资料库成为极具吸引力的数据来源。
互联网档案馆成立30年,已存档超过一万亿个网页。自2020年以来,该非营利组织经历多次重大法律挑战。最近一次是与主要音乐出版商达成和解,避免了因其“Great 78s”项目存档老唱片而面临的最高7亿美元赔偿。尽管目前无重大财务处罚,但越来越多媒体屏蔽Wayback Machine的趋势,对其使命构成严重威胁。
目前尚无可与Wayback Machine匹敌的公开工具。如果其失去对主要新闻源的访问,数字历史早期记录的保存将大受影响,甚至可能永久丢失。值得注意的是,Wayback Machine曾被用于报道《纽约时报》:2016年,该报因修改有关佛蒙特州参议员、时任总统候选人伯尼·桑德斯的文章而遭质疑,相关修订首次通过Wayback Machine被追踪。
若今有类似事件,媒体监督记者可能难以同样方式追踪时报旧版文章。Wayback Machine受限不仅损害问责新闻,也打击司法体系,因为其存档页面常被美国诉讼案件引用为证据。
Mark Graham仍对部分屏蔽其爬虫的出版商改变立场抱有希望。他表示,互联网档案馆正与《纽约时报》等媒体保持沟通。但他同时指出:“毫无疑问,越来越多公共网页被封锁,正在影响社会理解世界的能力。”


