日前有消息显示,包括《纽约时报》《USA Today》《卫报》以及Reddit在内,已有超过20家新闻机构与互联网平台对互联网档案馆(Internet Archive)的“时光机(Wayback Machine)”工具采取限制措施,包括完全屏蔽“时光机”的专用爬虫、将自家内容排除在互联网档案馆API之外。
对于采取这一举措的理由,多个新闻机构与平台表示,此举旨在防止AI公司通过该存档工具间接抓取受版权保护的内容用于模型训练。
例如《纽约时报》发言人格雷厄姆 · 詹姆斯表示,“问题在于,互联网档案馆中的内容正被AI公司用于训练,违反版权法,与我们形成直接竞争”。《USA Today》发言人拉克·玛丽·安东则强调,此举并非专门针对互联网档案馆,而是该机构全面封禁所有爬虫程序的举措之一。

对此,互联网档案馆相关负责人马克 · 格雷厄姆回应称,“毫无疑问,公共网络越来越多的内容被封锁,正在削弱社会了解世界真相的能力”。此外他还指出,《USA Today》近期一篇揭露美国移民政策统计数据的深度报道,正是依靠“时光机”保存的历史数据才得以完成,“他们能完成这篇调查报道,正是因为‘时光机’的存在。可与此同时,他们却在封禁访问权限”。
但马克 · 格雷厄姆也认为,目前互联网档案馆方面正在与相关新闻机构、互联网平台沟通协商,并认为部分当前封禁其爬虫的新闻机构最终可能改变态度。
据悉,针对新闻机构与互联网平台的相关举措,目前已有知名电视主播蕾切尔 · 玛多等百余名在职记者联合电子前沿基金会(EFF)发表支持信,声援互联网档案馆。信中写道,“在过去,记者会查阅地方报纸或公共图书馆的实体档案,调取历史报道,追溯当下事件的来龙去脉。如今大量报纸关停,地方公共图书馆又缺乏明确途径保存纯数字新闻,守护新闻记录的责任越来越多地落在互联网档案馆身上”。
【本文图片来自网络】
