刻在石头上的碑文会风化,写在纸上的文字会被遗忘,千百年来如何保存信息一直是人类文明的难题。直到互联网的出现,它成为了一个被认为保存信息的绝佳载体,“互联网是有记忆的”也一度成为共识。

然而在2015年,TCP/IP协议和互联网架构的联合设计者之一、时任谷歌副总裁的温特·瑟夫抛出了一个惊人的观点。他认为随着数字技术的不断迭代演化,人类保存在互联网上的图片、文档、文件等信息可能会彻底丢失,在进入一个“数字黑暗时代”后,未来的人类或许根本就没有关于21世纪的历史记录。
作为互联网行业的先驱者,温特·瑟夫并非哗众取宠,他的担忧在过去十年间正一步步成为现实。
此前在2023年,美国著名智库皮尤研究中心发布了一份报告,显示截至2023年10月,2013年至2023年期间存在的网页中有25%已处于“404 Not Found”状态。到了2024年,谷歌、百度、必应这三大搜索引擎也陆续取消了网页快照功能。
以往互联网信息的散佚往往来源于平台方因成本问题主动放弃,可最近发生的事情,让“数字黑暗时代”有了从“寓言”变成“预言”的征兆。日前《连线》杂志的报道显示,《USA Today》《纽约时报》《卫报》等多个知名媒体开始屏蔽互联网档案馆旗下的时光机 (Wayback Machine) 快照功能,不再允许后者抓取他们的页面并将其存档。

《连线》在文中举了一个让人哭笑不得的例子,《USA Today》不久前曾刊发了一篇揭露美国移民与海关执法局如何拖延披露其拘留政策影响的报道,就正是基于互联网档案馆“时光机”抓取的数据。对此互联网档案馆负责人马克·格雷厄姆对此吐槽道,“他们能完成这篇调查报道正是因为‘时光机’的存在,可他们却在封禁访问权限。”
《USA Today》发言人拉克-玛丽 · 安东表示,此举并非专门针对互联网档案馆,而是该机构全面封禁所有爬虫程序的举措之一。《卫报》商务与授权总监罗伯特·哈恩的解释则是,“担忧人工智能公司可能滥用为存档目的抓取的内容。”据不完全统计,目前已有23家主流新闻网站屏蔽了互联网档案馆为“时光机”使用的网络爬虫“ia_archiverbot”。

作为全球最知名的非营利性网站,互联网档案馆是网民们了解互联网历史的最有效工具,这也导致它在过去几年麻烦缠身。早在2023年,互联网档案馆就曾因致力于保护黑胶唱片录音数据的“Great 78项目”,被索尼等唱片巨头发起版权诉讼。最终这些唱片巨头们得偿所愿,数千份数字化录音被下架。此次这些新闻媒体同样是打着版权保护的旗号,拒绝互联网档案馆收录“网络记忆”。
那么问题就来了,新闻媒体的数字化是从本世纪初开始,而互联网档案馆收录媒体的网页已经有超过二十年的历史,为何到2026年这些媒体才想起来保护版权呢?从某种意义上来说,互联网档案馆这次是遭遇了无妄之灾,因为这些新闻媒体真正想要封禁的是AI厂商的爬虫。
关于新闻媒体与OpenAI、Anthropic、Perplexity等AI厂商进行版权诉讼的报道,如今在互联网上已经随处可见,但由于押注AI已然成为各国的策略,就使得版权大棒砸在AI厂商身上只是不疼不痒,也导致新闻媒体用法律来保护自己的资产不被AI厂商利用变得徒劳无功。

在无法阻拦旗下记者、编辑、专栏作家产出的高质量内容成为训练AI大模型语料的情况下,新闻媒体的思路也发生了变化。既然自己的内容不可避免地会蜕变为绞索,他们选择将绞索卖一个好价钱,也就是与OpenAI等AI厂商合作。
毕竟将内容卖给AI厂商是饮鸩止渴、杀鸡取卵,终有一天AI大模型的写作能力将超越人类。可是放任互联网档案馆将自家内容免费公开在互联网上,新闻媒体连眼前的利益都拿不到,自然也就顾不上互联网档案馆为全球网民提供的公共利益了。
只能说AI大模型技术确实当得起“AI的iPhone时刻”,也真真切切改变了互联网世界的运行方式。未来“建墙”或将成为新的常态,在某种意义上,Web 3的去中心化理想、创作者经济,正在以一种面目全非的方式变为现实。
【本文图片来自网络】
