版权内容可“合理使用”,AI厂商迎来了好时代

一觉醒来,内容创作者和艺术家的天似乎要塌了。据海外相关媒体在6月25日的报道显示,美国加州北区法院日前做出判决,美国AI初创企业Anthropic使用受版权保护的作品来训练AI大模型属于合理使用范畴。

版权内容可以“合理使用”,AI厂商的好时代来临了

本案的背景,是数位美国作家在去年将Anthropic告上法庭,指控后者使用盗版书籍训练其Claude模型。对此美国联邦法官William Alsup指出,“原告的控诉无异于抱怨学校培养孩子写作会导致竞争作品激增,《版权法》旨在推动原创作品的发展,而非保护作者免受竞争。”


最终William Alsup法官选择各打五十大板,一方面他做出了有利于Anthropic的裁决,后者购买实体书籍裁切页面、扫描,并用于训练AI大模型的行为合法,可以用亚马逊上的图书价格来确定Anthropic获取书籍内容的成本。另一方面这位法官也表示,Anthropic通过互联网下载盗版书籍是非法的,这一过失仍需单独追究法律责任。

版权内容可以“合理使用”,AI厂商的好时代来临了

要知道在美国版权法的框架下,如果版权作品已经注册,原告就可以要求进行法定赔偿(Statutory Damages),而不是实际损失赔偿。按照以往的判例,美国版权侵权官司的最低法定赔偿标准,是为每个侵权作品的每次侵权行为支付750美元。如果按照Anthropic自2021年起就从一系列盗版网站下载了超过700万本书的事实,他们可能要面临超过50亿美元的罚金。


Anthropic赢得这场皮洛士式的胜利,就会让整个AI业界在面对版权内容时可以合法应用“合理使用原则”(fair use),也让自己不会面临一笔史无前例的赔偿。这下“请先生赴死”的网络热梗就在AI业界具象化了,Anthropic算是给其他AI厂商使用版权内容开辟了一条终南捷径。

版权内容可以“合理使用”,AI厂商的好时代来临了

“AI的训练数据如同化石燃料一样面临着耗尽的危机”,自2024年开始就不断有AI科学家发出这样的警告。比如OpenAI前首席科学家Ilya Sutskever,就曾在2024年的第38届神经信息处理系统年会的演讲中表示,“一个无法改变的事实是,我们只有一个互联网。我们已经达到数据峰值,不会再有更多数据了,所以必须处理好现有的数据。”


而AI行业之所以会在2023、2024年狂飙突进,大模型的性能实现跨越式增长,其实是AI厂商将互联网世界过去三十年积累的数据一次性利用的结果。Common Crawl、The Pile、维基百科等开源数据集,早已被OpenAI、Anthropic、谷歌等厂商嚼成了“甘蔗渣”,也导致市面上的开源数据已经进入“资源枯竭”状态。

版权内容可以“合理使用”,AI厂商的好时代来临了

为了提升模型的通用性,AI厂商就必须使用涵盖广泛主题和语言风格的海量数据,来让大模型理解复杂的语言结构和语义关系。同时随着AI大模型走向多模态和跨领域应用,它们对不同类型和领域数据的需求也开始显著增加,又进一步推动了数据量的增长。


“不管黑猫白猫,能捉老鼠的就是好猫”,为了满足自身对于数据的需求,AI厂商一边走正道、花钱购买数据,一边则是通过技术手段来偷偷获取被版权保护的内容。进入2024年以来,一众AI厂商为了尽可能地收集数据,已经不再那么“守规矩”,由于他们需要将有限的预算花在算力、电力、水资源等刚性支出上,以至于“偷数据”甚至变成了整个业界心照不宣的操作。

版权内容可以“合理使用”,AI厂商的好时代来临了

例如,苹果、英伟达、OpenAI在训练AI模型时使用了YouTube未经授权数据,Anthropic的爬虫用DDos的方式从一票网站抓数据,大家甚至连表面功夫都不愿意做了。当然,AI业界还在尝试用“合成数据”来训练大模型,试图用AI自我生成的数据来摆脱数据荒。


然而《Nature》中的一篇论文显示,使用AI生成数据集训练大模型会污染它们的输出,无法避免“模型崩溃”(model collapse),就使得AI厂商对于合成数据的使用变得异常审慎,所以他们也不得不保持对传统数据的依赖。

版权内容可以“合理使用”,AI厂商的好时代来临了

这次美国法院的判决,实质上是将AI厂商通过技术手段获取版权内容的灰色手段给洗白,并明确了“合理使用原则”不仅适用于互联网,同样也适用于AI。考虑到引领AI潮流的海外厂商基本都在加州,William Alsup的这次落槌就好似蝴蝶振翅,将可能会重塑当下AI业界的时常竞争态势。


当这些AI厂商有了“合理使用原则”作为护身符,版本内容的拥有者可就要倒霉了。作为当下前沿科技的代表,AI业界在信息技术领域几乎碾压其他行业,版本内容拥有者无疑是被降维打击,这也就意味着当AI厂商使用技术手段强行获取版权内容时,版权方将束手无策。

版权内容可以“合理使用”,AI厂商的好时代来临了

以往版权方还可以选择呼唤监管、使用法律武器来保护自己,可随着“合理使用原则”被司法部门认定为适配AI行业,一切就都变了。当监管选择中立,AI厂商与版权方的博弈无异于是“胖虎欺负大熊”。所以可以预见地是,robots.txt协议即将成为废纸,AI厂商的爬虫必然会席卷整个互联网世界。


不仅如此,类似Reddit这种向OpenAI、谷歌卖数据的模式,可能也会难以长久。毕竟能用爬虫抓取数据的情况下,为什么还要花钱买呢?这也就能解释为何此前对AI音乐“喊打喊杀”的一众唱片巨头,会在本月初突然选择与AI音乐厂商谈判。只能说这些唱片巨头不愧是成功穿越了互联网周期的存在,嗅觉就是灵敏。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看