“搞数据”这件事,已经成为了AI行业的头等大事

一个月前,微软为玩家带来了AI游戏助理Gaming Copilot,帮助玩家应对高难度任务、提升游戏技能,以及详细讲解游戏内容。就在大家喜迎微软的这个“AI游戏搭子”时,有较真的玩家却发现,Gaming Copilot居然是“特洛伊木马”。

2025年,“搞数据”将会是AI创业的头等大事

随着最近一次更新,自动安装在玩家电脑上的Gaming Copilot被海外游戏论坛ResetEra的用户发现,会自动上传游戏截图和录屏内容。在Gaming Copilot AI的隐私设置中,“文本模型训练”选项是默认开启状态。当然,这位用户也欣慰地表示,微软还没有彻底丧心病狂,收集用户对话语音的选项暂时处于未开启状态。


这次消息一出,瞬间就让玩家社区一片哗然。原本以为Gaming Copilot的存在可以让自己随时召唤AI来解决游戏过程中遇到的问题,不再需要频繁切出游戏查攻略,结果Gaming Copilot居然是一个隐藏的“间谍”,目的居然是图谋大家的隐私数据。

2025年,“搞数据”将会是AI创业的头等大事

只能说微软在“坑”游戏玩家这件事上几乎已经形成了习惯,此前的“Edge游戏助手”让电脑变卡也就罢了,如今的Gaming Copilot更是将玩家当“人肉电池”。这一次Gaming Copilot悄悄收集数据并非微软的无心之举,而是有意为之,为的就是让玩家在不经意间将数据交出去。


关于微软为何要“口蜜腹剑”,看完接下来这个消息,许多朋友想必就会明白。就在Gaming Copilot被玩家发现会自动上传数据的几乎同一时间,“美国贴吧”Reddit在纽约联邦法院起诉了AI搜索独角兽Perplexity AI,指控后者通过“工业规模的非法抓取”行为,未经许可复制Reddit用户的评论以牟取商业利益。

2025年,“搞数据”将会是AI创业的头等大事

数据如同化石燃料般正在枯竭、AI革命正“吸干”互联网数据的海洋,这是AI专业人士自去年就开始不断发出的警告。而在2025年,AI业界更是出现了一个有趣的现状,那就是各大AI厂商的大模型不约而同地放弃了通用化、开始追逐差异,诸如OpenAI的GPT-5长于搜索、谷歌的Gemini 2更擅长数学、Anthropic的Claude 4则精通代码。


事实上,不同厂商的AI大模型各有所长,是因为他们在RLHF(基于人类反馈的强化学习)上的差异。据OpenAI首席科学家Ilya Sutskever的说法,决定RLHF阶段性效果的除了算法之外,数据的质量更是一个决定性因素。这背后其实就反映出了这样一个现实,即AI大模型的迭代从纯粹的参数规模膨胀,已经转向了萃取高质量数据。


AI大模型的训练本就依赖海量数据,可如果输入的数据存在错误,训练出来的模型自然也会“学坏”,输出的结果同样是“垃圾”。没错,与人类一样,一旦接触低质信息过多,大模型也会出现认知退化的“脑腐”(Brain Rot)现象。

2025年,“搞数据”将会是AI创业的头等大事

大模型持续暴露于垃圾数据的具体表现,就是推理能力下降、长上下文理解能力变差、伦理规范意识减弱等系统性的退化,并且这一趋势是不可逆的,难以通过后期的微调修复。为了避免自家大模型不进反退,各大AI厂商自然也就开始千方百计地寻求高质量的数据。


但遗憾的是,论文、书籍等高质量数据已经被消耗殆尽。由于AI厂商一口气挥霍了过去三十年间互联网世界积累的绝大部分知识,才造就了AI大模型在过去两年迎来“寒武纪生命大爆发”。现在凝聚了人类智慧结晶的高质量数据断供,AI厂商就被迫在沙海淘金,尽管Reddit的社交数据、Gaming Copilot所收集的玩家行为数据确实质量堪忧,但好歹也是产出有保证的数据。

2025年,“搞数据”将会是AI创业的头等大事

如今矛盾之处,就在于不仅仅是AI厂商认识到了一切数据都有价值,Reddit这样的数据拥有者也一样。从某种意义上来说,AI初创企业的至暗时刻其实是2025年,因此在此之后,巨头和初创企业获取数据能力的差异,会让后者再无弯道超车的机会。


以微软和Perplexity AI为例,在合法合规的情况下,前者获取数据的能力显然是碾压后者。毕竟微软旗下的产品极为丰富,诸如Office可以贡献办公数据、Gaming Copilot能带来游戏数据,因此就是的微软能收集大而全的数据。


可反观Perplexity AI,尽管作为AI搜索独角兽、并非AI赛道的无名之辈,甚至他们的AI搜索引擎还一度让谷歌搜索左支右绌。可Perplexity AI只有AI搜索这一个产品,就注定了他们只能从1500万活跃用户身上取得数据。如果仅仅从自家用户身上获取数据,Perplexity AI就注定将迎来“加拉帕戈斯化”,指的就是在孤立的市场环境下独自进行“最适化”,从而丧失与区域外的互换性,进而导致产品与主流需求脱节。

2025年,“搞数据”将会是AI创业的头等大事

如果Perplexity AI不向外“掠夺”数据,他们的AI出现“脑腐”的概率自然就要远高于微软的Copilot。简而言之,AI赛道百舸争流、千帆竞逐的场面,很有可能会在未来一两年内结束。因为拥有数据的内容平台不会再让AI厂商平白无故地拿走数据,这就会导致缺乏资金的初创企业失去了数据源。


毕竟当微软等AI大厂能利用旗下各种产品悄悄获取用户数据,而Perplexity AI等初创企业只能去“抢”的情况下,长此以往,双方的差距就只会越来越大。


【本文图片来自网络】

踩(0)

最新文章

相关文章

大家都在看