本月初,英伟达超越微软重夺全球市值第一的宝座,算是从DeepSeek带来的冲击中缓过了劲。但按下葫芦浮起瓢,作为AI行业的“带头大哥”,OpenAI最近站出来给英伟达添堵了。根据海外媒体The Information的相关报道显示,OpenAI准备将谷歌的TPU芯片纳入采购清单,以为ChatGPT及其他AI产品提供算力支持。
在此之前,OpenAI的大模型预训练和推理都依赖英伟达GPU,也使得其成为了后者最大的算力芯片采购方。此次转向谷歌的TPU芯片,就意味着OpenAI方面正在尝试摆脱对英伟达的依赖,从而实现算力芯片供应的多元化。同时继苹果之后,谷歌的TPU又一次赢得AI大厂的订单,也让它彻底摆脱了“自家玩具”的定位。
OpenAI选择用谷歌TPU取代部分英伟达GPU的原因其实很简单,因为后者的价格太高、太抢手了。据悉,英伟达的旗舰芯片B200拥有高达2080亿的晶体管数量和192GB的HBM3E内存容量,提供8TB/s的内存带宽,采用的是Blackwell架构,AI性能在FP8及新的FP6上都可以达到20PFLOPS,是前代Hopper构架H100运算性能8PFLOPS的2.5倍。
可是配备8颗B200的英伟达DGX B200 AI服务器,售价就高达50万美元,并且根据摩根士丹利的相关报告显示,英伟达Blackwell GPU未来12个月的产能已经被预定一空。
作为对比,谷歌的TPU芯片价格则更加低廉。以苹果打造Apple Foundation Model模型时采购的谷歌TPUv5p为例,尽管双方并未披露这笔订单的具体信息,但业界普遍认为TPUv5p的单价或在数千美元级别。
其实OpenAI与谷歌AI模型的API定价,也可以从侧面证明TPUv5p的低成本特质。OpenAI旗舰模型GPT-o3提供的输入价格是10美元/百万tokens、输出价格是40美元/百万tokens,而谷歌旗舰模型Gemini 2.5 Pro的输入价格和输出价格分别是1美元/百万tokens和4美元/百万tokens。
超高的性价比使得Gemini 2.5 Pro在问世之后很快就受到AI业界的青睐,毫无疑问TPU芯片居功至伟。在AI领域,TPU(专用向量处理器)凭借高度特化实现了比GPU(图形处理器)更便宜,同时它也是谷歌专为加速机器学习中的张量(矩阵)运算所设计的定制硬件,其采用脉动阵列(Systolic Array) 设计,通过流水线式数据流高效处理矩阵乘法,减少了数据移动和内存访问延迟。
事实上,TPU是一个专门针对自然语言处理、图像识别等典型AI任务进行优化的芯片,与通用的GPU截然相反。英伟达的GPU最初是为图形渲染服务,而实现高性能图形渲染的一个重要方法就是并行计算。比如在渲染1920×1080分辨率的画面时,GPU会将400万个像素分配给4000个核心同步处理,每个核心只需要完成“这个像素该显示什么颜色”的简单指令即可。
这也是为什么CPU通常只有十几个核心,可GPU的核心规模就会达到成千上万的原因。到了AI时代,由于AI场景往往需要处理大规模数据和复杂的计算任务,通常会呈现出高度并行化的状态,所以天然更契合采用并行计算的GPU。再搭配英伟达耕耘十余年的并行计算框架CUDA,直接就让他们的GPU丝滑切入了AI计算领域。
简而言之,类似“瑞士军刀”的GPU可谓是功能强大,既能用于渲染图形,又可以用来进行AI训练和推理,而TPU的用途则非常单一,只能用于AI计算。
对于OpenAI而言,图形渲染能力对他们显然毫无意义,并行计算能力才是所需的资源。从某种意义上来说,过去数年时间里,OpenAI采购英伟达GPU时其实一直是在“买椟还珠”。
那么问题就来了,早在2018年,谷歌的TPU芯片就开启了外销商用的步伐,为什么OpenAI直到2025年才将其纳入采购清单呢?其实这就要归功于DeepSeek了。其通过稀疏化训练、动态网络架构、混合专家系统(MoE)等工程层面的创新,让大模型实现了低廉的训练和部署成本。
不仅如此,作为开源模型,DeepSeek的成功还让相当一批AI厂商放弃大模型赛道,并转向智能体、AI应用。以至于进入2025年以来,曾被各大AI厂商挂在嘴边的“预训练”正逐渐被“推理”取代,推理需求的增长曲线更是变得异常陡峭。
简而言之,如今业界对于推理算力的需求其实要比训练算力更大,除了大厂之外,AI创业者也已经放弃打造更强AI模型的想法,转而开始利用现有AI模型的能力来提供AI视频、AI生图、AI代码等服务。恰好谷歌的TPUv5p在推理任务中支持混合精度,可以很好地平衡精度与速度,更适用于提供推理算力。
所以虽然在CUDA生态的加持下,英伟达GPU在AI训练上无人能敌,可偏偏DeepSeek戳破了训练算力需求这个泡沫,就给了OpenAI实现算力供应多元化的机会。其实这对于国内AI厂商来说也是一个好消息,毕竟英伟达在CUDA生态上的积累不是一朝一夕就能弯道超车的,但用TPU代替GPU现阶段更有可行性。
【本文图片来自网络】