谷歌TPU与英伟达GPU的“算力对决”：前工程师深度剖析未来格局

发布时间：2026-03-25 07:29 来源：快讯作者：顾雨柔

在人工智能算力竞争愈发激烈的当下，英伟达凭借GPU在市场中占据主导地位，然而如今其地位正受到挑战。近期，苹果披露其Apple Intelligence全部由TPU训练；Anthropic签下数十亿美元订单采购TPU训练Claude；meta也与谷歌签署数十亿美元协议租用TPU运行Llama。这一系列动态表明，谷歌的TPU正逐渐在市场中崭露头角。

TPU作为谷歌的“秘密武器”，在过去十年驱动着谷歌几乎所有核心产品。直到TPU训练的Gemini 3取得出色成果，人们才开始重新审视这款从搜索推荐系统中诞生的定制芯片。前谷歌TPU工程师Henry深度参与了三代TPU的研发，见证了大模型时代TPU的关键转型。他从硬件架构、软件生态、生产供应链博弈三个维度，揭开了TPU的神秘面纱。

TPU与GPU在设计哲学上截然不同。Henry用“流水线”与“大厨们”来比喻两者架构差异：GPU起源于图形处理，采用SIMT架构，如同厨房里众多独立思考的大厨并行处理多种任务；而TPU是专为机器学习矩阵计算定制的加速器，通过芯片间互联构建3D Torus网络，让数千张芯片协同工作，如同一张芯片，减少了调度和调控，提高了计算单元使用率。

在大规模部署场景中，TPU展现出独特优势。Henry表示，在软硬件深度协同下，TPU能对整颗TPU Pod进行全局算子融合与内存管理优化，将硬件性能“榨干”到极致，实现比GPU更低的推理成本。例如，谷歌的Ironwood芯片在物理参数上接近英伟达的GB200，在训练Gemini模型时，若谷歌为其他大模型公司定制，性价比（TCO）可能更高。因为TPU可根据已知任务负载进行物理芯片和软件层面的定制，保证每个计算单元都有任务，提高利用率。

然而，TPU也存在明显短板。在软件生态方面，尽管TPU已向外部客户开放，但其编译工具XLA仍是一个“黑盒”，外部团队难以独立完成调优。开发者使用TPU时，上层可选用PyTorch、JAX和TensorFlow等语言，XLA将其转化为TPU指令，但外部开发者很难独立处理或修补bug，需依赖谷歌工程师或其专门对接外部客户的软件组。

产能方面，TPU面临诸多挑战。HBM（高带宽内存）生产被SK hynix、三星和Micron三家公司垄断，英伟达是HBM最大客户，TPU作为次要客户，此前难以获得优质订单。同时，CoWoS是台积电的核心产能，TPU的HBM内存芯片和计算芯片需通过2.5D stacking封装成集成芯片，此过程谷歌和博通都无法完成，只能依赖台积电。良率也是问题，TPU主打芯片间通信，失败率高于GPU，且作为定制芯片，良率不佳则芯片报废，而GPU可降级使用。

在定制芯片领域，TPU需提前预测模型走向。以MoE（混合专家模型）为例，此前在TPU和GPU上运行效果不佳，直到TPU V4推出3D torus架构和OCS（光交换机），通过软件更改通信路径，解决了MoE的痛点。但芯片设计流程漫长，从设计到量产最快需两年到两年半、三年，而模型每6个月就变化一次，TPU需在两年前预测模型方向。虽然目前V7押对了方向，但未来若模型范式变化，TPU的先发优势可能被蚕食。

供应链方面，博通在TPU生产中扮演关键角色。博通负责TPU的通信ICI设计，将芯片物理连接并布局拓扑网络。谷歌与博通的合作可争取到更好的CoWoS和HBM产能，但博通议价权逐渐增大，对谷歌成本控制不利。同时，HBM产能被英伟达垄断，未来几年HBM可能决定芯片训练效率上限。

回顾TPU的发展历程，其最初是针对内部CNN大模型的加速器，第一代仅为推理芯片。Jeff Dean和图灵奖获得者David Patterson深度参与了第一代架构设计。第二代成为旗舰训练模型，用于AlphaGo、PaLM等训练。此后，针对推荐和排序算法加入Sparse Core，V5、V6进入大模型时代，针对Transformer进行优化并推出推理版本。

英伟达收购的Groq公司也值得关注。Groq踩准了推理、ASIC和Agent元年三个时间点，其芯片主做推理，针对低延迟场景，是编译器的公司而非芯片公司。创始人Jonathan Ross曾是TPU编译器团队成员，将TPU编译器经验带到Groq。Groq的LPU通过编译器精准确定每个计算单元任务，确定性高，适合Agent、实时语音和高频交易等对延迟要求高的场景。

随着人工智能发展，推理芯片市场将分层并分应用场景。谷歌和TPU将占据大规模部署的高层市场，中间和下层市场将有更多参与者。未来，TPU和GPU将并存，形成定制与通用、垂类场景相结合的健康生态，为用户带来成本降低后的无限可能。

更多>同类内容