谷歌云发布第八代TPU：专为学习的TPU 8t与推理的TPU 8i

Google Cloud TPU

日本国家谷歌云（Google Cloud）将于2026年4月22日至25日在美国内华达州拉斯维加斯市的曼德勒湾会议中心举办年度盛会“Google Cloud Next '26”。在此之前，公司发布了自研的第八代TPU（张量处理单元）。与以往主要面向AI学习或兼顾学习与推理不同，这一代TPU分为专注学习的TPU 8t和专注推理的TPU 8i两款产品。

TPU 8t在使用FP4格式时的峰值算力达到12.6PFLOPS，配备216GB的高带宽内存（HBM）；而TPU 8i则实现10.1PFLOPS峰值算力，搭载288GB的HBM内存。

谷歌自研AI定制芯片TPU，仅在谷歌云数据中心使用

TPU芯片

谷歌的TPU是2015年推出的专为AI设计的定制芯片，不对外销售，仅在谷歌云数据中心内部使用。包括谷歌自家服务如Gemini以及谷歌云实例均采用TPU，外部用户需通过租用谷歌云实例才能使用相关计算资源。

TPU发展历程

近年来，谷歌每年发布新一代TPU，2024年推出代号为“Trillium”的产品，2025年发布“Ironwood”，而此次的TPU 8t和8i则是其后续升级版本。

此前，谷歌以TPUv3、TPUv4、TPUv5等数字命名TPU型号，2024年和2025年的产品则直接采用代号作为产品名。此次第八代TPU则回归数字命名，称为TPU 8。

此外，第八代TPU首次将产品线分为学习专用的TPU 8t和推理专用的TPU 8i。此前第五代TPU曾区分为TPUv5p和TPUv5e两款，均为学习用途；而Ironwood则为学习与推理通用，芯片型号单一。

TPU 8t与TPU 8i两款芯片及今年内将推出的Vera Rubin NVL72

TPU 8t和8i

TPU 8t针对大规模AI学习设计，单芯片性能达12.6PFLOPS，配备216GB HBM内存。网络带宽较上一代Ironwood的100Gbps提升至400Gbps，支持最多9600个芯片的集群扩展，整体算力从42.5EFLOPS提升至121EFLOPS，提升约2.85倍。

规格	TPU 8t	TPU 8i
目标用途	大规模学习	推理
特殊芯片功能	SparseCore+LLM解码引擎	CAE（集体加速引擎）
片上SRAM	128MB	384MB
峰值算力(FP4)	12.6PFLOPS	10.1PFLOPS
HBM容量	216GB	288GB
HBM带宽	6528GB/s	8601GB/s
集群最大规模	9600个芯片	1152个芯片

TPU 8i则更适合推理任务，芯片内置2个TensorCore和1个CAE，配备288GB HBM和384MB片上SRAM缓存，支持高速低延迟内存访问，满足AI代理和智能体对低延迟的需求。其峰值算力为10.1PFLOPS，最大支持1152个芯片集群扩展，集群算力较上一代Ironwood提升近10倍。

谷歌高级副总裁兼AI基础设施技术负责人阿明·瓦达特（Amin Vahdat）指出，低延迟对AI代理和智能体至关重要，TPU 8i正是为此类应用设计。

TPU 8i芯片