独家探访亚马逊Trainium实验室：赢得Anthropic、OpenAI甚至苹果青睐的芯片

亚马逊CEO安迪·贾西宣布AWS与OpenAI达成突破性的500亿美元投资协议后不久，亚马逊邀请我参观了这笔交易核心的芯片开发实验室，费用主要由亚马逊承担。

业内专家正密切关注该实验室打造的Trainium芯片，因其在降低AI推理成本方面的潜力，以及可能打破英伟达几乎垄断的局面。

出于好奇，我接受了邀请。

当天的导览由实验室主任Kristopher King和工程总监Mark Carroll带领，此外还有负责安排此次访问的公关人员Doron Aronson。

AWS自Anthropic成立初期便是其主要云平台，这一关系足够稳固，以至于Anthropic后来引入微软作为云合作伙伴，亚马逊与OpenAI的合作也在不断深化。

OpenAI的协议使AWS成为其新AI代理构建器Frontier的独家提供商。如果代理技术如硅谷预期般发展，Frontier可能成为OpenAI业务的重要组成部分。尽管如此，金融时报本周报道微软认为OpenAI与亚马逊的协议可能违反了其与OpenAI的协议，特别是微软拥有对OpenAI所有模型和技术的访问权。

AWS之所以对OpenAI极具吸引力，是因为该云巨头承诺为OpenAI提供2吉瓦的Trainium计算能力。考虑到Anthropic和亚马逊自有的Bedrock服务已经消耗Trainium芯片的速度超过亚马逊的生产速度，这是一项巨大的承诺。

目前，全球已部署了140万颗Trainium芯片，Anthropic的Claude模型运行在超过100万颗Trainium2芯片上。

值得注意的是，Trainium最初主要用于更快、更低成本的模型训练（这是几年前的重点），现在也被调优用于推理。推理，即运行AI模型生成响应的过程，是当前行业最大的性能瓶颈。

例如，Trainium2承担了亚马逊Bedrock服务的大部分推理流量，该服务支持亚马逊众多企业客户构建AI应用，并允许应用使用多种模型。

“我们的客户群正在以我们能提供的容量速度快速增长，”King表示。“Bedrock有一天可能会像EC2一样庞大，”他补充道，EC2是AWS的旗舰计算云服务。

除了为英伟达繁忙且难以获取的GPU提供替代方案，亚马逊表示其新芯片搭载在专用的Trn3 UltraServers上，运行成本比传统云服务器低50%，性能相当。

2025年12月发布的Trainium3芯片配合新开发的Neuron交换机，Carroll称这一组合具有变革性。

“这让我们拥有了巨大的优势，”Carroll说。交换机让每颗Trainium3芯片以网状结构相互通信，降低延迟。“这就是Trainium3打破各种纪录的原因，尤其是在‘每瓦性能价格’方面。”

当每天处理数万亿个令牌时，这些改进的效果尤为显著。

事实上，亚马逊芯片团队在2024年获得了苹果的高度赞扬。苹果AI主管公开描述了其如何使用该团队设计的另一款芯片Graviton——一款低功耗、基于ARM的服务器CPU，也是该团队设计的首款爆款芯片。苹果还赞扬了专为推理设计的Inferentia芯片，并对当时新推出的Trainium给予肯定。

这些芯片体现了亚马逊经典的策略：洞察市场需求，打造价格有竞争力的自研替代品。

芯片领域的难点历来是切换成本。为英伟达芯片编写的应用必须重新架构才能兼容其他芯片，这一耗时过程阻碍了开发者的切换意愿。

但AWS芯片团队自豪地告诉我，Trainium现已支持流行的开源AI模型构建框架PyTorch，包括Hugging Face上托管的众多模型。

Carroll表示，迁移过程“基本只需一行代码修改，然后重新编译，就能在Trainium上运行。”换言之，亚马逊正努力在各方面削弱英伟达的市场垄断。

本月，AWS还宣布与Cerebras Systems合作，将其推理芯片集成到搭载Trainium的服务器上，承诺实现超强、低延迟的AI性能。

亚马逊的野心不仅限于芯片本身，还包括设计承载芯片的服务器。除了网络组件，该团队还设计了“ Nitro ”，这是一套硬件与软件结合的虚拟化技术，支持同一服务器上多个软件实例独立运行；此外还有先进的液冷技术和服务器托盘（sleds），这些都是为了控制成本和提升性能。

亚马逊定制芯片设计团队起源于2015年1月亚马逊以约3.5亿美元收购以色列芯片设计公司Annapurna Labs，至今已有超过十年的芯片设计经验。该团队保留了Annapurna的根基和名称，办公室内随处可见其标志。

芯片实验室位于奥斯汀高档的“The Domain”区，这里商店和餐厅林立，被称为“奥斯汀的硅谷”。

办公室充满典型科技企业氛围：工位、休息区和会议室。实验室位于大楼高层后方，俯瞰城市景观。

实验室面积相当于两个大型会议室，设备风扇使空间噪音较大，环境介于高中工艺教室与好莱坞高端实验室之间，工程师们穿着牛仔裤而非白大褂。

需要说明的是，这里并非芯片制造地，无需穿戴白色防护服。Trainium3是先进的3纳米芯片，由台积电制造，其他芯片则由Marvell生产。

这里是“bring-up”过程的魔法发生地。

“硅片bring-up是指首次激活芯片，就像一场通宵派对。你会被‘锁’在这里，”King解释道。经过18个月的努力，芯片首次激活以验证其设计是否正常。团队甚至将Trainium3的bring-up过程拍摄并发布在YouTube上。

剧透：过程从不顺利。

Trainium3原型芯片最初采用风冷，与前代相同。现行芯片改用液冷，带来能效优势，是一项工程壮举。

bring-up期间，芯片与风冷散热器的尺寸不匹配，导致芯片无法激活。

团队毫不气馁，立即拿起磨床开始打磨金属。为了不打扰bring-up的披萨派对氛围，他们偷偷到会议室进行打磨。

King说：“熬夜解决问题，这就是硅片bring-up的全部意义。”

实验室还设有焊接站，硬件工程师兼焊接大师Isaac Guevara在显微镜下演示焊接微小集成电路组件。这项极其困难的工作让高级主管Carroll坦言自己无法胜任，引得现场工程师哄笑。

实验室配备了定制和商用的芯片测试与分析工具。信号工程师Arvind Srinivasan演示了如何测试芯片上的每个微小组件。

实验室的明星是展示各代“sleds”的整排架子。

sleds是托盘，容纳Trainium AI芯片、Graviton CPU芯片及其支持电路和组件。将它们堆叠在机架上，配合团队定制的网络组件，构成了Anthropic Claude成功的核心系统。

以下是2025年12月AWS re:Invent大会展示的sled：

我原以为导览中会大谈OpenAI合作，但他们并未如此。

这或许与前述潜在法律纠纷有关，但我感觉这些一线工程师（目前正在设计下一代Trainium4）尚未与OpenAI有太多直接合作，日常工作主要聚焦Anthropic和亚马逊自身需求。

目前，最大批量的Trainium2芯片部署在Project Rainier——全球最大的AI计算集群之一，于2025年底上线，拥有50万颗芯片，供Anthropic使用。

主办公室墙上的显示屏展示了关于OpenAI使用Trainium的引用，虽低调但不乏自豪。

团队还拥有专用数据中心用于质量检测和测试，距离实验室不远，位于共置设施，而非AWS数据中心，不运行客户工作负载。

安全措施严格，进入大楼及亚马逊区域需遵守严密流程。

数据中心冷却系统噪音极大，必须佩戴耳塞，空气中弥漫着烧热金属的刺鼻气味，普通人难以长时间逗留。

数据中心内排列着装载了亚马逊最新定制芯片的服务器：Graviton CPU、液冷Trainium3、Amazon Nitro，均在高效运转。液冷系统为闭环循环，液体可重复使用，有助于降低环境影响。

以下是当前Trn3 UltraServer的样貌：多块sled堆叠于上下，中间为Neuron交换机。硬件开发工程师David Martinez-Darrow正在维护sled。

团队一直备受关注，近期更是压力倍增。

亚马逊CEO安迪·贾西密切关注该实验室，公开自豪地宣传其产品。2025年12月，他称Trainium已成为AWS数十亿美元的业务，并表示这是他最期待的AWS技术之一。在宣布与OpenAI协议时，他也特别提及了这款芯片。

团队感受到压力。每次bring-up事件前后，工程师们会连续三到四周全天候工作，解决问题，确保芯片能量产并投入数据中心使用。

Carroll说：“尽快证明芯片能正常工作非常重要。到目前为止，我们表现非常出色。”

*声明：亚马逊提供了机票和当地一晚酒店住宿费用。秉承其节俭领导原则，安排了经济舱中间座位和简朴房间。TechCrunch承担了其他相关旅行费用，如优步和行李费。（是的，我为了短途旅行托运行李，我就是这样高要求。）

独家探访亚马逊Trainium实验室：赢得Anthropic、OpenAI甚至苹果青睐的芯片

标签

评论

相关阅读

中国日益留住顶尖人工智能人才

日本游戏设计先驱森川幸人举办AI游戏咨询活动

东京地铁利用AI技术推进铁路变电所和电气室的状态基准维护