亚马逊CEO安迪·贾西宣布AWS与OpenAI达成突破性的500亿美元投资协议后不久,亚马逊邀请我参观了这笔交易核心的芯片开发实验室,费用主要由亚马逊承担。

业内专家正密切关注该实验室打造的Trainium芯片,因其在降低AI推理成本方面的潜力,以及可能打破英伟达几乎垄断的局面。

出于好奇,我接受了邀请。

当天的导览由实验室主任Kristopher King和工程总监Mark Carroll带领,此外还有负责安排此次访问的公关人员Doron Aronson。

AWS自Anthropic成立初期便是其主要云平台,这一关系足够稳固,以至于Anthropic后来引入微软作为云合作伙伴,亚马逊与OpenAI的合作也在不断深化。

OpenAI的协议使AWS成为其新AI代理构建器Frontier的独家提供商。如果代理技术如硅谷预期般发展,Frontier可能成为OpenAI业务的重要组成部分。尽管如此,金融时报本周报道微软认为OpenAI与亚马逊的协议可能违反了其与OpenAI的协议,特别是微软拥有对OpenAI所有模型和技术的访问权。

AWS之所以对OpenAI极具吸引力,是因为该云巨头承诺为OpenAI提供2吉瓦的Trainium计算能力。考虑到Anthropic和亚马逊自有的Bedrock服务已经消耗Trainium芯片的速度超过亚马逊的生产速度,这是一项巨大的承诺。

目前,全球已部署了140万颗Trainium芯片,Anthropic的Claude模型运行在超过100万颗Trainium2芯片上。

值得注意的是,Trainium最初主要用于更快、更低成本的模型训练(这是几年前的重点),现在也被调优用于推理。推理,即运行AI模型生成响应的过程,是当前行业最大的性能瓶颈。

例如,Trainium2承担了亚马逊Bedrock服务的大部分推理流量,该服务支持亚马逊众多企业客户构建AI应用,并允许应用使用多种模型。

“我们的客户群正在以我们能提供的容量速度快速增长,”King表示。“Bedrock有一天可能会像EC2一样庞大,”他补充道,EC2是AWS的旗舰计算云服务。

除了为英伟达繁忙且难以获取的GPU提供替代方案,亚马逊表示其新芯片搭载在专用的Trn3 UltraServers上,运行成本比传统云服务器低50%,性能相当。

2025年12月发布的Trainium3芯片配合新开发的Neuron交换机,Carroll称这一组合具有变革性。

“这让我们拥有了巨大的优势,”Carroll说。交换机让每颗Trainium3芯片以网状结构相互通信,降低延迟。“这就是Trainium3打破各种纪录的原因,尤其是在‘每瓦性能价格’方面。”

当每天处理数万亿个令牌时,这些改进的效果尤为显著。

事实上,亚马逊芯片团队在2024年获得了苹果的高度赞扬。苹果AI主管公开描述了其如何使用该团队设计的另一款芯片Graviton——一款低功耗、基于ARM的服务器CPU,也是该团队设计的首款爆款芯片。苹果还赞扬了专为推理设计的Inferentia芯片,并对当时新推出的Trainium给予肯定。

这些芯片体现了亚马逊经典的策略:洞察市场需求,打造价格有竞争力的自研替代品。

芯片领域的难点历来是切换成本。为英伟达芯片编写的应用必须重新架构才能兼容其他芯片,这一耗时过程阻碍了开发者的切换意愿。

但AWS芯片团队自豪地告诉我,Trainium现已支持流行的开源AI模型构建框架PyTorch,包括Hugging Face上托管的众多模型。

Carroll表示,迁移过程“基本只需一行代码修改,然后重新编译,就能在Trainium上运行。”换言之,亚马逊正努力在各方面削弱英伟达的市场垄断。

本月,AWS还宣布与Cerebras Systems合作,将其推理芯片集成到搭载Trainium的服务器上,承诺实现超强、低延迟的AI性能。

亚马逊的野心不仅限于芯片本身,还包括设计承载芯片的服务器。除了网络组件,该团队还设计了“ Nitro ”,这是一套硬件与软件结合的虚拟化技术,支持同一服务器上多个软件实例独立运行;此外还有先进的液冷技术和服务器托盘(sleds),这些都是为了控制成本和提升性能。

亚马逊定制芯片设计团队起源于2015年1月亚马逊以约3.5亿美元收购以色列芯片设计公司Annapurna Labs,至今已有超过十年的芯片设计经验。该团队保留了Annapurna的根基和名称,办公室内随处可见其标志。

芯片实验室位于奥斯汀高档的“The Domain”区,这里商店和餐厅林立,被称为“奥斯汀的硅谷”。

办公室充满典型科技企业氛围:工位、休息区和会议室。实验室位于大楼高层后方,俯瞰城市景观。

实验室面积相当于两个大型会议室,设备风扇使空间噪音较大,环境介于高中工艺教室与好莱坞高端实验室之间,工程师们穿着牛仔裤而非白大褂。

需要说明的是,这里并非芯片制造地,无需穿戴白色防护服。Trainium3是先进的3纳米芯片,由台积电制造,其他芯片则由Marvell生产。

这里是“bring-up”过程的魔法发生地。

“硅片bring-up是指首次激活芯片,就像一场通宵派对。你会被‘锁’在这里,”King解释道。经过18个月的努力,芯片首次激活以验证其设计是否正常。团队甚至将Trainium3的bring-up过程拍摄并发布在YouTube上。

剧透:过程从不顺利。

Trainium3原型芯片最初采用风冷,与前代相同。现行芯片改用液冷,带来能效优势,是一项工程壮举。

bring-up期间,芯片与风冷散热器的尺寸不匹配,导致芯片无法激活。

团队毫不气馁,立即拿起磨床开始打磨金属。为了不打扰bring-up的披萨派对氛围,他们偷偷到会议室进行打磨。

King说:“熬夜解决问题,这就是硅片bring-up的全部意义。”

实验室还设有焊接站,硬件工程师兼焊接大师Isaac Guevara在显微镜下演示焊接微小集成电路组件。这项极其困难的工作让高级主管Carroll坦言自己无法胜任,引得现场工程师哄笑。

实验室配备了定制和商用的芯片测试与分析工具。信号工程师Arvind Srinivasan演示了如何测试芯片上的每个微小组件。

实验室的明星是展示各代“sleds”的整排架子。

sleds是托盘,容纳Trainium AI芯片、Graviton CPU芯片及其支持电路和组件。将它们堆叠在机架上,配合团队定制的网络组件,构成了Anthropic Claude成功的核心系统。

以下是2025年12月AWS re:Invent大会展示的sled:

我原以为导览中会大谈OpenAI合作,但他们并未如此。

这或许与前述潜在法律纠纷有关,但我感觉这些一线工程师(目前正在设计下一代Trainium4)尚未与OpenAI有太多直接合作,日常工作主要聚焦Anthropic和亚马逊自身需求。

目前,最大批量的Trainium2芯片部署在Project Rainier——全球最大的AI计算集群之一,于2025年底上线,拥有50万颗芯片,供Anthropic使用。

主办公室墙上的显示屏展示了关于OpenAI使用Trainium的引用,虽低调但不乏自豪。

团队还拥有专用数据中心用于质量检测和测试,距离实验室不远,位于共置设施,而非AWS数据中心,不运行客户工作负载。

安全措施严格,进入大楼及亚马逊区域需遵守严密流程。

数据中心冷却系统噪音极大,必须佩戴耳塞,空气中弥漫着烧热金属的刺鼻气味,普通人难以长时间逗留。

数据中心内排列着装载了亚马逊最新定制芯片的服务器:Graviton CPU、液冷Trainium3、Amazon Nitro,均在高效运转。液冷系统为闭环循环,液体可重复使用,有助于降低环境影响。

以下是当前Trn3 UltraServer的样貌:多块sled堆叠于上下,中间为Neuron交换机。硬件开发工程师David Martinez-Darrow正在维护sled。

团队一直备受关注,近期更是压力倍增。

亚马逊CEO安迪·贾西密切关注该实验室,公开自豪地宣传其产品。2025年12月,他称Trainium已成为AWS数十亿美元的业务,并表示这是他最期待的AWS技术之一。在宣布与OpenAI协议时,他也特别提及了这款芯片。

团队感受到压力。每次bring-up事件前后,工程师们会连续三到四周全天候工作,解决问题,确保芯片能量产并投入数据中心使用。

Carroll说:“尽快证明芯片能正常工作非常重要。到目前为止,我们表现非常出色。”

*声明:亚马逊提供了机票和当地一晚酒店住宿费用。秉承其节俭领导原则,安排了经济舱中间座位和简朴房间。TechCrunch承担了其他相关旅行费用,如优步和行李费。(是的,我为了短途旅行托运行李,我就是这样高要求。)