几年过去了,英伟达的“城墙”依然坚固。尽管DeepSeek出现时曾引发一阵恐慌,但开源AI模型并未大幅超越专有模型。即便如此,前沿实验室如OpenAI、Anthropic和谷歌都没有真正的护城河。
真正拥有护城河的公司是英伟达。CEO黄仁勋称其为他最珍贵的“宝藏”。这并非你想象中的硬件,而是名为CUDA的东西。听起来像FDA禁用的化学物质,但它可能是AI领域唯一真正的护城河。
举个简单例子:假设让机器填写一个9×9的乘法表。单核计算机会逐一执行81次运算,而拥有9个核心的GPU可以将任务分配给每个核心处理一列,从1×1到1×9,2×1到2×9,如此实现九倍速度提升。现代GPU更聪明,若能识别乘法的交换律(7×9=9×7),可避免重复计算,将81次运算减少到45次,几乎减半。考虑到一次训练可能花费上亿美元,每一点优化都至关重要。
英伟达的GPU最初是为视频游戏图形渲染设计的。2000年代初,斯坦福博士生Ian Buck——一位游戏爱好者——意识到GPU架构可用于通用高性能计算。他开发了Brook编程语言,随后被英伟达聘用,与John Nickolls共同领导了CUDA的开发。如果AI带来了永久的白领阶层失业和自主武器,那都要归功于某个玩《毁灭战士》的玩家希望恶魔的睾丸能以60帧每秒抖动。
CUDA本身不是一种编程语言,而是一个“平台”。类似于《纽约时报》既是报纸又涉足游戏产业,CUDA多年来发展成了一个嵌套的软件库集合,专为AI优化。每个函数都能在单次数学运算中节省纳秒级时间,累计起来让GPU性能大幅提升。
打个比方,针对单一矩阵运算手工调优的CUDA库就像厨房里专门的工具——樱桃去核器、去虾线器——对家庭厨师来说是奢侈品,但面对成千上万只虾壳时就不够用了。这又回到DeepSeek的例子。其工程师直接在PTX(一种英伟达GPU的汇编语言)层面工作,绕过了CUDA的抽象层。比如剥蒜任务,未优化的GPU可能是“用指甲剥皮”,CUDA则是“用刀背拍碎蒜瓣”,而PTX可以精确指令“将刀片抬高2.35英寸,平行于蒜瓣赤道,用手掌以36.2牛顿力向下击打”。
这也解释了为什么CUDA对英伟达如此重要且难以被模仿。调优GPU性能极其复杂,不能随便找个新手学生交给一份计划书就能搞定。写这类代码是一项繁重的工作,除非你是DeepSeek那样的顶尖程序员。
我尝试用PyTorch写一个简单矩阵乘法只需三行代码,但用CUDA写则超过50行。挤出最后一丝性能提升既令人敬佩又枯燥。亲身体验后,我可以确认这道护城河确实深且难以逾越。

CUDA的统治地位不仅来自其生态系统的质量,更源于锁定效应。现代机器学习框架基于CUDA,而CUDA只能运行在英伟达芯片上,即使AMD芯片拥有更多核心和内存,也难以匹敌。单看规格表就像用气缸数比较赛车,真正性能只能在赛道上见分晓。
另一个事实是,我本想对比两款芯片,但英伟达H100和AMD MI300X的价格高昂,无法报销,只能依赖独立研究者的结论:即使纸面规格更优,AMD仍被英伟达甩开。
英伟达的软件优势还体现在其招聘策略上——这家芯片公司软件工程师数量超过硬件工程师。如果我是AMD,或许也会效仿。(当然没人问我)
相比之下,AMD的CUDA替代品ROCm名字更糟糕,发音像“rock cum”,不仅难以吸引程序员,且BUG和兼容性问题频出,其社区论坛更像是求助小组。
别忘了英特尔。虽然常被视为失败的芯片制造商,但其软件表现同样不佳。它推出的oneAPI未能撼动CUDA的地位。唯一可能的挑战者是由传奇语言设计师Chris Lattner领导的Modular,他曾创造苹果的Swift和LLVM。
公开的秘密是,大多数AI研究者甚至不会写一行C++,更别说GPU内核代码。优秀的GPU内核工程师寥寥无几,且大多受雇于英伟达。早在AI研究者开始追逐名声之前,这些工程师就默默耕耘CUDA。即使是最先进的代码代理也难以胜任内核代码。
最终,英伟达更像苹果而非AMD或英特尔。它之所以是优秀的硬件公司,是因为它是一家软件公司。苹果的护城河不仅是iPhone,更是iOS生态、App Store及其开发者。你可以把三星Galaxy折叠起来,但你真的想用三星支付吗?与此同时,整个行业只能接受英伟达高昂的价格。
这是“机器可读”系列关于AI支持语言的三篇文章中的第一篇。


