CUDA证明英伟达是一家软件公司

几年过去了，英伟达的“城墙”依然坚固。尽管DeepSeek出现时曾引发一阵恐慌，但开源AI模型并未大幅超越专有模型。即便如此，前沿实验室如OpenAI、Anthropic和谷歌都没有真正的护城河。

真正拥有护城河的公司是英伟达。CEO黄仁勋称其为他最珍贵的“宝藏”。这并非你想象中的硬件，而是名为CUDA的东西。听起来像FDA禁用的化学物质，但它可能是AI领域唯一真正的护城河。

举个简单例子：假设让机器填写一个9×9的乘法表。单核计算机会逐一执行81次运算，而拥有9个核心的GPU可以将任务分配给每个核心处理一列，从1×1到1×9，2×1到2×9，如此实现九倍速度提升。现代GPU更聪明，若能识别乘法的交换律（7×9=9×7），可避免重复计算，将81次运算减少到45次，几乎减半。考虑到一次训练可能花费上亿美元，每一点优化都至关重要。

英伟达的GPU最初是为视频游戏图形渲染设计的。2000年代初，斯坦福博士生Ian Buck——一位游戏爱好者——意识到GPU架构可用于通用高性能计算。他开发了Brook编程语言，随后被英伟达聘用，与John Nickolls共同领导了CUDA的开发。如果AI带来了永久的白领阶层失业和自主武器，那都要归功于某个玩《毁灭战士》的玩家希望恶魔的睾丸能以60帧每秒抖动。

CUDA本身不是一种编程语言，而是一个“平台”。类似于《纽约时报》既是报纸又涉足游戏产业，CUDA多年来发展成了一个嵌套的软件库集合，专为AI优化。每个函数都能在单次数学运算中节省纳秒级时间，累计起来让GPU性能大幅提升。

打个比方，针对单一矩阵运算手工调优的CUDA库就像厨房里专门的工具——樱桃去核器、去虾线器——对家庭厨师来说是奢侈品，但面对成千上万只虾壳时就不够用了。这又回到DeepSeek的例子。其工程师直接在PTX（一种英伟达GPU的汇编语言）层面工作，绕过了CUDA的抽象层。比如剥蒜任务，未优化的GPU可能是“用指甲剥皮”，CUDA则是“用刀背拍碎蒜瓣”，而PTX可以精确指令“将刀片抬高2.35英寸，平行于蒜瓣赤道，用手掌以36.2牛顿力向下击打”。

这也解释了为什么CUDA对英伟达如此重要且难以被模仿。调优GPU性能极其复杂，不能随便找个新手学生交给一份计划书就能搞定。写这类代码是一项繁重的工作，除非你是DeepSeek那样的顶尖程序员。

我尝试用PyTorch写一个简单矩阵乘法只需三行代码，但用CUDA写则超过50行。挤出最后一丝性能提升既令人敬佩又枯燥。亲身体验后，我可以确认这道护城河确实深且难以逾越。

CUDA的统治地位不仅来自其生态系统的质量，更源于锁定效应。现代机器学习框架基于CUDA，而CUDA只能运行在英伟达芯片上，即使AMD芯片拥有更多核心和内存，也难以匹敌。单看规格表就像用气缸数比较赛车，真正性能只能在赛道上见分晓。

另一个事实是，我本想对比两款芯片，但英伟达H100和AMD MI300X的价格高昂，无法报销，只能依赖独立研究者的结论：即使纸面规格更优，AMD仍被英伟达甩开。

英伟达的软件优势还体现在其招聘策略上——这家芯片公司软件工程师数量超过硬件工程师。如果我是AMD，或许也会效仿。（当然没人问我）

相比之下，AMD的CUDA替代品ROCm名字更糟糕，发音像“rock cum”，不仅难以吸引程序员，且BUG和兼容性问题频出，其社区论坛更像是求助小组。

别忘了英特尔。虽然常被视为失败的芯片制造商，但其软件表现同样不佳。它推出的oneAPI未能撼动CUDA的地位。唯一可能的挑战者是由传奇语言设计师Chris Lattner领导的Modular，他曾创造苹果的Swift和LLVM。

公开的秘密是，大多数AI研究者甚至不会写一行C++，更别说GPU内核代码。优秀的GPU内核工程师寥寥无几，且大多受雇于英伟达。早在AI研究者开始追逐名声之前，这些工程师就默默耕耘CUDA。即使是最先进的代码代理也难以胜任内核代码。

最终，英伟达更像苹果而非AMD或英特尔。它之所以是优秀的硬件公司，是因为它是一家软件公司。苹果的护城河不仅是iPhone，更是iOS生态、App Store及其开发者。你可以把三星Galaxy折叠起来，但你真的想用三星支付吗？与此同时，整个行业只能接受英伟达高昂的价格。

这是“机器可读”系列关于AI支持语言的三篇文章中的第一篇。

CUDA证明英伟达是一家软件公司

标签

评论

相关阅读

诺贝尔奖得主约翰·贾姆珀离开DeepMind加盟竞争对手Anthropic

Meta推出全新AI图像工具，我用它在Instagram上制作了好友的深度伪造图像

WeCom CLI正式开源：开放七大核心能力，支持主流AI代理直接调用