如果谷歌的AI研究人员富有幽默感,他们或许会将周二发布的全新超高效AI内存压缩算法TurboQuant称为“吹笛人”(Pied Piper)——至少网络上是这样称呼的。

这个玩笑源自HBO电视剧《硅谷》(Silicon Valley),该剧于2014年至2019年播出,讲述了虚构创业公司吹笛人如何在科技生态系统中奋斗,面对大公司的竞争、融资、技术和产品难题,甚至在虚构的TechCrunch Disrupt大赛中赢得评委青睐。

剧中吹笛人的突破性技术是一种几乎无损的压缩算法,能大幅减少文件大小。谷歌研究院的新技术TurboQuant同样致力于极致压缩且不损失质量,但它应用于AI系统的核心瓶颈,因此被拿来比较。

谷歌研究团队将该技术描述为一种创新方法,能够在不影响性能的前提下缩减AI的工作内存。该压缩方法利用一种向量量化技术,解决AI处理中的缓存瓶颈,使AI能够在占用更少空间的同时记忆更多信息并保持准确性。

他们计划于下月在ICLR 2026会议上展示这项成果,以及支撑该压缩技术的两种方法:量化方法PolarQuant和训练优化方法QJL。

虽然理解其中的数学原理可能只有研究人员和计算机科学家能够做到,但这一成果已令整个科技行业感到振奋。

如果TurboQuant能成功应用于实际场景,将有望将AI运行时的“工作内存”(即KV缓存)缩减至少6倍,从而降低AI运行成本。

Cloudflare首席执行官Matthew Prince甚至称这可能是谷歌的“DeepSeek时刻”,后者是中国AI模型DeepSeek带来的效率提升的代名词,该模型以远低于竞争对手的成本和较差的芯片训练,却依然保持了竞争力。

不过需要指出的是,TurboQuant目前仍处于实验室阶段,尚未广泛部署。

这也使得将其与DeepSeek甚至虚构的吹笛人技术相提并论变得困难。电视剧中吹笛人的技术被描绘为将彻底改变计算规则,而TurboQuant则可能带来效率提升和推理阶段内存需求的降低,但它并不能解决AI引发的更广泛的内存短缺问题,因为它仅针对推理内存,而训练阶段依然需要大量内存。