谷歌推出极限压缩技术“TurboQuant”，或成AI内存消耗的救星

美国谷歌（Google）研究部门Google Research于3月24日发布了一种全新的量化算法“TurboQuant”，旨在大幅降低大规模语言模型（LLM）和向量搜索引擎的内存消耗。该技术有望解决AI响应速度的瓶颈问题，实现AI及搜索基础设施的显著效率提升。

开发背景及AI内存挑战

AI理解信息的基本单位是向量，随着向量维度增加，用于捕捉图像特征或语言含义的复杂信息，所需的内存也急剧增加。这导致频繁使用的信息缓存——键值（KV）缓存面临压力，进而引发系统整体处理延迟。

虽然传统上通过向量量化实现数据压缩，但由于每个数据块都需计算和保存量化常数，产生1至2比特的内存开销，部分抵消了压缩效果。

TurboQuant结合了“PolarQuant”和“QJL”两项技术，彻底消除内存开销。

PolarQuant通过改变数据定位方式实现优化。例如，将“向东3块，向北4块”的坐标指示转换为“沿37度斜线方向5块”的角度和距离指令。数据被整理为“强度”和“方向”，并映射到规则且易预测的“圆形”网格中，省略了高负载的数据归一化步骤，减少了额外内存消耗。

QJL技术则用于修正初次压缩时产生的微小偏差，将残留误差数据转换为“+1”或“-1”的最小符号单位。这种类似速记的方式在不消耗额外内存的情况下，保留了数据间重要关系，作为AI判断信息优先级的误差检查工具。

多项基准测试显示，TurboQuant在不损失AI模型精度的前提下，将KV内存大小缩减至原来的六分之一以下。

无需额外训练或微调，KV缓存可量化至3比特。在H100 GPU环境下，与32比特非量化键相比，4比特TurboQuant实现了最高8倍的处理速度提升。

该技术被视为解决大型模型如谷歌国家Gemini中KV缓存瓶颈的关键。

此外，在基于语义的向量搜索中，TurboQuant支持以极低内存和几乎零处理时间构建大规模索引，预计将进一步加速和优化谷歌国家的语义搜索能力。