2024年3月26日消息,谷歌研究团队正式发布了一种名为TurboQuant的新型向量量化压缩算法。该算法创新性地结合了PolarQuant和QJL技术,将大语言模型(LLM)推理中的键值缓存(KV Cache)内存需求至少压缩6倍,同时在Nvidia H100 GPU上将注意力计算速度提升至8倍,并在多个长上下文基准测试中实现零精度损失。这一突破有望显著降低AI部署成本,推动长上下文应用的快速落地。
KV缓存的难点:高维向量带来的内存负担
在处理长序列时,LLM需要维护由键(Key)和值(Value)向量组成的缓存。这些高维向量用于快速计算注意力机制,避免重复计算。然而,随着上下文长度增加,KV缓存的内存消耗呈指数增长,成为限制模型推理效率和部署规模的主要瓶颈。
传统的向量量化方法虽然能压缩数据,但需要额外存储量化常数(如缩放因子、零点等),这些常数通常以全精度保存,导致每个值额外增加1-2位的存储开销,部分抵消了压缩带来的优势。
TurboQuant核心创新:PolarQuant与QJL双阶段无训练压缩
TurboQuant采用两阶段无训练压缩框架,巧妙解决了传统量化的开销问题:
-
PolarQuant(极角压缩):首先对向量进行随机旋转,再将笛卡尔坐标(X/Y/Z等)转换为极坐标(角度+半径)。由于角度分布在固定且可预测的范围内,该方法消除了传统量化中边界归一化所需的存储开销,实现更高效的压缩。
-
QJL(1位误差校正,量化Johnson-Lindenstrauss变换):在PolarQuant压缩后仍存在残差误差,QJL利用Johnson-Lindenstrauss变换进行降维,然后用最小的1位(+1/-1符号)进行量化。通过特殊的无偏估计器,在计算注意力分数时实现误差校正,无需额外内存开销,保证整体过程无系统性偏差。

结合使用,TurboQuant能将KV缓存压缩至约3位水平,同时保持内积估计的无偏性和高准确度。
基准测试表现:全面领先,完美适配长上下文
谷歌团队在Gemma和Mistral等开源模型上进行了广泛验证:
- LongBench(涵盖长文本问答、代码生成、摘要等任务):TurboQuant表现匹配或优于现有基线如KIVI,展现全面领先优势。
- Needle In A Haystack及其他检索任务:在KV内存至少压缩6倍的同时,实现完美的下游评分。
- Nvidia H100测试结果:4位配置下,注意力logits计算速度提升最高达8倍。
此外,在GloVe等向量数据集上,TurboQuant的召回率也优于传统方法如PQ和RabbiQ。
AIbase点评:TurboQuant无需模型重新训练或微调,可直接应用于现有LLM,适用于所有依赖向量量化的场景,包括数据库检索、推荐系统和向量搜索引擎。这不仅使单个消费级GPU支持更长上下文(如数万token),还大幅降低企业级AI服务的硬件门槛。
行业意义:AI推理效率的新标杆
随着长上下文和多模态应用的爆发,KV缓存内存已成为AI基础设施的核心瓶颈。TurboQuant提出的“近似最优、数据无关”量化框架为高效推理开辟了新路径。谷歌研究表示,该技术已在ICLR2026等会议上发表论文,相关代码和实现细节预计将逐步开源。
未来,TurboQuant有望集成进vLLM、TensorRT等主流推理框架,进一步推动AI部署的普及与规模化。


