谷歌发布TurboQuant：大语言模型键值缓存压缩6倍，速度提升8倍，无精度损失，无需训练！

2024年3月26日消息，谷歌研究团队正式发布了一种名为TurboQuant的新型向量量化压缩算法。该算法创新性地结合了PolarQuant和QJL技术，将大语言模型（LLM）推理中的键值缓存（KV Cache）内存需求至少压缩6倍，同时在Nvidia H100 GPU上将注意力计算速度提升至8倍，并在多个长上下文基准测试中实现零精度损失。这一突破有望显著降低AI部署成本，推动长上下文应用的快速落地。

KV缓存的难点：高维向量带来的内存负担

在处理长序列时，LLM需要维护由键（Key）和值（Value）向量组成的缓存。这些高维向量用于快速计算注意力机制，避免重复计算。然而，随着上下文长度增加，KV缓存的内存消耗呈指数增长，成为限制模型推理效率和部署规模的主要瓶颈。

传统的向量量化方法虽然能压缩数据，但需要额外存储量化常数（如缩放因子、零点等），这些常数通常以全精度保存，导致每个值额外增加1-2位的存储开销，部分抵消了压缩带来的优势。

TurboQuant核心创新：PolarQuant与QJL双阶段无训练压缩

TurboQuant采用两阶段无训练压缩框架，巧妙解决了传统量化的开销问题：

PolarQuant（极角压缩）：首先对向量进行随机旋转，再将笛卡尔坐标（X/Y/Z等）转换为极坐标（角度+半径）。由于角度分布在固定且可预测的范围内，该方法消除了传统量化中边界归一化所需的存储开销，实现更高效的压缩。
QJL（1位误差校正，量化Johnson-Lindenstrauss变换）：在PolarQuant压缩后仍存在残差误差，QJL利用Johnson-Lindenstrauss变换进行降维，然后用最小的1位（+1/-1符号）进行量化。通过特殊的无偏估计器，在计算注意力分数时实现误差校正，无需额外内存开销，保证整体过程无系统性偏差。

结合使用，TurboQuant能将KV缓存压缩至约3位水平，同时保持内积估计的无偏性和高准确度。

基准测试表现：全面领先，完美适配长上下文

谷歌团队在Gemma和Mistral等开源模型上进行了广泛验证：

LongBench（涵盖长文本问答、代码生成、摘要等任务）：TurboQuant表现匹配或优于现有基线如KIVI，展现全面领先优势。
Needle In A Haystack及其他检索任务：在KV内存至少压缩6倍的同时，实现完美的下游评分。
Nvidia H100测试结果：4位配置下，注意力logits计算速度提升最高达8倍。

此外，在GloVe等向量数据集上，TurboQuant的召回率也优于传统方法如PQ和RabbiQ。

AIbase点评：TurboQuant无需模型重新训练或微调，可直接应用于现有LLM，适用于所有依赖向量量化的场景，包括数据库检索、推荐系统和向量搜索引擎。这不仅使单个消费级GPU支持更长上下文（如数万token），还大幅降低企业级AI服务的硬件门槛。

行业意义：AI推理效率的新标杆

随着长上下文和多模态应用的爆发，KV缓存内存已成为AI基础设施的核心瓶颈。TurboQuant提出的“近似最优、数据无关”量化框架为高效推理开辟了新路径。谷歌研究表示，该技术已在ICLR2026等会议上发表论文，相关代码和实现细节预计将逐步开源。

未来，TurboQuant有望集成进vLLM、TensorRT等主流推理框架，进一步推动AI部署的普及与规模化。

谷歌发布TurboQuant：大语言模型键值缓存压缩6倍，速度提升8倍，无精度损失，无需训练！

KV缓存的难点：高维向量带来的内存负担

TurboQuant核心创新：PolarQuant与QJL双阶段无训练压缩

基准测试表现：全面领先，完美适配长上下文

行业意义：AI推理效率的新标杆

标签

评论

相关阅读

中国日益留住顶尖人工智能人才

京东AI战略升级：JoyAI大模型开源，智能体生态激增455%

采用AI代理的公司惊觉其在关键任务中频频失误