美国谷歌(Google)研究部门Google Research于3月24日发布了一种全新的量化算法“TurboQuant”,旨在大幅降低大规模语言模型(LLM)和向量搜索引擎的内存消耗。该技术有望解决AI响应速度的瓶颈问题,实现AI及搜索基础设施的显著效率提升。
开发背景及AI内存挑战
AI理解信息的基本单位是向量,随着向量维度增加,用于捕捉图像特征或语言含义的复杂信息,所需的内存也急剧增加。这导致频繁使用的信息缓存——键值(KV)缓存面临压力,进而引发系统整体处理延迟。
虽然传统上通过向量量化实现数据压缩,但由于每个数据块都需计算和保存量化常数,产生1至2比特的内存开销,部分抵消了压缩效果。
两大新压缩技术消除内存浪费
TurboQuant结合了“PolarQuant”和“QJL”两项技术,彻底消除内存开销。
PolarQuant通过改变数据定位方式实现优化。例如,将“向东3块,向北4块”的坐标指示转换为“沿37度斜线方向5块”的角度和距离指令。数据被整理为“强度”和“方向”,并映射到规则且易预测的“圆形”网格中,省略了高负载的数据归一化步骤,减少了额外内存消耗。
QJL技术则用于修正初次压缩时产生的微小偏差,将残留误差数据转换为“+1”或“-1”的最小符号单位。这种类似速记的方式在不消耗额外内存的情况下,保留了数据间重要关系,作为AI判断信息优先级的误差检查工具。
最高提升8倍速度,应用于Gemini模型
多项基准测试显示,TurboQuant在不损失AI模型精度的前提下,将KV内存大小缩减至原来的六分之一以下。
无需额外训练或微调,KV缓存可量化至3比特。在H100 GPU环境下,与32比特非量化键相比,4比特TurboQuant实现了最高8倍的处理速度提升。
该技术被视为解决大型模型如谷歌国家Gemini中KV缓存瓶颈的关键。
此外,在基于语义的向量搜索中,TurboQuant支持以极低内存和几乎零处理时间构建大规模索引,预计将进一步加速和优化谷歌国家的语义搜索能力。


