#向量量化 - AI情报

2026/03/28

谷歌推出TurboQuant算法，结合PolarQuant和QJL技术，将大语言模型推理中的键值缓存内存需求至少压缩6倍，H100 GPU上注意力计算速度提升至8倍，同时保持零精度损失。这一突破有望降低AI部署成本，加速长上下文应用的发展。