
美国Google DeepMind于6月5日(当地时间)发布了开源模型「Gemma 4」系列的“量化感知训练”(Quantization-Aware Training,简称QAT)检查点。该技术旨在大幅减少内存使用量,同时保持模型质量,适用于「E2B」「E4B」「12B」「26B MoE」「31B」等所有模型。
自今年4月发布以来,Gemma 4不断扩展功能,包括引入加速推理的“多标记预测”(Multi-Token Prediction,MTP)以及新增无编码器的「12B」模型等。此次发布的QAT是其最新的技术进展。
AI模型处理大量数值数据,保持高精度往往导致内存消耗巨大。通常通过量化(Quantization)技术降低数值精度以压缩模型,常用的是训练后量化(Post-Training Quantization,PTQ),即对训练完成的模型进行压缩,操作简便但可能导致质量下降。
为解决这一问题,QAT将量化模拟直接融入训练过程,使模型在训练时自我调整以补偿精度损失,因此相比PTQ能保持更高的模型质量。
以Gemma 4为例,默认精度为BF16格式(16位),即使是最小的E2B模型也需11.4GB内存。而应用QAT的Q4_0格式(4位)仅需2.9GB。针对移动设备的量化格式更进一步,内存需求降至1.1GB,若仅处理文本则仅需0.84GB,令智能手机运行成为可能。即使是最大型号31B,也能以四分之一的内存运行。

此外,为了提升边缘设备的运行效率,移动端量化格式还采用了多项优化措施:
- 静态激活:在训练中预先计算缩放参数,减轻移动芯片负担
- 按通道量化:根据移动加速器设计结构化数据,实现原生计算优化
- 2位限定量化:对生成标记层大幅压缩至2位,同时保持推理核心层高精度
- 嵌入和KV缓存优化:减少活跃内存使用,支持长对话时避免内存不足
目前,QAT检查点可从“Hugging Face”平台下载,用户可在本地AI应用如llama.cpp、Ollama、LM Studio等中轻松体验。


