Google DeepMind发布Gemma 4的量化感知训练（QAT）模型，大幅降低内存消耗，手机端也能高效运行

Gemma 4

美国Google DeepMind于6月5日（当地时间）发布了开源模型「Gemma 4」系列的“量化感知训练”（Quantization-Aware Training，简称QAT）检查点。该技术旨在大幅减少内存使用量，同时保持模型质量，适用于「E2B」「E4B」「12B」「26B MoE」「31B」等所有模型。

自今年4月发布以来，Gemma 4不断扩展功能，包括引入加速推理的“多标记预测”（Multi-Token Prediction，MTP）以及新增无编码器的「12B」模型等。此次发布的QAT是其最新的技术进展。

AI模型处理大量数值数据，保持高精度往往导致内存消耗巨大。通常通过量化（Quantization）技术降低数值精度以压缩模型，常用的是训练后量化（Post-Training Quantization，PTQ），即对训练完成的模型进行压缩，操作简便但可能导致质量下降。

为解决这一问题，QAT将量化模拟直接融入训练过程，使模型在训练时自我调整以补偿精度损失，因此相比PTQ能保持更高的模型质量。

以Gemma 4为例，默认精度为BF16格式（16位），即使是最小的E2B模型也需11.4GB内存。而应用QAT的Q4_0格式（4位）仅需2.9GB。针对移动设备的量化格式更进一步，内存需求降至1.1GB，若仅处理文本则仅需0.84GB，令智能手机运行成为可能。即使是最大型号31B，也能以四分之一的内存运行。

移动端优化