谷歌发布Gemma 4量化感知训练（QAT）模型，显著降低内存需求

Gemma 4模型示意图

谷歌公开了针对其生成式AI模型Gemma 4的量化感知训练（QAT）模型。这一新模型大幅降低了内存需求，旨在最大化设备端的运行性能。

自两个月前发布Gemma 4以来，谷歌不断通过引入多令牌预测（MTP）提升推理速度，并增加了12B模型以缩小不同模型间的性能差距。此次发布的QAT模型不仅支持通用的“Q4_0”量化格式，还新增了专为移动设备设计的量化格式。

通过量化感知训练优化的新检查点进一步提升了Gemma 4的效率，使得用户能够在日常使用的边缘设备和消费级GPU上本地运行模型。

QAT通过在训练过程中模拟量化，最大限度地减少模型压缩时的性能损失。此次发布的QAT检查点包含了广泛应用的Q4_0格式及专为移动端优化的新量化格式。

采用该移动专用格式后，“Gemma 4 E2B”模型的内存占用降低至1GB。此举在保持Gemma 4功能和质量的同时，大幅减少了内存需求。

量化技术是实现消费级硬件上高效模型运行的关键，既能减少内存使用，又能提升解码速度。但传统的训练后量化（PTQ）常常导致性能下降。

QAT将量化过程直接融入训练环节，相较于PTQ，能更好地保持模型质量。

谷歌将QAT方法应用于广泛使用的Q4_0格式，最大化所有模型的性能表现。针对边缘模型（E2B和E4B），则采用了专为移动设备设计的量化方案，重新优化了模型结构。

Gemma 4移动端优化示意

标准压缩格式在移动处理器上往往难以高效运行。为确保Gemma 4在移动设备上流畅运行，谷歌开发了专门针对边缘硬件的移动量化方案，主要特点包括：

此外，谷歌指出其语音编码器和图像编码器在许多应用场景中并非必需，用户可根据需求仅加载必要模态，进一步优化内存使用。仅文本模型（无分层嵌入）的“Gemma 4 E2B”内存需求低于1GB。

评论