Gemma 4模型示意图

谷歌公开了针对其生成式AI模型Gemma 4的量化感知训练(QAT)模型。这一新模型大幅降低了内存需求,旨在最大化设备端的运行性能。

自两个月前发布Gemma 4以来,谷歌不断通过引入多令牌预测(MTP)提升推理速度,并增加了12B模型以缩小不同模型间的性能差距。此次发布的QAT模型不仅支持通用的“Q4_0”量化格式,还新增了专为移动设备设计的量化格式。

通过量化感知训练优化的新检查点进一步提升了Gemma 4的效率,使得用户能够在日常使用的边缘设备和消费级GPU上本地运行模型。

QAT通过在训练过程中模拟量化,最大限度地减少模型压缩时的性能损失。此次发布的QAT检查点包含了广泛应用的Q4_0格式及专为移动端优化的新量化格式。

采用该移动专用格式后,“Gemma 4 E2B”模型的内存占用降低至1GB。此举在保持Gemma 4功能和质量的同时,大幅减少了内存需求。

量化技术是实现消费级硬件上高效模型运行的关键,既能减少内存使用,又能提升解码速度。但传统的训练后量化(PTQ)常常导致性能下降。

QAT将量化过程直接融入训练环节,相较于PTQ,能更好地保持模型质量。

谷歌将QAT方法应用于广泛使用的Q4_0格式,最大化所有模型的性能表现。针对边缘模型(E2B和E4B),则采用了专为移动设备设计的量化方案,重新优化了模型结构。

Gemma 4移动端优化示意

标准压缩格式在移动处理器上往往难以高效运行。为确保Gemma 4在移动设备上流畅运行,谷歌开发了专门针对边缘硬件的移动量化方案,主要特点包括:

  • 静态激活:通过训练阶段预先计算数据缩放参数,减轻移动芯片负担,提升响应速度。
  • 按通道量化:根据移动加速器设计结构化压缩数据,使智能手机无需低效绕行即可原生执行计算。
  • 目标导向的2位量化:对生成令牌的模型关键部分进行2位压缩,同时保持核心推理层的高精度,节省存储空间而不损失智能水平。
  • 嵌入和KV缓存优化:重点压缩模型词汇表和短期记忆区域,大幅降低活跃内存使用,支持长时间对话无需担心内存不足。

此外,谷歌指出其语音编码器和图像编码器在许多应用场景中并非必需,用户可根据需求仅加载必要模态,进一步优化内存使用。仅文本模型(无分层嵌入)的“Gemma 4 E2B”内存需求低于1GB。