支持笔记本电脑运行的集成多模态模型“Gemma 4 12B”发布

Gemma 4 12B模型示意图

日本Google于6月3日宣布推出集成多模态模型“Gemma 4 12B”，该模型能够在配备16GB VRAM或集成内存的笔记本电脑上顺利运行。

“Gemma 4 12B”定位于支持边缘计算的“E4B”与更高阶的“26B Mixture of Experts（MoE）”之间，兼顾内存使用效率与多功能执行能力。

该模型是首个支持原生音频输入的中等规模多模态模型。以往多模态模型通常通过分别编码图像和音频，再传递给语言模型，但这种分离编码方式会导致延迟增加和内存占用上升。相比之下，“Gemma 4 12B”将图像和音频输入直接送入大型语言模型（LLM）主干，省去了多模态编码器，实现了音频与视觉输入的直接融合学习。

此外，“Gemma 4 12B”在Apache 2.0开源许可下发布，开放且易于访问，获得了开发者生态系统的广泛支持。模型还集成了多标记预测（MTP）功能，有效降低了响应延迟。

在性能测试中，“Gemma 4 12B”表现接近“26B MoE”模型，支持多阶段推理和基于代理的工作流程。

Gemma 4 12B性能示意图

支持笔记本电脑运行的集成多模态模型“Gemma 4 12B”发布

标签

评论

相关阅读

微软称其付费Copilot用户超过2000万，且用户活跃度极高

软银开始销售Meta的AI智能眼镜“Ray-Ban Meta（第二代）”

伊利诺伊州议员通过美国最严AI安全法案