Gemma 4：最佳小型多模态开源模型，全面超越Gemma 3

谷歌DeepMind最新发布的Gemma 4系列模型，为开源AI模型领域带来了极具突破性的进展。继Allen Institute团队的突然离职和GPT-OSS项目的不确定性后，Gemma 4的发布无疑为美国开源模型的未来注入了强心剂。31B参数的密集版本在性能上与Kimi K2.5（744B-A40B）和Z.ai GLM-5（1T-A32B）等顶尖模型不相上下，但参数量远低于它们，同时采用了多种创新架构设计：

Gemma 4性能图

从Arena发布的历年排名趋势图可以看出，Gemma 4在多个标准基准测试（如GPQA和AIME）中相较Gemma 3有显著提升：

Gemma 4历年排名

此次Gemma 4采用了更为宽松的Apache 2.0许可证，支持视频和图像的原生处理，支持可变分辨率，且在OCR和图表理解等视觉任务上表现出色。E2B和E4B版本还原生支持音频输入，具备语音识别和理解能力。

其卓越的本地设备运行能力引发了业界猜测，Gemma 4或将成为苹果与谷歌合作下新一代Siri的基础模型。

主要亮点

开源许可：首次采用商业友好的Apache 2.0许可证，极大促进了模型的广泛应用。
多模态支持：文本、视觉、音频三模态原生支持，适配多种应用场景。
长上下文能力：大型模型支持最长256K的上下文长度，适合复杂推理和代理任务。
多样化模型规模：包括31B密集模型、26B MoE模型（活跃参数约4B）及面向移动和物联网的E4B、E2B边缘模型。

架构创新

Gemma 4采用了混合注意力机制和独特的MoE层设计，具体包括：

每层嵌入（Per-Layer Embeddings）
无显式注意力缩放，可能整合于归一化权重中
QK和V的归一化处理
大模型共享K/V矩阵
小模型采用激进的KV缓存共享
滑动窗口大小为512和1024
部分维度的RoPE编码，局部和全局层使用不同参数
软限制机制（softcapping）
视觉方面支持原生宽高比处理
音频处理采用更小的帧窗口

这些设计使Gemma 4在保持高效推理的同时，具备更强的多模态理解能力。

生态系统支持

Gemma 4发布当天即获得了多款主流本地推理框架的支持，包括：

llama.cpp
Ollama（需版本0.20以上）
vLLM（支持GPU/TPU等硬件）
LM Studio
Transformers及transformers.js
Modular/MAX生产级推理支持

本地推理性能表现优异，例如在M2 Ultra上，Gemma 4 26B A4B版本通过llama.cpp实现了300 tokens/s的实时视频处理速度。

代理与工具链发展

Gemma 4被广泛视为本地代理引擎的理想选择，支持OpenClaw、Hermes等开源代理框架。Hermes Agent已实现多内存提供商的插件式集成，并推出了本地语义索引插件“Enzyme”，实现8毫秒级查询响应。

此外，模型与训练框架的紧密结合（Model–Harness Training Loop）成为提升模型能力的关键路径，LangChain等工具也确认开源模型已足够支持复杂工具调用和文件操作。

其他前沿动态

Anthropic发布了Claude模型中的“情绪向量”研究，展示了情绪概念对模型行为的调节作用。
OpenAI推出了ChatGPT在Apple CarPlay上的语音模式，并调整了Codex的计费策略。
Perplexity发布了面向税务申报的智能代理工作流“Navigate my taxes”。

总结

Gemma 4不仅在模型性能上实现了跨越式提升，更在多模态支持、开源许可和生态系统建设上树立了新标杆。它的发布标志着谷歌DeepMind在推动开源AI模型本地化和多模态应用方面迈出了坚实步伐，未来有望在智能助手、边缘计算等领域发挥重要作用。

Gemma 4：最佳小型多模态开源模型，全面超越Gemma 3

主要亮点

架构创新

生态系统支持

代理与工具链发展

其他前沿动态

总结

标签

评论

相关阅读

12个月的窗口期

美国政府启动最新AI模型预先审查计划，携手Google DeepMind、xAI和微软

リンクス发布搭载AMD Ryzen AI Max+ 395的MINIX AI迷你电脑