谷歌发布最高4倍速的多模态大语言模型“DiffusionGemma”，免费开放

DiffusionGemma模型示意图

2024年6月10日，日本谷歌公司宣布推出一款名为“DiffusionGemma”的多模态大语言模型（LLM），该模型采用被称为“文本扩散”（text diffusion）的方法，能够将文本生成速度提升至最高4倍。目前该项目仍处于实验阶段，模型以Apache 2.0许可证在Hugging Face平台免费公开，用户可免费下载模型权重并使用。

DiffusionGemma拥有260亿个参数，其中40亿为活跃参数，属于专家混合模型（MoE）。该模型不仅支持文本输入，还能处理图像和视频输入，能够混合多种模态的提示信息并生成文本输出。

与传统大规模语言模型逐个令牌顺序生成不同，DiffusionGemma通过并行生成文本块的方式，减少GPU和TPU的等待时间，从而提升处理效率和速度。以NVIDIA H100显卡为例，生成速度可超过每秒1000个令牌，使用GeForce RTX 5090时也能达到每秒700个令牌以上。

文本块的生成采用了“文本扩散”技术，这是一种将AI图像生成中扩散机制应用于文本生成的新方法。模型先生成由随机占位符令牌组成的文本块，然后通过多次迭代不断细化，最终输出高质量的文本块。

谷歌表示，DiffusionGemma特别适合需要快速迭代和交互式本地工作流程的场景，如内联编辑等速度优先的应用。不过，由于设计重点在于速度，整体输出质量相比其Gemma 4版本有所降低。

DiffusionGemma性能展示

谷歌发布最高4倍速的多模态大语言模型“DiffusionGemma”，免费开放

标签

评论

相关阅读

TechCrunch出行：汽车行业的AI技能竞赛即将来临

日本TISI与AtStream Consulting发布面向系统规划构想流程的AI代理实证成果

微软Copilot AI被曝一键泄露2FA验证码，助黑客窃取账户