
NVIDIA宣布已对由日本国家Google AI研发团队开发的开源模型DiffusionGemma进行了优化,使其能够在从本地PC到云端的多种环境中更快速地运行,支持NVIDIA GeForce RTX GPU、NVIDIA RTX PRO平台以及NVIDIA DGX Spark系统。
DiffusionGemma基于Gemma 4构建,不再像传统方法那样一次预测一个token,而是能够在每一步中同时去除多达256个token的噪声。这种性能提升使得即使在单用户场景下,通常会出现性能瓶颈的文本生成任务,也能在本地硬件上实现高速处理。
通过将256个token的区块整体并行处理,DiffusionGemma充分契合了NVIDIA GPU的设计理念。NVIDIA的Tensor核心加速了高密度并行计算,CUDA软件栈无需特别调整即可高效执行模型,充分发挥了GPU的优势,实现了高效的处理能力。
借助这一优化,用户可以在NVIDIA DGX Spark、NVIDIA RTX PRO 6000工作站以及DGX Station等设备上,获得最佳的本地AI体验。
此外,支持在GeForce RTX GPU上运行的开源推理引擎llama.cpp也计划在近期推出,进一步丰富本地AI的生态环境。


