
NVIDIA近日发布了开放式多模态模型“NVIDIA Nemotron 3 Nano Omni”,该系统将视觉、语音和语言等多种代理型工作流程功能整合于一体。
此前,AI代理系统通常为视觉、语音和语言分别使用独立模型,导致在模型间传递数据时存在延迟且容易丢失上下文信息。而“NVIDIA Nemotron 3 Nano Omni”通过模型整合,能够更快速、更智能地响应视频、音频、图像和文本等多种数据,实现更高级的推理能力。
与其他具备交互性的开放式多模态模型相比,“NVIDIA Nemotron 3 Nano Omni”在吞吐量上提升了9倍,且以较低成本实现了高精度表现,显著提升了开放多模态模型的效率。
该模型面向需要多模态感知子代理的企业和开发者,帮助他们构建高可靠性的代理型系统。其架构采用30B-A3B混合MoE设计,支持Conv3D、EVS及256K上下文容量。

