NVIDIA发布Cosmos 3、Nemotron 3 Ultra及RTX Spark，推动开放物理AI发展

今天的播客嘉宾是NVIDIA Cosmos项目的负责人，他分享了超过一年前关于视频生成和世界模型训练的经验。恰逢其时，Cosmos 3正式发布，采用了混合变换器架构（Mixture-of-Transformers），将自回归推理器与扩散生成器结合，实现语言、图像、视频、音频和动作的统一处理。该系列包括：

基础版Nano（16B参数：8B推理塔+8B生成塔）
Super版（64B参数：32B推理塔+32B生成塔）
Super版针对文本到图像和图像到视频进行了微调，现已成为新的开源图像生成和视频生成领域的顶尖模型，性能仅次于Nano Banana 2。

在台湾Computex大会上，Jensen Huang还展示了Nemotron 3 Ultra，这是一款拥有5500亿参数、极具效率和速度的开源大型语言模型，被认为是美国目前最先进的开源模型之一：

此外，NVIDIA还预览了RTX Spark个人电脑超级芯片，具备1拍秒（PFLOP）计算能力，联合微软、OpenClaw和Hermes Agent作为首批合作伙伴，推动本地AI系统的发展。

NVIDIA开放模型周亮点

Cosmos 3全栈发布：包括权重、代码、数据集和微调方案，同时启动了Cosmos联盟，与Runway等合作伙伴共建开放世界模型生态。
技术创新：Cosmos 3通过混合变换器架构整合多模态数据，生成器支持结构化JSON提示，可由外部提示或内部推理器驱动。
Nemotron 3 Ultra反响热烈：社区评价其性能和服务速度均领先，推测其激活参数比例高于同类模型，可能影响经济性和行为表现。

其他开源模型动态

MiniMax M3：主打1百万上下文长度、多模态和编码能力，获得多项基准测试高分，生态系统支持迅速。
阿里巴巴Qwen3.7-Plus：推出多模态交互混合代理，支持图形界面和命令行操作，集成视觉推理和搜索增强问答。
JetBrains Mellum2：12B参数的专家模型，专注超低延迟推理，适用于路由、检索增强生成和开发者工作流。

代理、沙箱、记忆与搜索成为关键产品形态

工程重点从模型调用转向代理运行时，Perplexity的“代码搜索”架构显著提升搜索效率。
Google和LangChain推动托管代理和沙箱技术，实现代码执行和文件管理的安全隔离。
持久会话记忆仍是难题，研究者提出多种上下文管理策略。
企业安全问题突出，微软安全团队警告npm供应链攻击，强调沙箱和安全栈集成的重要性。

编码代理竞赛与基础设施更新

OpenAI将Codex扩展至AWS/Amazon Bedrock，支持企业安全合规需求。
Anthropic修复了Claude Code的并行子代理调用漏洞，调整了使用限制。
不同编码模型在基准测试和实际表现上存在显著差异。
NVIDIA发布RTX Spark，瞄准个人AI计算市场，挑战Apple Silicon和x86平台。
Lambda采用NVIDIA最新光子交换机，OpenAI计划建设1GW数据中心。
本地开源模型工具快速发展，支持多模态和推理优化。

社区热点回顾

Anthropic已向SEC递交IPO草案。
MiniMax M3、Nemotron 3 Ultra等模型引发技术讨论和期待。
Stepfun 3.7 Flash展示了强大的3D场景生成能力。

综上，NVIDIA及其合作伙伴正通过多模态世界模型、超大规模语言模型和本地AI硬件，推动开放物理AI生态的快速发展，行业格局正迎来深刻变革。

NVIDIA发布Cosmos 3、Nemotron 3 Ultra及RTX Spark，推动开放物理AI发展

NVIDIA开放模型周亮点

其他开源模型动态

代理、沙箱、记忆与搜索成为关键产品形态

编码代理竞赛与基础设施更新

社区热点回顾

标签

评论

相关阅读

中国AI研究人员在X平台上逐渐发声

Smallest.ai完成1300万美元融资，打造极致逼真的超快语音AI

TechCrunch出行：汽车行业的AI技能竞赛即将来临