今天的播客嘉宾是NVIDIA Cosmos项目的负责人,他分享了超过一年前关于视频生成和世界模型训练的经验。恰逢其时,Cosmos 3正式发布,采用了混合变换器架构(Mixture-of-Transformers),将自回归推理器与扩散生成器结合,实现语言、图像、视频、音频和动作的统一处理。该系列包括:
- 基础版Nano(16B参数:8B推理塔+8B生成塔)
- Super版(64B参数:32B推理塔+32B生成塔)
- Super版针对文本到图像和图像到视频进行了微调,现已成为新的开源图像生成和视频生成领域的顶尖模型,性能仅次于Nano Banana 2。
在台湾Computex大会上,Jensen Huang还展示了Nemotron 3 Ultra,这是一款拥有5500亿参数、极具效率和速度的开源大型语言模型,被认为是美国目前最先进的开源模型之一:

此外,NVIDIA还预览了RTX Spark个人电脑超级芯片,具备1拍秒(PFLOP)计算能力,联合微软、OpenClaw和Hermes Agent作为首批合作伙伴,推动本地AI系统的发展。
NVIDIA开放模型周亮点
- Cosmos 3全栈发布:包括权重、代码、数据集和微调方案,同时启动了Cosmos联盟,与Runway等合作伙伴共建开放世界模型生态。
- 技术创新:Cosmos 3通过混合变换器架构整合多模态数据,生成器支持结构化JSON提示,可由外部提示或内部推理器驱动。
- Nemotron 3 Ultra反响热烈:社区评价其性能和服务速度均领先,推测其激活参数比例高于同类模型,可能影响经济性和行为表现。
其他开源模型动态
- MiniMax M3:主打1百万上下文长度、多模态和编码能力,获得多项基准测试高分,生态系统支持迅速。
- 阿里巴巴Qwen3.7-Plus:推出多模态交互混合代理,支持图形界面和命令行操作,集成视觉推理和搜索增强问答。
- JetBrains Mellum2:12B参数的专家模型,专注超低延迟推理,适用于路由、检索增强生成和开发者工作流。
代理、沙箱、记忆与搜索成为关键产品形态
- 工程重点从模型调用转向代理运行时,Perplexity的“代码搜索”架构显著提升搜索效率。
- Google和LangChain推动托管代理和沙箱技术,实现代码执行和文件管理的安全隔离。
- 持久会话记忆仍是难题,研究者提出多种上下文管理策略。
- 企业安全问题突出,微软安全团队警告npm供应链攻击,强调沙箱和安全栈集成的重要性。
编码代理竞赛与基础设施更新
- OpenAI将Codex扩展至AWS/Amazon Bedrock,支持企业安全合规需求。
- Anthropic修复了Claude Code的并行子代理调用漏洞,调整了使用限制。
- 不同编码模型在基准测试和实际表现上存在显著差异。
- NVIDIA发布RTX Spark,瞄准个人AI计算市场,挑战Apple Silicon和x86平台。
- Lambda采用NVIDIA最新光子交换机,OpenAI计划建设1GW数据中心。
- 本地开源模型工具快速发展,支持多模态和推理优化。
社区热点回顾
- Anthropic已向SEC递交IPO草案。
- MiniMax M3、Nemotron 3 Ultra等模型引发技术讨论和期待。
- Stepfun 3.7 Flash展示了强大的3D场景生成能力。
综上,NVIDIA及其合作伙伴正通过多模态世界模型、超大规模语言模型和本地AI硬件,推动开放物理AI生态的快速发展,行业格局正迎来深刻变革。


