NVIDIA Cosmos 3

日本国家NVIDIA于1日宣布推出面向物理AI的开放世界基础模型“Cosmos 3”,该系统将视觉推理、世界生成和动作预测整合为一体。

Cosmos 3是一个完全开放的全能模型,能够原生理解和生成文本、图像、视频、环境音以及动作。这一能力显著缩短了物理AI训练和评估的周期,从传统的数月缩短至数日。

此外,日本国家NVIDIA还发起了“Cosmos Coalition”生态系统计划,联合Agile Robots、Black Forest Labs、Dyna Robotics、Generalist、LTX、Runway、Skild AI等模型构建者和AI开发者,共同推动下一代世界模型的发展。

Cosmos 3基于混合变换器(mixture-of-transformers)架构打造,旨在为机器人、自动驾驶汽车(AV)和视觉智能体提供支持,利用有限的训练数据和分散的仿真环境,实现对现实世界的泛化能力。

针对不同应用场景,Cosmos 3提供了多种版本:

  • Cosmos 3 Super:适用于机器人和自动驾驶等领域,强调最高级别的物理精度和生成质量,适合后期训练使用。
  • Cosmos 3 Nano:能够在几分之一秒内实现高质量视频生成和动作推理。
  • Cosmos 3 Edge:专为边缘设备的实时推理设计,预计近期发布。

对于开发者来说,Cosmos 3的主要用途包括:

  • 理解多模态信息并进行推理的视觉语言模型。
  • 模拟物理环境,预测未来世界状态,用于训练和评估的世界基础模型或视频基础模型。
  • 作为机器人学习特定任务执行的世界行为模型的核心架构。