AI初创公司Decart于周三发布了其最新的交互式世界模型Oasis 3,该模型能够实时生成逼真的驾驶环境。据TechCrunch独家获悉,该模型目前通过API提供服务。
Decart最初瞄准需要大规模模拟罕见驾驶场景的自动驾驶汽车公司,未来计划拓展至机器人及其他物理AI应用领域。但更大的目标是开发者社区:Decart从一开始就提供API访问,试图打造类似OpenAI对语言模型所做的开发者生态系统。
“这将是首个真正可供人们编程使用的世界模型,”Decart联合创始人兼CEO Dean Leitersdorf告诉TechCrunch。“我相信会有一个完整的开发者社区围绕它诞生。”
目前,Decart已有超过10万名开发者社区,许多人基于其实时视频模型Lucy开发产品,主要应用于电商和直播领域。Oasis 3基于该基础模型,是公司向物理AI领域迈进的重要一步。访问费用为每秒0.02美元,企业定价则根据具体使用场景而定。
Decart活跃于日益激烈的世界模型竞争领域。去年,谷歌发布了研究预览版Genie 3,李飞飞的World Labs推出了面向商业的Marble,视频生成初创公司如Luma和Runway也将其物理感知视频模型转化为世界模型。

Oasis 3发布前不久,成立两年的Decart完成了3亿美元融资。Leitersdorf表示,这轮融资得益于电商、直播和物理AI领域对其模型需求的激增。此次融资使Decart估值接近40亿美元,吸引了丰田、Adobe、eBay等战略投资者,这些公司也都是潜在客户。Nvidia作为现有投资者也参与了本轮融资。
Oasis 3的优势在于其模型的照片级真实感和无限生成能力。这得益于Decart的技术优化,特别是其核心产品DOS(Decart Optimization Stack)软件,使模型能高效运行于Nvidia、亚马逊和谷歌硬件上,极大降低了运行成本。
“我们基于完整的实时技术栈,优化至硬件层面,”Leitersdorf说。“通过垂直整合,我们的成本比行业内其他竞争者低一个数量级以上。”
据Leitersdorf介绍,Decart的模型效率极高,迄今为止总花费远低于1亿美元。
Oasis 3能够生成物理准确的多摄像头环境——包括一个前置和两个侧置摄像头,用于训练和测试系统。与其他仅提供有限演示和研究预览的模型不同,Decart允许开发者无限生成场景,非常适合自动驾驶开发者测试各种边缘案例。
与我试用过的谷歌Genie 3和World Labs的Marble相比,Oasis 3从单一文本提示生成的环境最具照片级真实感。且能够持续交互数小时,显示出Decart在效率上的优势。

但长时间生成世界时,模型表现会明显下降。
我测试时发现,系统能稳定生成与提示相符的初始场景,但随着驾驶过程,场景的主题一致性迅速减弱。例如,我让它生成一个早晨的纽约街道,起初效果非常好,但行驶过程中环境逐渐变得像任何西方城市的普通街景。
当我尝试返回起点路口时,发现路口已消失,被全新环境取代。此外,控制响应不够灵敏,车辆移动方向时常失控(这是我在其他世界模型中也遇到的问题)。整体体验更像是一场梦境般断裂的意识流,迅速变得无序。
另一个问题是,车辆会穿过其他车辆,说明模型未能正确模拟物理环境。Leitersdorf称这是“我们正在攻克的重大研究难题”,原因之一是“关于良好驾驶的数据远多于事故数据”。
这种物理一致性难题与模型的工作原理密切相关。Oasis 3采用自回归方式生成画面,即逐帧生成并参考之前内容决定下一帧,这种架构是许多世界模型的关键特征,但计算量巨大。
为保持一致性,Decart团队正努力延长模型的记忆长度。
“每帧生成大约包含8000个token,”Leitersdorf说。“以每秒数十帧速度生成,意味着每秒处理数十万个token。上下文窗口很快就会满。我们正在研究如何实现更长的上下文,存储数百万token,并将记忆压缩成更少的token。”
Leitersdorf认为,下一版本模型可能部分解决一致性问题,届时用户可基于环境视频而非静态图像开始生成世界。他也承认,世界模型领域仍处于早期阶段。
不过,创始人更关注的是当开发者真正使用这项技术时会发生什么。
“这让我想起了大型语言模型早期,OpenAI推出模型API时的情景,”他说,指的是开发者社区通过发现和构建新用例推动领域发展的过程。
“再过三个月,我们会看到100个开发者基于Oasis构建了100个不同应用,带来许多惊喜。”


