谷歌Genie世界模型现已能模拟真实街景与街景视图结合

我们常常会在谷歌地图上打开街景视图，向朋友展示童年故居的模样，或者把那个小人图标拖到巴黎街头，看看自己预订的酒店是否位于一个有趣的街区。想象一下，如果这种体验变得更加沉浸和互动，不仅能真实模拟街道及其周边环境，还能调整天气，甚至模拟类似《后天》电影中的极端气候场景，那将会是怎样的体验？

这正是谷歌最新整合的目标之一。自今日起，谷歌DeepMind将街景视图与其通用世界模型“Project Genie”连接起来。Genie能够生成多样且互动的虚拟环境。这一新功能在2026年谷歌I/O开发者大会上发布。

DeepMind开放性研究团队的科学家Jack Parker-Holder向TechCrunch介绍：“这对机器人和智能体应用非常强大，同时也适合人类用户体验，这一直是Genie的核心理念。”

他举了一个例子：一款新机器人将在伦敦部署，而伦敦阳光稀少。Genie可以模拟那些罕见的阳光照射维多利亚式住宅的时刻，帮助机器人适应光线变化，避免被突然的阳光“惊吓”。

“同时，你也可以说，‘我要去纽约，但不是这个季节，那里会下雪，我想看看积雪覆盖的街区是什么样子。’”他补充道。

谷歌通过装载摄像头的汽车和背负“追踪背包”的个人，已经收集了超过20年的街景视图数据。迄今为止，谷歌已在110个国家和七大洲收集了超过2800亿张图像。

Jack表示：“街景视图为我们提供了大量真实世界的影像数据。将这些丰富的现实信息与模拟世界的能力结合，潜力巨大。”

谷歌去年8月发布了最新的世界模型Genie 3研究预览版，今年1月向美国的Google AI Ultra订阅用户开放，用户可以通过文本提示或图像创建互动游戏世界。Genie的目标是应用于教育、游戏和机器人训练等领域。

目前，Genie 3已助力Waymo的模拟器训练自动驾驶汽车，尤其是在极其罕见的事件场景中，如龙卷风或偶遇大象。将街景视图数据加入后，Waymo有望在全球更多城市推广其自动驾驶服务。

Waymo拥有自己的模拟器，已覆盖美国11个城市并测试多个城市的AI驾驶。Parker-Holder指出，Genie的不同之处在于，Waymo的模拟器主要是从汽车视角出发，而街景视图不仅能模拟基于真实地点的世界，还能切换视角，模拟人类或机器人等不同智能体的视角。

谷歌计划从今天起向部分美国Ultra用户开放Genie中的街景视图功能，未来几周内将逐步扩大至全球Ultra用户。

DeepMind产品经理Diego Rivas表示，研究团队希望让更多人使用这项新功能，但他也提醒，街景视图和Genie整体仍处于实验阶段，准确性还有待提升。

谷歌团队展示的样例中，包括我曾居住社区的水下模拟，效果令人印象深刻且易于识别，但仍属于游戏画质而非照片级真实。模型尚未具备物理感知能力，无法理解因果关系。例如，在一段模拟中，一位女性在积雪覆盖的约书亚树国家公园奔跑时，竟然穿越了仙人掌和灌木丛。

相比之下，谷歌的图像生成器Nano Banana现在能在信息图中生成完美文字，视频生成器Veo则能理解纸船随水流漂移、烟雾扩散以及布料覆盖形状的物理现象。

这些模型并非硬编码物理规则，而是通过被动观察逐渐直观学习，就像生物一样。

Parker-Holder说：“我认为这类模型在准确性和质量上比视频技术落后大约六到十二个月，但这是我们会解决的问题。”

谷歌地图负责人Jonathan Herbert，曾在12年前作为实习生参与街景视图项目，他表示Genie目前还不能忠实重建街道，但AI在空间连续性上的突破尤为重要。AI能360度旋转视角，准确记忆并模拟背后的环境，基于此构建新的虚拟环境。

“我们一直在思考如何基于街景视图数据构建最丰富、最精准的世界模型，”Herbert说，“长期以来，我们都希望以新的方式利用地图数据，推动AI研究。”

了解谷歌I/O 2026的更多重要新闻