三年前,谷歌推出了Gemini,目标是打造一个多模态大型语言模型——一个能够处理文本、图像、音频和视频,并能生成任意格式内容的单一神经网络。

如今,在谷歌I/O开发者大会上,谷歌迈出了实现这一目标的重要一步,发布了Gemini Omni。这是一系列多模态模型,谷歌CEO桑达尔·皮查伊表示,Gemini Omni能够“从任何输入创造任何内容”。

Gemini Omni首先聚焦于视频生成。用户可以将图像、音频、视频和文本结合起来,Omni不仅仅是简单地拼接这些输入,而是对它们进行综合推理,生成连贯一致的高质量视频,展现对物理、文化、历史和科学的理解。

此外,Omni还支持用户通过简单的文本指令编辑照片,无需复杂的编辑软件,这一点类似于谷歌之前推出的Nano Banana。

谷歌已有专门的视频模型Veo,能够将文本和图像转换为视频,甚至支持定制和控制虚拟形象。但DeepMind产品管理总监Nicole Brichtova表示,Gemini Omni不仅是Veo的升级,而是将Gemini的智能与媒体模型的渲染能力结合的下一步。

DeepMind首席技术官Koray Kavukcuoglu在媒体简报会上举例,当Omni接收到“蛋白质折叠的黏土动画解说”这一简单提示时,迅速生成了一段定格动画视频,配有解说声音,内容介绍蛋白质如何从氨基酸链折叠成三维结构。

Gemini Omni的长远愿景更为广泛,未来模型将能实现从音频生成图像,或从视频生成音频等功能。

皮查伊在简报中表示:“当我们首次发布Gemini时,它是我们首个原生多模态AI模型。我们知道,结合文本、代码、音频、图像和视频进行训练,会让模型对世界有更深刻的理解。通过世界模型,AI正从文本预测迈向现实模拟,Gemini Omni是朝这个方向迈出的重要一步。”

用户还可以使用自己的数字虚拟形象制作视频,这一功能类似于OpenAI曾在其已停运的Sora应用中推广的Cameos。为防止深度伪造,用户需通过专门的产品引导流程,录制自己并朗读一串数字,虚拟形象随后被存储以供未来使用。

所有通过Omni生成的视频都会带有谷歌的SynthID数字水印,方便用户验证视频是否由Gemini产品生成。

Gemini Omni系列的首个模型是Gemini Omni Flash,今日起将在Gemini应用、YouTube Shorts和AI创意工作室Flow中推出。Flash能够生成10秒的视频,Brichtova表示这并非模型限制,而是为了让更多用户体验,同时考虑到大多数用户目前不需要制作更长的视频。未来将支持更长视频时长。

谷歌将Omni Flash定位为面向消费者的工具。Brichtova和DeepMind研究工程师Gabe Barth-Maron举例,数字虚拟形象可用于制作自己获奖或登月的视频,或从度假视频中移除路人背景。

Barth-Maron形象地说:“它们就像个性化的表情包。”

Brichtova强调:“我们确实专注于让这款产品对消费者友好。很少有视频模型能真正走进消费者市场,这是我们的突破尝试。”

不过,使用时需注意,编辑提示必须非常具体,否则Omni可能会过度编辑或无意中修改用户想保留的元素,这也是Nano Banana用户曾遇到的问题。

Omni Flash示例动画

尽管短期内更侧重消费者,Omni在企业和创意领域的潜力显而易见,谷歌计划在未来几周通过API开放Omni。虚拟形象生成工具已在Shorts上线,谷歌预计内容创作者会积极采用。更广泛地说,端到端的多模态工作流程有望为广告商和电影制作人带来变革。

初创公司Luma AI也在开发类似产品,推出了一款基于统一智能模型的代理工具,能够根据简短的简介和产品图片生成完整广告活动。

Brichtova表示:“我们对模型的文本渲染能力非常自豪,这对广告等领域非常有用。无论是产品展示还是标语,都需要准确无误……我们预计电影制作人和其他创作者也会使用这款模型。”

更专业的应用可能由Omni Pro模型支持,预计其在所有Omni任务上表现更佳。谷歌尚未公布Pro版本发布时间,Brichtova表示将在“达到比Flash显著提升的阶段”时发布。

了解更多谷歌I/O 2026重大新闻

  • 谷歌搜索将迎来重大变革
  • 谷歌更新Gemini应用,挑战ChatGPT和Claude
  • 谷歌推出全天候智能助理Gemini Spark,集成Gmail
  • 如何使用谷歌全新信息代理工具