谷歌Gemini Omni：将图像、音频和文本转化为视频，这仅仅是开始

三年前，谷歌推出了Gemini，目标是打造一个多模态大型语言模型——一个能够处理文本、图像、音频和视频，并能生成任意格式内容的单一神经网络。

如今，在谷歌I/O开发者大会上，谷歌迈出了实现这一目标的重要一步，发布了Gemini Omni。这是一系列多模态模型，谷歌CEO桑达尔·皮查伊表示，Gemini Omni能够“从任何输入创造任何内容”。

Gemini Omni首先聚焦于视频生成。用户可以将图像、音频、视频和文本结合起来，Omni不仅仅是简单地拼接这些输入，而是对它们进行综合推理，生成连贯一致的高质量视频，展现对物理、文化、历史和科学的理解。

此外，Omni还支持用户通过简单的文本指令编辑照片，无需复杂的编辑软件，这一点类似于谷歌之前推出的Nano Banana。

谷歌已有专门的视频模型Veo，能够将文本和图像转换为视频，甚至支持定制和控制虚拟形象。但DeepMind产品管理总监Nicole Brichtova表示，Gemini Omni不仅是Veo的升级，而是将Gemini的智能与媒体模型的渲染能力结合的下一步。

DeepMind首席技术官Koray Kavukcuoglu在媒体简报会上举例，当Omni接收到“蛋白质折叠的黏土动画解说”这一简单提示时，迅速生成了一段定格动画视频，配有解说声音，内容介绍蛋白质如何从氨基酸链折叠成三维结构。

Gemini Omni的长远愿景更为广泛，未来模型将能实现从音频生成图像，或从视频生成音频等功能。

皮查伊在简报中表示：“当我们首次发布Gemini时，它是我们首个原生多模态AI模型。我们知道，结合文本、代码、音频、图像和视频进行训练，会让模型对世界有更深刻的理解。通过世界模型，AI正从文本预测迈向现实模拟，Gemini Omni是朝这个方向迈出的重要一步。”

用户还可以使用自己的数字虚拟形象制作视频，这一功能类似于OpenAI曾在其已停运的Sora应用中推广的Cameos。为防止深度伪造，用户需通过专门的产品引导流程，录制自己并朗读一串数字，虚拟形象随后被存储以供未来使用。

所有通过Omni生成的视频都会带有谷歌的SynthID数字水印，方便用户验证视频是否由Gemini产品生成。

Gemini Omni系列的首个模型是Gemini Omni Flash，今日起将在Gemini应用、YouTube Shorts和AI创意工作室Flow中推出。Flash能够生成10秒的视频，Brichtova表示这并非模型限制，而是为了让更多用户体验，同时考虑到大多数用户目前不需要制作更长的视频。未来将支持更长视频时长。

谷歌将Omni Flash定位为面向消费者的工具。Brichtova和DeepMind研究工程师Gabe Barth-Maron举例，数字虚拟形象可用于制作自己获奖或登月的视频，或从度假视频中移除路人背景。

Barth-Maron形象地说：“它们就像个性化的表情包。”

Brichtova强调：“我们确实专注于让这款产品对消费者友好。很少有视频模型能真正走进消费者市场，这是我们的突破尝试。”

不过，使用时需注意，编辑提示必须非常具体，否则Omni可能会过度编辑或无意中修改用户想保留的元素，这也是Nano Banana用户曾遇到的问题。

Omni Flash示例动画

尽管短期内更侧重消费者，Omni在企业和创意领域的潜力显而易见，谷歌计划在未来几周通过API开放Omni。虚拟形象生成工具已在Shorts上线，谷歌预计内容创作者会积极采用。更广泛地说，端到端的多模态工作流程有望为广告商和电影制作人带来变革。

初创公司Luma AI也在开发类似产品，推出了一款基于统一智能模型的代理工具，能够根据简短的简介和产品图片生成完整广告活动。

Brichtova表示：“我们对模型的文本渲染能力非常自豪，这对广告等领域非常有用。无论是产品展示还是标语，都需要准确无误……我们预计电影制作人和其他创作者也会使用这款模型。”

更专业的应用可能由Omni Pro模型支持，预计其在所有Omni任务上表现更佳。谷歌尚未公布Pro版本发布时间，Brichtova表示将在“达到比Flash显著提升的阶段”时发布。

了解更多谷歌I/O 2026重大新闻

谷歌搜索将迎来重大变革
谷歌更新Gemini应用，挑战ChatGPT和Claude
谷歌推出全天候智能助理Gemini Spark，集成Gmail
如何使用谷歌全新信息代理工具

谷歌Gemini Omni：将图像、音频和文本转化为视频，这仅仅是开始

了解更多谷歌I/O 2026重大新闻

标签

评论

相关阅读

日本NTT Docomo商务推出结合AI代理与SOAR的高级网络安全防护“AI SOC”

厌倦了每天的咖啡选择？ChatGPT现在能帮你规划星巴克新订单

NEC森田社长解读2030中期经营计划：迈向“AI原生公司”与海外利润比率50%的挑战