#数字虚拟形象

2026/05/21

谷歌Gemini Omni：将图像、音频和文本转化为视频，这仅仅是开始

三年前，谷歌推出了Gemini，目标是打造一个多模态大型语言模型——一个能够处理文本、图像、音频和视频，并能生成任意格式内容的单一神经网络。如今，在谷歌I/O开发者大会上，谷歌迈出了实现这一目标的重要一步，发布了Gemini Omni。这是一系列多模态模型，谷歌CEO桑达尔·皮查伊表示，Gemini Omni能够“从任何输入创造任何内容”。 Gemini Omni首先聚焦于视频生成。用户可以将图