谷歌发布可自由生成与编辑影像的“Gemini Omni”

Gemini Omni示意图

日本谷歌公司宣布推出一款全新的多模态生成模型“Gemini Omni”，该模型能够自由组合视频、图像、音频和文本，生成全新的视频内容。

作为“Gemini Omni”的首个版本，“Gemini Omni Flash”已通过谷歌AI Plus、Pro、Ultra用户的Gemini应用和Google Flow平台开始提供。本周起，YouTube Shorts和YouTube Create应用的用户也将陆续免费获得该功能。

“Gemini Omni”支持通过自然语言直观地编辑视频。其提示语能够继承前文上下文，确保视频中角色的外观和特征、物理规律等保持一致，同时记忆场景整体流程，实现连贯的视频编辑。

不仅可以基于已有视频进行编辑，还能完全重新创作新内容。即使是拍摄难度较大的画面，也能通过已有视频素材重新生成。此外，用户可在不丢失原场景语境的前提下，调整背景环境、摄像角度、风格及细节。

Gemini Omni编辑界面

“Gemini Omni”对重力、动能、流体力学等物理现象的理解更为深入，能够创造出水流和物体运动更自然、真实的场景。同时，仅需简短的提示语，便可生成具有说服力的解说视频，将复杂的现象和理念以易懂的视觉形式呈现。

未来，“Gemini Omni”还将支持图像和音频等更多输出格式。

评论