Gemini Omni示意图

日本谷歌公司宣布推出一款全新的多模态生成模型“Gemini Omni”,该模型能够自由组合视频、图像、音频和文本,生成全新的视频内容。

作为“Gemini Omni”的首个版本,“Gemini Omni Flash”已通过谷歌AI Plus、Pro、Ultra用户的Gemini应用和Google Flow平台开始提供。本周起,YouTube Shorts和YouTube Create应用的用户也将陆续免费获得该功能。

“Gemini Omni”支持通过自然语言直观地编辑视频。其提示语能够继承前文上下文,确保视频中角色的外观和特征、物理规律等保持一致,同时记忆场景整体流程,实现连贯的视频编辑。

不仅可以基于已有视频进行编辑,还能完全重新创作新内容。即使是拍摄难度较大的画面,也能通过已有视频素材重新生成。此外,用户可在不丢失原场景语境的前提下,调整背景环境、摄像角度、风格及细节。

Gemini Omni编辑界面

Gemini Omni编辑界面

“Gemini Omni”对重力、动能、流体力学等物理现象的理解更为深入,能够创造出水流和物体运动更自然、真实的场景。同时,仅需简短的提示语,便可生成具有说服力的解说视频,将复杂的现象和理念以易懂的视觉形式呈现。

未来,“Gemini Omni”还将支持图像和音频等更多输出格式。