AI资讯谷歌Gemini Omni:将图像、音频和文本转化为视频,这仅仅是开始
三年前,谷歌推出了Gemini,目标是打造一个多模态大型语言模型——一个能够处理文本、图像、音频和视频,并能生成任意格式内容的单一神经网络。 如今,在谷歌I/O开发者大会上,谷歌迈出了实现这一目标的重要一步,发布了Gemini Omni。这是一系列多模态模型,谷歌CEO桑达尔·皮查伊表示,Gemini Omni能够“从任何输入创造任何内容”。 Gemini Omni首先聚焦于视频生成。用户可以将图
按标签聚合查看文章内容。
AI资讯三年前,谷歌推出了Gemini,目标是打造一个多模态大型语言模型——一个能够处理文本、图像、音频和视频,并能生成任意格式内容的单一神经网络。 如今,在谷歌I/O开发者大会上,谷歌迈出了实现这一目标的重要一步,发布了Gemini Omni。这是一系列多模态模型,谷歌CEO桑达尔·皮查伊表示,Gemini Omni能够“从任何输入创造任何内容”。 Gemini Omni首先聚焦于视频生成。用户可以将图