Nano-Banana来了:Gemini全新排名第一的图像模型

介绍

谷歌再次提升了人工智能的标准,推出了最新的AI图像模型——Gemini 2.5 Flash Image(俗称Nano-Banana)。该模型解决了当前许多AI图像模型面临的问题,如一致性不足和编辑功能欠佳。更令人兴奋的是,谷歌还发布了一套免费且可定制的工具,展示了这些新功能和改进。

Gemini 2.5 Flash Image的新特性

Gemini 2.5 Flash Image带来了多项重要更新,主要包括:

  • 图像融合:用户现在可以轻松将多张图片合成为一张,极大地增强了对模型的控制力,加快了创意实现的速度。

  • 角色一致性:AI在生成一致的图像或对象方面一直存在难题,新模型显著提升了重复生成同一角色的能力。

  • 更优编辑功能:以往AI生成的图像若有小瑕疵,用户只能选择编辑(效果不稳定)或重新生成。新模型允许用户选择图像中的特定元素进行修改,而不影响整体画面。

  • 更智能的模型:新模型融合了其他Gemini模型的能力,能够更好地理解和交互图像内容。

如何使用Gemini 2.5 Flash Image

目前该模型仅提供预览版本,尚未集成到Gemini应用中。用户可通过以下两种方式体验:

API

开发者可以通过Gemini API访问该模型,构建自己的应用。

AI Studio

普通用户可在AI Studio中试用Flash Image模型,深入了解其功能。

AI Studio模型选择界面

Gemini 2.5 Flash Image的实际应用

谷歌团队在AI Studio中开发了一系列免费应用,展示了该模型的多样化用例。这些应用支持简单的代码和自然语言指令进行定制。

示例一:图像合成

Home Canvas”应用允许用户将多张图片合成一个场景,最初设计用于室内设计,也可用于任意图像合成。

用户只需上传场景和要添加的对象,拖动调整位置即可完成合成。

图像融合示例1

图像融合示例2

示例二:知识应用

许多旧有图像模型只专注于生成图像,忽视了对图像的理解。2.5 Flash Image不仅能生成,还能理解图像内容。

例如,这个草图板可以回答各种问题。

知识理解示例

如图所示,我画了一个简单的图形,Gemini成功完成了我设计的数学题。

示例三:图像编辑

新模型的编辑功能强大。我使用谷歌的Pixshop应用编辑图像,只需上传图片,点击想修改的部分,简要描述即可完成编辑。

这些只是谷歌基于新模型打造的部分应用,推荐大家亲自体验,感受其强大功能。

性能对比

新Gemini模型在LMArena的两个图像类别中排名第一。

LMArena排行榜

LMArena是一个允许用户进行盲测对比顶级模型的平台。排行榜显示,用户更青睐Nano-Banana在图像生成和编辑上的表现。这意味着该模型不仅使用成本低、速度快,更是当前用户最喜欢的高质量模型。

结语

无论你是开发者希望将先进图像能力集成到应用中,还是创意工作者探索新AI工具,谷歌的Nano-Banana模型都提供了值得尝试的强大功能,推荐通过AI Studio深入体验。