谷歌近期在Gemini安卓应用17.10.54.sa.arm64测试版中,展示了其生成式图像编辑功能的重大升级。该版本引入了深度集成的标注界面和实时文本描述框,旨在解决当前AI图像再创作中指令传达不精准和操作流程断裂的痛点,进一步增强Gemini对生成内容特定部分(如Nano Banana图像)的精细调整能力。
此次技术迭代的核心在于交互逻辑的重构。与之前需要用户退出编辑界面再向机器人下达指令的基础草图支持不同,新界面允许用户点击“铅笔”图标后,直接在图像特定区域进行高精度标记,同时在新增的底部文本框中输入修改意图。
这种“视觉定位+自然语言”的双模态交互方式,大幅提升了模型对局部修改指令的理解准确性。此外,测试版还预留了调整尺寸(Resizing)和效果(Effects)选项的空间,表明Gemini正从单一的文本生成图像工具,向集生成、裁剪和滤镜处理于一体的综合图像工作站演进。

从行业趋势来看,谷歌此举反映出生成式AI的竞争焦点正从“无中生有”转向“精准可控编辑”。通过将复杂的标注工具集成到原生移动应用中,谷歌意在移动AI摄影和数字创作领域树立更高的交互门槛。
虽然上述功能目前仍处于代码解析阶段,尚未正式对外发布,但其展示的“标记即刻修改”逻辑,标志着多模态模型在感知用户细致审美意图方面迈出了关键一步,未来将进一步加速AI绘画从娱乐向专业创作流程的渗透。


