OpenAI强化ChatGPT图像生成模型

当任何大型AI公司发布新的图像生成模型时，往往会重新激发用户兴趣并提升使用率，尤其是在社交媒体用户将其用于制作易传播的表情包或个人形象变换时。去年，谷歌推出的Nano Banana模型引发了广泛关注，用户纷纷上传自己超写实的雕像形象。今年早些时候，ChatGPT Images在社交媒体上引起热议，用户分享了AI生成的漫画风格肖像。

有何不同？

新模型能够利用ChatGPT的“推理”能力，Images 2.0不仅可以搜索互联网获取最新信息，还能一次生成多张图片。换句话说，机器人可以通过额外步骤，从单一提示中输出更丰富详尽的图像。Images 2.0的知识截止日期也更新至2025年12月。

这意味着新模型生成的图像细节更加丰富。例如，我生成了一张包含旧金山次日天气预报及推荐活动的图表。ChatGPT生成的图像准确展示了雨天的天气信息，并绘制了渡轮大厦、卡斯特罗剧院、彩绘女士房屋和跨美洲金字塔等地标建筑的逼真图像。

此外，Images 2.0支持更灵活的自定义，用户可以指定图像的宽高比，从3:1的宽幅到1:3的高幅均可调整，且可在提示中直接设定图像尺寸。

初步体验

经过数小时的测试，我对新模型的英文文本渲染能力印象深刻。此前，主流模型生成的图像中包含文字时，常出现字符错乱或多余字母的问题。两年前，ChatGPT在图像标注方面表现不佳，而Images 2.0输出的文字更清晰、复杂，显示出持续进步。谷歌在Nano Banana的最新版本中也着重提升了图像中文字的质量。

我还用新模型生成了一张以蒂莫西·查拉梅为主题的拼贴海报，模拟其中国粉丝的风格。输出包含多张电影明星的超写实照片，有的穿着传统服饰，有的带有猫耳朵涂鸦。拼贴细节丰富，包含20多段文字，以及饺子、珍珠奶茶和熊猫的图像。

由于我不懂中文，我让机器人翻译海报上的文字。ChatGPT坦言其输出中很多文字是伪造或半胡言乱语，模仿中文网络迷因风格，无法准确翻译。它还指出部分文字混杂了日文字符，像右侧的清单卡和装饰线条，基本是无意义的东亚风格粉丝编辑文字，而非准确句子。

因此，虽然新ChatGPT Images模型在英文文本生成上表现优异，但我不确定全球用户在使用其他语言时能否获得同样效果。考虑到OpenAI在提升英文AI图像输出上的进步，未来结合全球用户数据，模型有望持续优化。