ChatGPT Images 2.0示例

2026年4月21日,日本国家OpenAI发布了全新图像生成模型“ChatGPT Images 2.0”。该模型在处理复杂视觉任务方面有显著提升,能够生成“即用型”的高质量图像。用户可以通过ChatGPT和Codex等平台使用该功能,且在日本市场迅速走红。

尽管OpenAI已将重心从面向消费者的视频生成AI“天空(Sora)”转向企业市场,但在图像生成领域的投入和强化力度依然显著。此前,谷歌的Nano Banana在图像生成领域占据优势,但ChatGPT Images 2.0在AI模型性能排行榜“Arena”的评分中大幅领先。

ChatGPT Images 2.0强化了对指令(Prompt)的响应能力,提升了对象的准确布局和关联性,并增强了高密度文本的渲染效果。即使是简单的提示词,也能生成高质量且不带明显AI痕迹的图像。

OpenAI图像生成示例

OpenAI的日本负责人旗田健二指出,此次升级的最大亮点是多语言支持。为了实现“通用人工智能(AGI)惠及全人类”的使命,OpenAI特别重视语言能力的提升。虽然这是图像模型,但其多语言能力和文本渲染的飞跃式进步,标志着图像生成领域的范式转变。

多语言文本渲染

作为多语言支持的一部分,ChatGPT Images 2.0对日语的支持也得到了显著改善。以往生成的“奇怪字体”现象已不复存在,字体和字间距更加自然。对于日语及亚洲特有的“竖排书写”仍存在挑战,但旗田表示已充分认识到需求,并有信心实现高水平改进。

该模型还支持将英文图像中的文本准确翻译成日文,保持图像和布局不变。例如,将英文便当菜单转换为日文,同时在图像下方显示汇率信息。

英文转日文菜单示例

此外,ChatGPT Images 2.0支持4:3、1:1等多种指定长宽比的图像生成,提升构图和视觉感受,减少“AI感”,使生成图像更自然。

OpenAI发布的新闻稿展示了该模型在海报、说明资料、图表、漫画等多种场景中的应用,语言本身成为设计的一部分。

例如,模型生成的Mac屏幕截图逼真到难以分辨,体现了从细腻文本渲染到照片级真实感的强大视觉表现力。

逼真屏幕截图示例

旗田特别强调,ChatGPT Images 2.0具备“推理”能力。它能够基于视觉和常识知识,从网络补充缺失信息,即使不做详细指令,也能生成符合意图的图像。

推理能力示意

模型不仅提供基础的“即时(Instant)”模式,还新增了“思考(Thinking)”和“专业(Pro)”模式。思考模式可从单一提示生成多张不同图像,用户可边查看边调整,特别适合对准确性、一致性和视觉连贯性要求高的场景。

多图生成示例

思考模式支持一次生成最多8张图像,适合漫画连载页、房间设计方案、不同尺寸社交媒体图片等应用,确保角色和对象的一致性。

多图一致性示例

在安全性方面,OpenAI引入了输入输出的安全防护措施,并采用C2PA的溯源记录和SynthID等技术防止滥用。

ChatGPT Images 2.0适用范围广泛,涵盖商业、兴趣和学习等多个领域。它不仅是创意工具,也可作为作图助手和视觉学习伙伴。旗田本人作为视觉学习者,常用思考模式将复杂内容图解,助力理解。

OpenAI强调,凭借ChatGPT Images 2.0,图像生成已从“单纯渲染”进化为“战略设计”,从“工具”升级为“视觉系统”。

未来图像生成的发展方向是进一步提升提示词的表达,还是结合Canva、Photoshop等软件进行后期编辑?旗田表示尚未决定,将探索所有可能,致力于为用户提供最佳体验。他设想未来是通过自然对话协作生成意图图像,而非单纯依赖复杂提示词。

未来展望

日本市场的快速增长

据OpenAI统计,自发布以来,日本市场的ChatGPT Images 2.0使用量增长迅速,位列全球前茅,与新加坡、泰国、台湾并驾齐驱。截至4月28日,日本一周内使用量增长超过60%,在亚洲地区表现尤为突出。

初期流行趋势包括:

  • 在照片上用类似马克笔的手绘风格注释元素
  • 个人色彩诊断
  • 试验各种发型和妆容
  • 制作体育或粉丝文化风格的海报
  • 商品营销概念和模型图生成

手绘注释示例

例如,用户可以让模型在照片中用白色细线手绘注释,文字以日语手写体呈现,内容简短且富有情感,整体风格类似Instagram故事或杂志草图,既时尚又轻松。

此外,用户还能利用肖像图进行个人色彩诊断,横向排列不同颜色的服装,直观比较最适合的色彩,所有文字均为日语,无英文。

ChatGPT Images 2.0的发布标志着图像生成技术进入了一个全新的阶段,凭借其多语言支持、推理能力和多模式生成,未来在创意设计、商业应用和教育领域将发挥更大作用。