Cursor与xAI达成的60亿美元合同引发关注,但作为纯财务事件,本文重点聚焦OpenAI今日发布的重磅产品——GPT-Image-2。

经过数周的猜测和确认,GPT-Image-2现已在API和ChatGPT中上线,力图超越Nano Banana 2在图像生成领域的表现,提供思考型和非思考型两种变体。尽管此前传闻OpenAI曾进行“聚焦”冲刺并关闭Sora团队,图像生成依然是其优先发展方向,且新模型表现极为出色。推荐观看团队准备的8个视频、官方博客及直播了解详情。

GPT-Image-2示例图

其中,最令人印象深刻的是矩阵示例中展现的文本细节和一致性。

矩阵示例

还有定制版“找瓦尔多”游戏演示:

找瓦尔多示例

主要亮点

  • GPT-Image-2正式发布:OpenAI推出ChatGPT Images 2.0及底层gpt-image-2模型,支持更强的文本渲染、布局还原、编辑、多语言及图像“思考”能力。模型可结合思考型模型进行网络搜索,生成多候选方案,自我校验输出,支持幻灯片、信息图、图表、UI原型及二维码等多种产物。已被Figma、Canva、Adobe Firefly等工具集成。

  • 性能显著提升:Arena排行榜显示GPT-Image-2在文本到图像、单图编辑、多图编辑等多项指标均排名第一,文本到图像任务领先第二名242 Elo分。该模型不仅生成更美观图像,更适用于UI设计、文档制作及参考驱动的设计流程。

  • 代理基础设施发展:Hugging Face发布开源代理ml-intern,自动化训练后研究循环,提升科学推理和医疗任务表现。Hermes代理平台支持更深层次的多进程协作,推动从单一聊天循环向多进程系统转变。代理系统的运行时和工具链成为关键工程资产。

  • 系统级进展:Moonshot团队发布Kimi K2.6,完成长时任务自主编码,开源FlashKDA内核提升推理速度。开源模型在编码质量上逐渐接近闭源模型,基础设施和部署质量成为关键。

  • 深度研究系统升级:谷歌推出基于Gemini 3.1 Pro的Deep Research Max,支持协作规划、多模态输入、代码执行及实时进度流,商业化潜力显著。

  • 检索与评估工具:LightOn发布两款检索模型LateOn和DenseOn,性能优于更大模型。vLLM提供实用部署知识层,提升模型服务便捷性。评测开始关注代理的盲点和环境线索利用。

社区动态

  • Reddit和Twitter上,Kimi K2.6被视为Opus 4.7的有力替代,支持多语言和视觉任务,社区对其性能和成本效益展开热议。

  • Gemma 4模型通过调整视觉参数提升OCR表现,但安全过滤限制其在紧急情况下的实用性引发讨论。

  • Qwen 3.6模型在编码任务表现优异,但在指令遵循和翻译方面存在不足,用户对其稳定性和开放性持不同看法。

OpenAI此次GPT-Image-2的发布标志着图像生成技术进入新阶段,结合强大的文本理解和多模态能力,推动AI在设计、生产力等领域的广泛应用。与此同时,Cursor与xAI的巨额合同也显示出AI产业链上下游合作的加速。未来,随着模型性能和代理系统的不断提升,AI将更深度地融入各类实际场景。