OpenAI发布GPT-Image-2，Cursor获60亿美元合同

Cursor与xAI达成的60亿美元合同引发关注，但作为纯财务事件，本文重点聚焦OpenAI今日发布的重磅产品——GPT-Image-2。

经过数周的猜测和确认，GPT-Image-2现已在API和ChatGPT中上线，力图超越Nano Banana 2在图像生成领域的表现，提供思考型和非思考型两种变体。尽管此前传闻OpenAI曾进行“聚焦”冲刺并关闭Sora团队，图像生成依然是其优先发展方向，且新模型表现极为出色。推荐观看团队准备的8个视频、官方博客及直播了解详情。

GPT-Image-2示例图

其中，最令人印象深刻的是矩阵示例中展现的文本细节和一致性。

矩阵示例

还有定制版“找瓦尔多”游戏演示：

找瓦尔多示例

主要亮点

GPT-Image-2正式发布：OpenAI推出ChatGPT Images 2.0及底层gpt-image-2模型，支持更强的文本渲染、布局还原、编辑、多语言及图像“思考”能力。模型可结合思考型模型进行网络搜索，生成多候选方案，自我校验输出，支持幻灯片、信息图、图表、UI原型及二维码等多种产物。已被Figma、Canva、Adobe Firefly等工具集成。
性能显著提升：Arena排行榜显示GPT-Image-2在文本到图像、单图编辑、多图编辑等多项指标均排名第一，文本到图像任务领先第二名242 Elo分。该模型不仅生成更美观图像，更适用于UI设计、文档制作及参考驱动的设计流程。
代理基础设施发展：Hugging Face发布开源代理ml-intern，自动化训练后研究循环，提升科学推理和医疗任务表现。Hermes代理平台支持更深层次的多进程协作，推动从单一聊天循环向多进程系统转变。代理系统的运行时和工具链成为关键工程资产。
系统级进展：Moonshot团队发布Kimi K2.6，完成长时任务自主编码，开源FlashKDA内核提升推理速度。开源模型在编码质量上逐渐接近闭源模型，基础设施和部署质量成为关键。
深度研究系统升级：谷歌推出基于Gemini 3.1 Pro的Deep Research Max，支持协作规划、多模态输入、代码执行及实时进度流，商业化潜力显著。
检索与评估工具：LightOn发布两款检索模型LateOn和DenseOn，性能优于更大模型。vLLM提供实用部署知识层，提升模型服务便捷性。评测开始关注代理的盲点和环境线索利用。