一周前Anthropic发布了Opus 4.7,紧接着OpenAI推出了GPT 5.5,展示了类似的帕累托前沿性能提升曲线。GPT 5.5在整体智能表现上被评为全球顶尖的独立验证模型,且在每美元智能度方面表现优异。具体来说,GPT-5.5(中等版本)在智能指数上与Claude Opus 4.7(最高版本)持平,但成本仅为后者的四分之一(约1200美元对4800美元),而Gemini 3.1 Pro Preview则以约900美元的成本达到相同分数。

GPT 5.5性能图

OpenAI还透露了一些训练硬件细节,并展示了积极的用户反馈和多样的基准测试结果。虽然有观点认为此次发布只是一个小版本更新(甚至有人称之为5.9),但实际上它还包含了重要的Codex升级。

Codex超级应用

此次更新集成了浏览器控制等多项功能,并融合了已停用的Prism项目,标志着OpenAI将Codex打造为其超级应用战略的核心基础。

OpenAI官方表示,GPT-5.5在ChatGPT和Codex中推出,API访问将稍后开放以确保安全。该模型在长远任务执行、计算机使用能力和令牌效率方面均有显著提升。API定价为每百万输入/输出令牌5美元/30美元,Pro版本为30美元/180美元,支持100万令牌的上下文窗口。用户反馈称GPT-5.5更具人性化,适合持续的代理工作流程,尤其是在Codex环境中表现突出。

Codex的升级使其从单纯的编程工具转变为更全面的计算机工作代理,支持网页应用交互、截图、自动审查等功能,覆盖问答、电子表格、演示文稿、应用构建和研究等多种任务。

Codex功能展示

与此同时,DeepSeek发布了DeepSeek-V4 Preview,开源了1.6万亿参数的V4-Pro和2840亿参数的V4-Flash,均支持100万令牌上下文,采用MIT许可证,定价极具竞争力。技术报告强调了长上下文效率、混合注意力机制和量化感知训练等创新。

在代理基础设施方面,业界关注点从单一模型转向代理系统的整体架构,包括记忆管理、评估机制和编排工具。多代理编排产品如Sakana AI的Fugu和Hermes Agent也相继推出,推动代理成为多工具、多模型的协调层。

视觉和多模态领域同样活跃。Google DeepMind发布了Vision Banana,将二维和三维视觉任务统一为图像生成问题,表现优于多项专业视觉系统。Meta发布了Sapiens2,专注于人类图像的高分辨率视觉变换器。视频技术方面,LTX HDR Beta突破了动态范围瓶颈,支持更高质量的生产级视频处理。

训练和扩展技术方面,Google提出了Decoupled DiLoCo,实现了全球分布式预训练的容错和异构硬件支持。算法层面,研究表明通过自我博弈和高效采样,较小模型可达到大型模型的部分能力。基础设施需求持续增长,推测到2026年底全球算力需求将达到1.2GW。

总结来看,GPT 5.5不仅在智能水平和成本效益上取得突破,还通过Codex超级应用扩展了AI代理的实际应用场景,推动了多模态系统和代理基础设施的快速发展。