GPT‑5.5 发布：更聪明、更懂你的新一代工作伙伴

99%的人还在把大模型当“高级搜索”，却没意识到：GPT‑5.5 已经开始接管整条工作流，而不只是回你几段文字。它能自己规划、自己查资料、自己写代码、自己点鼠标，你只丢给它一个“烂摊子”任务，就能看它一步步收尾。这种变化，正在悄悄改写很多人的工作方式。

GPT‑5.5 有什么不一样？

更强的整体任务执行能力

GPT‑5.5 是目前这一代中最聪明、也最“好用”的模型之一。它理解意图的速度更快，不再需要你把步骤拆得很细，而是能自己规划路径、调用工具、检查结果，再继续推进。写代码、调试、上网检索、分析数据、做文档和表格、操作软件、在多个工具之间来回切换，它都能一条龙完成。

有用户反馈，把一个包含需求说明、旧代码、错误日志的“乱七八糟”对话直接丢给 GPT‑5.5，它能先自己理清上下文，再给出修改方案和完整补丁，中间几乎不用人干预。

在智能提升的同时，它的速度并没有拖后腿。真实服务场景下，GPT‑5.5 的单 token 延迟和 GPT‑5.4 基本持平，却在多项评测中大幅领先。更关键的是，它完成同样的 Codex 任务所用的 token 更少，既更聪明，也更省钱。

关键指标上的全面领先

在一系列外部评测中，GPT‑5.5 都拿到了前列成绩：

Terminal-Bench 2.0：82.7% 准确率，测试复杂命令行工作流
Expert-SWE 内部长周期编码任务：73.1%，对应人类中位完成时间约 20 小时
GDPval 知识工作评测：84.9%，覆盖 44 个职业场景
OSWorld-Verified：78.7%，验证真实电脑环境下的自主操作
Tau2-bench Telecom：在未做提示词调优的情况下达到 98.0%

据第三方 Artificial Analysis 的 Coding Index 数据，GPT‑5.5 在保持前沿智能水平的同时，编码成本约为同类前沿模型的一半。这一点，对大规模用 AI 写代码的团队非常现实。

更严的安全与合规设计

GPT‑5.5 上线前，经历了完整的安全与准备度评估，包括：

使用内部《Preparedness Framework》对生物、网络安全等高风险能力进行专项测试
与内部和外部红队合作，针对高级网络攻防、生物安全场景做压力测试
邀请近 200 家可信早期合作伙伴，在真实业务中试用并反馈

在安全分级上，GPT‑5.5 的生物/化学和网络安全能力被评为“High”级，虽未达到“Critical”，但明显强于 GPT‑5.4。为此，OpenAI 同步上线了更严格的分类器和使用限制，对部分用户来说，一开始可能会觉得“拦得有点严”，但这是为了在能力提升的同时，把滥用风险压在可控范围内。

模型能力：从写代码到做科研

Agentic Coding：从“写函数”到“重构系统”

代码能力的量化提升

在“代理式编码”场景里，GPT‑5.5 的提升最直观：

Terminal-Bench 2.0：82.7% 准确率，要求模型在命令行中完成需要规划、迭代和多工具协同的复杂任务
SWE-Bench Pro（公开版）：58.6%，在真实 GitHub issue 上一次性完成 end-to-end 修复
Expert-SWE（内部）：长周期编码任务上全面超过 GPT‑5.4

更有意思的是，在这三项评测中，GPT‑5.5 都是在 用更少 token 的前提下 取得更高分数。这意味着它不仅“会做”，而且“做得干脆利落”。

真正能“看懂系统”的助手

在 Codex 中，GPT‑5.5 的优势被放大：

能从实现、重构到调试、测试、验证，完整接手工程任务
更擅长在大型代码库中保持上下文，理解模块之间的依赖关系
面对模糊的错误，只给日志和现象，也能自己假设、用工具验证，再给出修复方案
做完改动后，会主动检查周边代码是否需要同步调整

有一位工程师给它一个协同 Markdown 编辑器的评论系统重构任务，回来时看到的是一整套 12 个 diff 的变更栈，几乎已经可以直接合并。另一位 NVIDIA 工程师甚至说：“失去 GPT‑5.5 的那几天，感觉像被砍掉了一条胳膊。”

一位创业者 Dan Shipper 形容 GPT‑5.5 是“第一个真正有概念清晰度的编码模型”。他曾在产品上线后，为一个棘手 bug 折腾了几天，最后请资深工程师重写部分系统。后来他把当时的“坏状态”丢给 GPT‑5.5，模型给出的重构方案和那位工程师的最终做法高度一致，而 GPT‑5.4 做不到这一点。

知识工作：从“写文案”到“跑业务”

更自然地完成整条知识工作链

GPT‑5.5 在知识工作上的优势，本质上来自两个点：更懂意图、更会用工具。它可以自然地完成一整条闭环：

找信息：主动检索、筛选来源
懂重点：判断哪些信息和你的目标真正相关
用工具：调用表格、PPT、外部 API 等
自查：对结果做 sanity check，发现明显矛盾
产出：把原始材料变成报告、模型、方案

在 Codex 里，它生成文档、表格、演示文稿的质量明显优于 GPT‑5.4。Alpha 测试用户提到，它在运营研究、财务建模、把“老板的语音+截图+乱七八糟的 Excel”变成可执行计划方面，表现尤其好。

OpenAI 内部的真实用法

OpenAI 自己已经把 Codex 和 GPT‑5.5 深度用在日常工作中：

公司内部使用率：超过 85% 的员工每周都会用 Codex，覆盖工程、财务、传播、市场、数据科学、产品等岗位
传播团队：用 GPT‑5.5 分析 6 个月的演讲邀请数据，搭建评分和风险框架，并验证一个自动化 Slack 机器人，让低风险请求自动处理，高风险请求仍交给人工
财务团队：在不触及个人隐私的前提下，用 Codex 审核 24,771 份 K‑1 税表（共 71,637 页），比上一年快了约两周
销售/商务团队：有人把每周业务报告完全自动化，每周节省 5–10 小时

这些案例的共同点是：GPT‑5.5 不再只是“写一段总结”，而是参与到流程设计、规则制定和自动化执行中。

ChatGPT 中的 GPT‑5.5 与 GPT‑5.5 Pro

在 ChatGPT 里：

GPT‑5.5 Thinking：面向 Plus、Pro、Business、Enterprise 用户，针对复杂问题给出更快、更精炼的答案，适合编码、研究、信息综合和文档密集型任务
GPT‑5.5 Pro：面向 Pro、Business、Enterprise，专攻更高难度、更高准确率的工作，同时在延迟上做了优化，让它在重负载场景下也能实际可用

早期测试显示，相比 GPT‑5.4 Pro，GPT‑5.5 Pro 在商业、法律、教育、数据科学等领域的回答更全面、结构更清晰、事实更准确、相关性更高。

科学研究：从“答题”到“共创”

在基因、生物信息学上的新表现

在科研场景中，GPT‑5.5 的价值不在于“答对一道难题”，而在于能陪研究者走完整个循环：提出假设、查文献、设计实验、跑分析、解释结果、决定下一步。

在 GeneBench（聚焦遗传学和定量生物学的多阶段数据分析）上，GPT‑5.5 相比 GPT‑5.4 有明显提升。这个评测要求模型：

面对含噪、存在潜在混杂因素的数据
在监督极少的情况下，自己选择合适的统计方法
正确实现并解释现代统计分析流程

很多任务对应的是专家需要花几天甚至更久的项目，GPT‑5.5 在这里的表现，已经接近“合格博士后”的水平。

在 BixBench（真实生物信息与数据分析任务）上，GPT‑5.5 也拿到了当前已公开成绩中的领先位置。对一些前沿生物医药团队来说，它已经可以作为“共作者”参与研究。

一位免疫学教授 Derya Unutmaz 用 GPT‑5.5 Pro 分析了一个包含 62 个样本、近 2.8 万个基因的表达数据集。模型不仅给出详细报告，还主动提出关键问题和后续研究方向。他坦言，如果完全靠团队自己做，这种工作量可能要耗上几个月。

数学与抽象推理上的突破

在数学领域，GPT‑5.5 也给出了一个很有象征意义的例子：

内部版本的 GPT‑5.5 在一个定制环境中，帮助发现了关于 Ramsey 数 的一个新证明
这个结果后来用 Lean 形式化验证通过
Ramsey 数是组合数学中的核心对象，相关结果稀少且技术难度高

这说明模型不仅能“算题”“讲解”，还可以在严肃的数学研究中提出有价值的新思路。

另一位数学家 Bartosz Naskręcki 则用 Codex + GPT‑5.5，在 11 分钟内从一个自然语言提示生成了一个代数几何可视化应用：

绘制两条二次曲面及其交线
将交线转换为 Weierstrass 形式
支持交互旋转、缩放和参数调节

代数几何可视化应用截图

他后续又让模型帮忙扩展了奇点可视化和精确系数导出功能。对他来说，更大的变化是：原本需要专门数学软件才能做的可视化和代数计算，现在可以用自然语言“点菜”，让 Codex 帮他搭工具。

Prompt 示例（节选）：

“制作一个应用，绘制两条二次曲面，并用红色标出它们的交线。”

“使用有效的 Riemann–Roch 定理，将交线转成 Weierstrass 曲线。”

“支持鼠标旋转、缩放，长按呼出系数滑块，浏览器端轻量实现，可部署。”

推理效率：模型帮自己“提速”

把推理当成一个整体系统来优化

要在保持 GPT‑5.4 延迟的前提下，塞进更大的能力，单靠某几个优化小技巧是不够的。GPT‑5.5 的训练和部署，是和 NVIDIA GB200、GB300 NVL72 系统一起协同设计的：

训练阶段就考虑到未来推理的硬件形态
推理框架、调度策略和模型结构一起迭代
Codex 和 GPT‑5.5 本身也被用来优化推理栈

有点“模型帮自己打磨跑道”的味道。比如，团队用 Codex 分析了数周的线上流量数据，让它生成新的负载均衡和分片启发式算法：

旧方案：在加速器上把请求切成固定数量的 chunk，方便大小请求混跑
问题：固定 chunk 数在不同流量形态下并不总是最优
新方案：根据实时流量特征动态调整分片和调度

据内部数据，这一项改动就带来了 20% 以上的 token 生成速度提升。

一个可复用的判断标准

如果你在评估“要不要从旧模型迁移到 GPT‑5.5”，可以用一个简单的三步标准：

任务复杂度：是否涉及多轮推理、多工具协同、长上下文？如果是，GPT‑5.5 的收益会非常明显。
token 成本结构：你的主要成本在输入还是输出？GPT‑5.5 在输出 token 数量上的节省，往往能抵消单价差异。
错误代价：一旦出错，返工成本是否很高（如金融建模、生产环境代码）？在这类场景，GPT‑5.5 Pro 的更高准确率往往更值钱。

我也不太确定这个“三步法”对所有团队都适用，但在不少早期用户的反馈里，这套思路确实帮他们做出了更清晰的迁移决策。

网络安全：在“更强能力”和“更严防线”之间找平衡

为什么要把网络安全能力“放大”又“限流”？

前沿模型在网络安全上的能力越来越强，这是趋势：

能更快发现漏洞，也能更快写出利用代码
能帮防守方做自动化渗透测试，也可能被攻击者滥用

OpenAI 的选择是：

承认并利用这些能力，让防守方先用起来
同时通过 分级访问 + 严格审计 把滥用风险压低

在 GPT‑5.2 时，OpenAI 就上线了首批网络安全专用防护策略。到了 GPT‑5.5，这些策略被进一步收紧和细化：

对高风险操作、敏感网络安全请求设置更严格的拦截
对重复尝试绕过限制的行为做更强的检测
对“修补漏洞”“安全加固”类请求则尽量放行，减少不必要的拒绝

Trusted Access for Cyber：给“防守方”开绿灯

为了让真正负责防御的人能用上更强的模型，OpenAI 推出了 Trusted Access for Cyber：

首批在 Codex 中开放，允许符合条件的用户访问限制更少的网络安全能力
面向负责关键基础设施防护的组织（电网、水务、税务系统等）
要求满足严格的安全要求和信任信号（如身份验证、用途说明、日志留存等）

符合条件的机构可以申请访问诸如 GPT‑5.4‑Cyber 等“网络安全增强版”模型，用于内部系统加固。普通开发者如果主要是做防御性工作，也可以在 chatgpt.com/cyber 申请，减少在正当安全场景下被模型误拒的情况。

一位安全创业者在内部测试中提到，用 GPT‑5.5 在自家平台上跑生化和网络安全相关的 hardest eval，准确率有明显提升，“如果 OpenAI 继续这样迭代，今年底前药物发现和网络防御的底层范式都会被改写”。

风险与机会并存的现实提醒

当然，GPT‑5.5 并不是“安全银弹”：

它仍然可能误判风险，拒绝一些合理请求
在复杂攻击链条中，它也可能被攻击者当作一个环节
对缺乏安全基础设施的组织来说，贸然接入强模型，反而可能暴露更多面

所以更现实的做法是：

把 GPT‑5.5 当作 安全团队的倍增器，而不是替代品
在引入前先梳理好日志、权限、审计机制
对关键操作设置“人机共审”，让模型先给方案，人来拍板

可用性与定价：贵一点，但更“划算”

ChatGPT 与 Codex 中的开放范围

当前，GPT‑5.5 的开放情况是：

ChatGPT
- GPT‑5.5：面向 Plus、Pro、Business、Enterprise 用户
- GPT‑5.5 Pro：面向 Pro、Business、Enterprise 用户
Codex
- GPT‑5.5：面向 Plus、Pro、Business、Enterprise、Edu、Go 计划用户
- 默认提供 400K 上下文窗口
- 提供 Fast 模式：约 1.5 倍生成速度，价格为标准模式的 2.5 倍

API 定价与模式

API 侧即将上线：

gpt‑5.5（Responses / Chat Completions）
- 输入：$5 / 1M tokens
- 输出：$30 / 1M tokens
- 上下文：1M tokens
- Batch / Flex：约标准价的一半
- Priority：约标准价的 2.5 倍
gpt‑5.5‑pro
- 输入：$30 / 1M tokens
- 输出：$180 / 1M tokens
- 面向极高准确率需求场景

从单价看，GPT‑5.5 确实比 GPT‑5.4 贵。但在 Codex 中，OpenAI 已经针对提示策略和默认行为做了大量调优，让 GPT‑5.5 在大多数用户场景下：

用更少的 token 完成同样甚至更复杂的任务
减少反复试错和返工
在订阅额度内，实际可完成的“有效工作量”反而更多

如果你正纠结要不要升级，最简单的做法是：挑一条你最耗时、最怕出错的关键流程，让 GPT‑5.5 和旧模型各跑一周，对比“人力节省 + 返工次数 + token 消耗”，再做决定。这种 A/B 结果，往往比任何宣传都更有说服力。

这个判断方法在不少团队里被反复验证有效，建议你也留一份在手边，等需要做模型迁移决策时拿出来用一用。

常见问题

Q：GPT‑5.5 和 GPT‑5.4 相比，最值得升级的场景是什么？

A：最值得升级的是“长链路、高返工成本”的场景，比如大型代码库重构、复杂财务建模、跨多工具的自动化流程。原因在于 GPT‑5.5 在这类任务上的规划能力、工具使用稳定性和自检能力都有明显提升，同时完成同样任务所需的 token 更少。建议你先选一条关键业务流程做小范围试点，对比两代模型在：完成时间、返工次数、token 消耗这三项上的差异，再决定是否全量迁移。

Q：GPT‑5.5 在安全上更“严”，会不会影响正常开发和安全研究？

A：短期内可能会有一些“过度拦截”的体验，但整体设计是“对高风险行为更严，对正当防御工作更宽”。OpenAI 通过分类器和信任信号区分攻击性请求与防御性请求，并为符合条件的安全团队提供 Trusted Access for Cyber 通道。你在做渗透测试、代码审计时，如果频繁遇到无意义拒绝，可以考虑：完善账号认证、明确说明用途、申请可信访问，并在内部建立日志和审计机制，以便在享受更开放能力的同时，保持可追溯和可控。

Q：在成本更高的情况下，如何确保用 GPT‑5.5 不“烧钱”？

A：关键是把 GPT‑5.5 用在“高价值节点”，而不是所有请求都上最高配。可以按三步来做：第一，把任务按复杂度分级，简单问答、模板生成仍用便宜模型；第二，在 Codex 或 API 中启用合理的 max_tokens 和思考深度，避免无意义长输出；第三，定期审查日志，找出 token 消耗最高但业务价值不高的调用，优化提示或降级模型。实践中，很多团队在做完这三步后，发现整体成本变化不大，但交付质量和速度明显提升。

Q：科研人员具体可以怎么把 GPT‑5.5 融入日常研究？

A：可以把 GPT‑5.5 当成“高水平研究助理”，而不是“自动论文机”。具体做法包括：让它帮你梳理文献脉络、提出备选假设、设计初步实验方案、生成分析脚本、对结果做第一轮解释，并在多轮对话中反复质疑和修正。原因是 GPT‑5.5 在 GeneBench、BixBench 等评测中已经展现出对多阶段数据分析和现代统计方法的掌握，但仍可能在细节上出错。建议你：所有关键结论都要用独立工具或同事复核，把模型产出视为“草稿”和“灵感源”，而不是最终答案。

Q：团队要从零开始用 Codex + GPT‑5.5，有没有一个简单的落地顺序？

A：可以按“从个人到团队、从辅助到自动化”的顺序来：先让工程师和分析师在个人层面用 Codex 做代码补全、脚本生成、数据清洗，熟悉模型风格；接着选 1–2 条稳定、可回滚的流程（如周报生成、日志分析）做半自动化，把人放在最后审核环节；最后再考虑把模型嵌入到 CI/CD、监控告警、内部工具中。这样做的好处是，每一步都能在可控范围内验证收益和风险，避免一上来就大规模改造导致组织“水土不服”。

如果你正站在“要不要用 GPT‑5.5”的十字路口，这些经验往往比问身边人更有参考价值。真正的差别，不在于你知不知道这代模型有多强，而在于你愿不愿意给它一个小小的试验场。