99%的人还在把大模型当“高级搜索”,却没意识到:GPT‑5.5 已经开始接管整条工作流,而不只是回你几段文字。它能自己规划、自己查资料、自己写代码、自己点鼠标,你只丢给它一个“烂摊子”任务,就能看它一步步收尾。这种变化,正在悄悄改写很多人的工作方式。

GPT‑5.5 有什么不一样?

更强的整体任务执行能力

GPT‑5.5 是目前这一代中最聪明、也最“好用”的模型之一。它理解意图的速度更快,不再需要你把步骤拆得很细,而是能自己规划路径、调用工具、检查结果,再继续推进。写代码、调试、上网检索、分析数据、做文档和表格、操作软件、在多个工具之间来回切换,它都能一条龙完成。

有用户反馈,把一个包含需求说明、旧代码、错误日志的“乱七八糟”对话直接丢给 GPT‑5.5,它能先自己理清上下文,再给出修改方案和完整补丁,中间几乎不用人干预。

在智能提升的同时,它的速度并没有拖后腿。真实服务场景下,GPT‑5.5 的单 token 延迟和 GPT‑5.4 基本持平,却在多项评测中大幅领先。更关键的是,它完成同样的 Codex 任务所用的 token 更少,既更聪明,也更省钱。

关键指标上的全面领先

在一系列外部评测中,GPT‑5.5 都拿到了前列成绩:

  • Terminal-Bench 2.0:82.7% 准确率,测试复杂命令行工作流
  • Expert-SWE 内部长周期编码任务:73.1%,对应人类中位完成时间约 20 小时
  • GDPval 知识工作评测:84.9%,覆盖 44 个职业场景
  • OSWorld-Verified:78.7%,验证真实电脑环境下的自主操作
  • Tau2-bench Telecom:在未做提示词调优的情况下达到 98.0%

据第三方 Artificial Analysis 的 Coding Index 数据,GPT‑5.5 在保持前沿智能水平的同时,编码成本约为同类前沿模型的一半。这一点,对大规模用 AI 写代码的团队非常现实。

更严的安全与合规设计

GPT‑5.5 上线前,经历了完整的安全与准备度评估,包括:

  • 使用内部《Preparedness Framework》对生物、网络安全等高风险能力进行专项测试
  • 与内部和外部红队合作,针对高级网络攻防、生物安全场景做压力测试
  • 邀请近 200 家可信早期合作伙伴,在真实业务中试用并反馈

在安全分级上,GPT‑5.5 的生物/化学和网络安全能力被评为“High”级,虽未达到“Critical”,但明显强于 GPT‑5.4。为此,OpenAI 同步上线了更严格的分类器和使用限制,对部分用户来说,一开始可能会觉得“拦得有点严”,但这是为了在能力提升的同时,把滥用风险压在可控范围内。

模型能力:从写代码到做科研

Agentic Coding:从“写函数”到“重构系统”

代码能力的量化提升

在“代理式编码”场景里,GPT‑5.5 的提升最直观:

  • Terminal-Bench 2.0:82.7% 准确率,要求模型在命令行中完成需要规划、迭代和多工具协同的复杂任务
  • SWE-Bench Pro(公开版):58.6%,在真实 GitHub issue 上一次性完成 end-to-end 修复
  • Expert-SWE(内部):长周期编码任务上全面超过 GPT‑5.4

更有意思的是,在这三项评测中,GPT‑5.5 都是在 用更少 token 的前提下 取得更高分数。这意味着它不仅“会做”,而且“做得干脆利落”。

真正能“看懂系统”的助手

在 Codex 中,GPT‑5.5 的优势被放大:

  • 能从实现、重构到调试、测试、验证,完整接手工程任务
  • 更擅长在大型代码库中保持上下文,理解模块之间的依赖关系
  • 面对模糊的错误,只给日志和现象,也能自己假设、用工具验证,再给出修复方案
  • 做完改动后,会主动检查周边代码是否需要同步调整

有一位工程师给它一个协同 Markdown 编辑器的评论系统重构任务,回来时看到的是一整套 12 个 diff 的变更栈,几乎已经可以直接合并。另一位 NVIDIA 工程师甚至说:“失去 GPT‑5.5 的那几天,感觉像被砍掉了一条胳膊。”

一位创业者 Dan Shipper 形容 GPT‑5.5 是“第一个真正有概念清晰度的编码模型”。他曾在产品上线后,为一个棘手 bug 折腾了几天,最后请资深工程师重写部分系统。后来他把当时的“坏状态”丢给 GPT‑5.5,模型给出的重构方案和那位工程师的最终做法高度一致,而 GPT‑5.4 做不到这一点。

知识工作:从“写文案”到“跑业务”

更自然地完成整条知识工作链

GPT‑5.5 在知识工作上的优势,本质上来自两个点:更懂意图、更会用工具。它可以自然地完成一整条闭环:

  1. 找信息:主动检索、筛选来源
  2. 懂重点:判断哪些信息和你的目标真正相关
  3. 用工具:调用表格、PPT、外部 API 等
  4. 自查:对结果做 sanity check,发现明显矛盾
  5. 产出:把原始材料变成报告、模型、方案

在 Codex 里,它生成文档、表格、演示文稿的质量明显优于 GPT‑5.4。Alpha 测试用户提到,它在运营研究、财务建模、把“老板的语音+截图+乱七八糟的 Excel”变成可执行计划方面,表现尤其好。

OpenAI 内部的真实用法

OpenAI 自己已经把 Codex 和 GPT‑5.5 深度用在日常工作中:

  • 公司内部使用率:超过 85% 的员工每周都会用 Codex,覆盖工程、财务、传播、市场、数据科学、产品等岗位
  • 传播团队:用 GPT‑5.5 分析 6 个月的演讲邀请数据,搭建评分和风险框架,并验证一个自动化 Slack 机器人,让低风险请求自动处理,高风险请求仍交给人工
  • 财务团队:在不触及个人隐私的前提下,用 Codex 审核 24,771 份 K‑1 税表(共 71,637 页),比上一年快了约两周
  • 销售/商务团队:有人把每周业务报告完全自动化,每周节省 5–10 小时

这些案例的共同点是:GPT‑5.5 不再只是“写一段总结”,而是参与到流程设计、规则制定和自动化执行中。

ChatGPT 中的 GPT‑5.5 与 GPT‑5.5 Pro

在 ChatGPT 里:

  • GPT‑5.5 Thinking:面向 Plus、Pro、Business、Enterprise 用户,针对复杂问题给出更快、更精炼的答案,适合编码、研究、信息综合和文档密集型任务
  • GPT‑5.5 Pro:面向 Pro、Business、Enterprise,专攻更高难度、更高准确率的工作,同时在延迟上做了优化,让它在重负载场景下也能实际可用

早期测试显示,相比 GPT‑5.4 Pro,GPT‑5.5 Pro 在商业、法律、教育、数据科学等领域的回答更全面、结构更清晰、事实更准确、相关性更高。

科学研究:从“答题”到“共创”

在基因、生物信息学上的新表现

在科研场景中,GPT‑5.5 的价值不在于“答对一道难题”,而在于能陪研究者走完整个循环:提出假设、查文献、设计实验、跑分析、解释结果、决定下一步。

GeneBench(聚焦遗传学和定量生物学的多阶段数据分析)上,GPT‑5.5 相比 GPT‑5.4 有明显提升。这个评测要求模型:

  • 面对含噪、存在潜在混杂因素的数据
  • 在监督极少的情况下,自己选择合适的统计方法
  • 正确实现并解释现代统计分析流程

很多任务对应的是专家需要花几天甚至更久的项目,GPT‑5.5 在这里的表现,已经接近“合格博士后”的水平。

BixBench(真实生物信息与数据分析任务)上,GPT‑5.5 也拿到了当前已公开成绩中的领先位置。对一些前沿生物医药团队来说,它已经可以作为“共作者”参与研究。

一位免疫学教授 Derya Unutmaz 用 GPT‑5.5 Pro 分析了一个包含 62 个样本、近 2.8 万个基因的表达数据集。模型不仅给出详细报告,还主动提出关键问题和后续研究方向。他坦言,如果完全靠团队自己做,这种工作量可能要耗上几个月。

数学与抽象推理上的突破

在数学领域,GPT‑5.5 也给出了一个很有象征意义的例子:

  • 内部版本的 GPT‑5.5 在一个定制环境中,帮助发现了关于 Ramsey 数 的一个新证明
  • 这个结果后来用 Lean 形式化验证通过
  • Ramsey 数是组合数学中的核心对象,相关结果稀少且技术难度高

这说明模型不仅能“算题”“讲解”,还可以在严肃的数学研究中提出有价值的新思路。

另一位数学家 Bartosz Naskręcki 则用 Codex + GPT‑5.5,在 11 分钟内从一个自然语言提示生成了一个代数几何可视化应用:

  • 绘制两条二次曲面及其交线
  • 将交线转换为 Weierstrass 形式
  • 支持交互旋转、缩放和参数调节

代数几何可视化应用截图

他后续又让模型帮忙扩展了奇点可视化和精确系数导出功能。对他来说,更大的变化是:原本需要专门数学软件才能做的可视化和代数计算,现在可以用自然语言“点菜”,让 Codex 帮他搭工具。

Prompt 示例(节选):

  • “制作一个应用,绘制两条二次曲面,并用红色标出它们的交线。”
  • “使用有效的 Riemann–Roch 定理,将交线转成 Weierstrass 曲线。”
  • “支持鼠标旋转、缩放,长按呼出系数滑块,浏览器端轻量实现,可部署。”

推理效率:模型帮自己“提速”

把推理当成一个整体系统来优化

要在保持 GPT‑5.4 延迟的前提下,塞进更大的能力,单靠某几个优化小技巧是不够的。GPT‑5.5 的训练和部署,是和 NVIDIA GB200、GB300 NVL72 系统一起协同设计的:

  • 训练阶段就考虑到未来推理的硬件形态
  • 推理框架、调度策略和模型结构一起迭代
  • Codex 和 GPT‑5.5 本身也被用来优化推理栈

有点“模型帮自己打磨跑道”的味道。比如,团队用 Codex 分析了数周的线上流量数据,让它生成新的负载均衡和分片启发式算法:

  • 旧方案:在加速器上把请求切成固定数量的 chunk,方便大小请求混跑
  • 问题:固定 chunk 数在不同流量形态下并不总是最优
  • 新方案:根据实时流量特征动态调整分片和调度

据内部数据,这一项改动就带来了 20% 以上的 token 生成速度提升

一个可复用的判断标准

如果你在评估“要不要从旧模型迁移到 GPT‑5.5”,可以用一个简单的三步标准:

  1. 任务复杂度:是否涉及多轮推理、多工具协同、长上下文?如果是,GPT‑5.5 的收益会非常明显。
  2. token 成本结构:你的主要成本在输入还是输出?GPT‑5.5 在输出 token 数量上的节省,往往能抵消单价差异。
  3. 错误代价:一旦出错,返工成本是否很高(如金融建模、生产环境代码)?在这类场景,GPT‑5.5 Pro 的更高准确率往往更值钱。

我也不太确定这个“三步法”对所有团队都适用,但在不少早期用户的反馈里,这套思路确实帮他们做出了更清晰的迁移决策。

网络安全:在“更强能力”和“更严防线”之间找平衡

为什么要把网络安全能力“放大”又“限流”?

前沿模型在网络安全上的能力越来越强,这是趋势:

  • 能更快发现漏洞,也能更快写出利用代码
  • 能帮防守方做自动化渗透测试,也可能被攻击者滥用

OpenAI 的选择是:

  • 承认并利用这些能力,让防守方先用起来
  • 同时通过 分级访问 + 严格审计 把滥用风险压低

在 GPT‑5.2 时,OpenAI 就上线了首批网络安全专用防护策略。到了 GPT‑5.5,这些策略被进一步收紧和细化:

  • 对高风险操作、敏感网络安全请求设置更严格的拦截
  • 对重复尝试绕过限制的行为做更强的检测
  • 对“修补漏洞”“安全加固”类请求则尽量放行,减少不必要的拒绝

Trusted Access for Cyber:给“防守方”开绿灯

为了让真正负责防御的人能用上更强的模型,OpenAI 推出了 Trusted Access for Cyber

  • 首批在 Codex 中开放,允许符合条件的用户访问限制更少的网络安全能力
  • 面向负责关键基础设施防护的组织(电网、水务、税务系统等)
  • 要求满足严格的安全要求和信任信号(如身份验证、用途说明、日志留存等)

符合条件的机构可以申请访问诸如 GPT‑5.4‑Cyber 等“网络安全增强版”模型,用于内部系统加固。普通开发者如果主要是做防御性工作,也可以在 chatgpt.com/cyber 申请,减少在正当安全场景下被模型误拒的情况。

一位安全创业者在内部测试中提到,用 GPT‑5.5 在自家平台上跑生化和网络安全相关的 hardest eval,准确率有明显提升,“如果 OpenAI 继续这样迭代,今年底前药物发现和网络防御的底层范式都会被改写”。

风险与机会并存的现实提醒

当然,GPT‑5.5 并不是“安全银弹”:

  • 它仍然可能误判风险,拒绝一些合理请求
  • 在复杂攻击链条中,它也可能被攻击者当作一个环节
  • 对缺乏安全基础设施的组织来说,贸然接入强模型,反而可能暴露更多面

所以更现实的做法是:

  • 把 GPT‑5.5 当作 安全团队的倍增器,而不是替代品
  • 在引入前先梳理好日志、权限、审计机制
  • 对关键操作设置“人机共审”,让模型先给方案,人来拍板

可用性与定价:贵一点,但更“划算”

ChatGPT 与 Codex 中的开放范围

当前,GPT‑5.5 的开放情况是:

  • ChatGPT
    • GPT‑5.5:面向 Plus、Pro、Business、Enterprise 用户
    • GPT‑5.5 Pro:面向 Pro、Business、Enterprise 用户
  • Codex
    • GPT‑5.5:面向 Plus、Pro、Business、Enterprise、Edu、Go 计划用户
    • 默认提供 400K 上下文窗口
    • 提供 Fast 模式:约 1.5 倍生成速度,价格为标准模式的 2.5 倍

API 定价与模式

API 侧即将上线:

  • gpt‑5.5(Responses / Chat Completions)
    • 输入:$5 / 1M tokens
    • 输出:$30 / 1M tokens
    • 上下文:1M tokens
    • Batch / Flex:约标准价的一半
    • Priority:约标准价的 2.5 倍
  • gpt‑5.5‑pro
    • 输入:$30 / 1M tokens
    • 输出:$180 / 1M tokens
    • 面向极高准确率需求场景

从单价看,GPT‑5.5 确实比 GPT‑5.4 贵。但在 Codex 中,OpenAI 已经针对提示策略和默认行为做了大量调优,让 GPT‑5.5 在大多数用户场景下:

  • 用更少的 token 完成同样甚至更复杂的任务
  • 减少反复试错和返工
  • 在订阅额度内,实际可完成的“有效工作量”反而更多

如果你正纠结要不要升级,最简单的做法是:挑一条你最耗时、最怕出错的关键流程,让 GPT‑5.5 和旧模型各跑一周,对比“人力节省 + 返工次数 + token 消耗”,再做决定。这种 A/B 结果,往往比任何宣传都更有说服力。

这个判断方法在不少团队里被反复验证有效,建议你也留一份在手边,等需要做模型迁移决策时拿出来用一用。

常见问题

Q:GPT‑5.5 和 GPT‑5.4 相比,最值得升级的场景是什么?

A:最值得升级的是“长链路、高返工成本”的场景,比如大型代码库重构、复杂财务建模、跨多工具的自动化流程。原因在于 GPT‑5.5 在这类任务上的规划能力、工具使用稳定性和自检能力都有明显提升,同时完成同样任务所需的 token 更少。建议你先选一条关键业务流程做小范围试点,对比两代模型在:完成时间、返工次数、token 消耗这三项上的差异,再决定是否全量迁移。

Q:GPT‑5.5 在安全上更“严”,会不会影响正常开发和安全研究?

A:短期内可能会有一些“过度拦截”的体验,但整体设计是“对高风险行为更严,对正当防御工作更宽”。OpenAI 通过分类器和信任信号区分攻击性请求与防御性请求,并为符合条件的安全团队提供 Trusted Access for Cyber 通道。你在做渗透测试、代码审计时,如果频繁遇到无意义拒绝,可以考虑:完善账号认证、明确说明用途、申请可信访问,并在内部建立日志和审计机制,以便在享受更开放能力的同时,保持可追溯和可控。

Q:在成本更高的情况下,如何确保用 GPT‑5.5 不“烧钱”?

A:关键是把 GPT‑5.5 用在“高价值节点”,而不是所有请求都上最高配。可以按三步来做:第一,把任务按复杂度分级,简单问答、模板生成仍用便宜模型;第二,在 Codex 或 API 中启用合理的 max_tokens 和思考深度,避免无意义长输出;第三,定期审查日志,找出 token 消耗最高但业务价值不高的调用,优化提示或降级模型。实践中,很多团队在做完这三步后,发现整体成本变化不大,但交付质量和速度明显提升。

Q:科研人员具体可以怎么把 GPT‑5.5 融入日常研究?

A:可以把 GPT‑5.5 当成“高水平研究助理”,而不是“自动论文机”。具体做法包括:让它帮你梳理文献脉络、提出备选假设、设计初步实验方案、生成分析脚本、对结果做第一轮解释,并在多轮对话中反复质疑和修正。原因是 GPT‑5.5 在 GeneBench、BixBench 等评测中已经展现出对多阶段数据分析和现代统计方法的掌握,但仍可能在细节上出错。建议你:所有关键结论都要用独立工具或同事复核,把模型产出视为“草稿”和“灵感源”,而不是最终答案。

Q:团队要从零开始用 Codex + GPT‑5.5,有没有一个简单的落地顺序?

A:可以按“从个人到团队、从辅助到自动化”的顺序来:先让工程师和分析师在个人层面用 Codex 做代码补全、脚本生成、数据清洗,熟悉模型风格;接着选 1–2 条稳定、可回滚的流程(如周报生成、日志分析)做半自动化,把人放在最后审核环节;最后再考虑把模型嵌入到 CI/CD、监控告警、内部工具中。这样做的好处是,每一步都能在可控范围内验证收益和风险,避免一上来就大规模改造导致组织“水土不服”。

如果你正站在“要不要用 GPT‑5.5”的十字路口,这些经验往往比问身边人更有参考价值。真正的差别,不在于你知不知道这代模型有多强,而在于你愿不愿意给它一个小小的试验场。