GPT-Realtime-2、-Translate 与 -Whisper：全新实时语音API引领行业新标杆

OpenAI 在三个月前发布了 realtime-1.5 模型，但其提升有限，仅在 Big Bench Audio 中提升了5%。而最新推出的 realtime-2 模型则带来了显著进步，Big Bench Audio 评分提升了15.2%，获得了广泛好评。

根据官方博客介绍，此次发布了三款模型，分别对应“语音输入”、“语音输出”以及“语音到语音”三大功能：

模型示意图

此次更新的重点不在于提升语音质量，而是增强可用性。主要改进包括：

前置语句：开发者可在主要回复前添加简短语句，如“让我查一下”或“请稍等”。
并行工具调用与透明度：模型可同时调用多个工具，并通过语音提示如“正在查看日历”来告知用户，提升响应效率。
更强的恢复能力：遇到问题时，模型能优雅回应，如“我现在有点困难”，避免直接失败。
更长的上下文支持：上下文长度从32K提升至128K。
更强的领域理解：更好地记忆专业术语、专有名词及医疗词汇等。
更可控的语气与表达：根据上下文调整语气，表现出冷静、同理或活泼等风格。
可调节的推理强度：开发者可选择最小、低、中、高及极高五档推理水平，默认为低。

演示视频展示了该模型在主讲人与他人对话时，能更好地避免打断，提升交互体验。

AI Twitter 速览

核心新闻：GPT-Realtime-2及OpenAI语音AI新进展

OpenAI 推出了三款实时流式音频模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。GPT-Realtime-2 被定位为“迄今最智能的语音模型”，具备 GPT-5 级别的推理能力，支持实时语音代理的听取、推理、处理中断、工具使用及长时间对话。GPT-Realtime-Translate 支持70多种输入语言到13种输出语言的实时语音翻译，GPT-Realtime-Whisper 则提供实时语音转录和字幕功能。三款模型现已在 Realtime API 中上线，ChatGPT 语音升级仍在开发中。

事实与数据

模型系列：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 均已在 Realtime API 可用。
GPT-Realtime-2 功能：面向生产环境的本地语音到语音模型，支持工具调用、中断恢复及长对话，具备 GPT-5 级推理能力。
上下文窗口：支持128K上下文，输出最大32K tokens。
翻译能力：支持70+输入语言到13输出语言的实时语音翻译。
转录功能：提供低延迟的实时语音转录。
提示与控制：官方发布了语音提示指南，涵盖推理强度、前置语句、工具行为等。
独立评测：Scale AI 评测中，GPT-Realtime-2 在 Audio MultiChallenge S2S 排名第一，指令保留率从36.7%提升至70.8%。Artificial Analysis 报告其在 Big Bench Audio 语音推理测试中得分96.6%，对话动态测试得分96.1%。
推理强度调节：支持五档推理水平，默认为低。
企业应用：Glean 内部评测显示 GPT-Realtime-2 带来42.9%的帮助度提升，Genspark 的呼叫代理提升了26%的有效对话率，减少了掉线。

观点与解读

支持者认为这是语音代理的重大进步，首次实现了足够复杂的语音到语音模型应用。
也有观点指出，ChatGPT 语音模式尚未升级，相关功能仍在开发中。
有评论认为，实时工具使用、推理和翻译能力是推动语音界面普及的关键。
语音作为更自然、高效的交互方式，未来有望成为常驻智能助手的重要入口。
竞争方面，埃隆·马斯克推动的 Grok Voice 也在实时语音客服领域发力，显示该领域竞争激烈。

技术细节与评测数据

GPT-Realtime-2

本地语音到语音实时模型，支持中途推理、工具调用、中断处理及长对话。
上下文支持128K tokens，最大输出32K tokens。
支持文本、音频和图像输入。
推理强度可调，时间至首音频输出为1.12秒（最低推理）至2.33秒（高推理）。
价格维持不变，音频输入1.15美元/小时，输出4.61美元/小时。
支持前置语句和工具调用时的语音提示。

评测成绩

Scale AI Audio MultiChallenge S2S 排名第一，指令保留率大幅提升。
Big Bench Audio 得分96.6%，领先于之前版本。
对话动态测试得分96.1%，表现出色。

GPT-Realtime-Translate

支持70多种语言的实时语音翻译。
Vimeo 展示了无需预加载字幕的实时配音。

GPT-Realtime-Whisper

实时语音转录，支持字幕和笔记。
提供延迟选择以平衡准确率和响应速度。

产品集成与演示

Glean 利用 GPT-Realtime-2 实现基于组织上下文的实时语音交互，帮助度提升42.9%。
Vimeo 展示了基于 GPT-Realtime-Translate 的实时配音。
Genspark 升级呼叫代理至 GPT-Realtime-2，提升对话效率和稳定性。
多个开发者展示了基于 GPT-Realtime-2 的语音控制和实时翻译演示。
机器人语音接口也表现出对新模型的浓厚兴趣。

重要意义

此次发布推动语音代理从简单的语音输入输出，迈向支持全双工、工具调用、长上下文和推理能力的智能代理。技术革新不仅是更好的语音识别或合成，而是低延迟的对话管理、中断处理、工具透明度和推理调节的综合提升。这对客服、会议、无障碍、实时翻译、机器人控制及免手操作等场景意义重大。

工程上，语音应用需设计为有状态的实时系统，开发者需关注延迟预算、中断语义、工具调用体验、对话记忆和故障恢复等方面，而非仅依赖模型本身。

目前API模型已开放，但ChatGPT语音模式尚未升级，未来若同步更新，将带来更广泛的用户影响。短期内，此次发布主要惠及开发者和构建专业实时语音代理的平台。

GPT-Realtime-2、-Translate 与 -Whisper：全新实时语音API引领行业新标杆

AI Twitter 速览

事实与数据

观点与解读

技术细节与评测数据

产品集成与演示

重要意义

标签

评论

相关阅读

东京大学加入World ID项目，成为AI时代的人类身份认证节点

日本软银将“Patching as a Service”服务对象扩大至3000家公司

索尼宣布结束国内aibo机器人的销售