OpenAI 在三个月前发布了 realtime-1.5 模型,但其提升有限,仅在 Big Bench Audio 中提升了5%。而最新推出的 realtime-2 模型则带来了显著进步,Big Bench Audio 评分提升了15.2%,获得了广泛好评。

根据官方博客介绍,此次发布了三款模型,分别对应“语音输入”、“语音输出”以及“语音到语音”三大功能:

模型示意图

此次更新的重点不在于提升语音质量,而是增强可用性。主要改进包括:

  • 前置语句:开发者可在主要回复前添加简短语句,如“让我查一下”或“请稍等”。
  • 并行工具调用与透明度:模型可同时调用多个工具,并通过语音提示如“正在查看日历”来告知用户,提升响应效率。
  • 更强的恢复能力:遇到问题时,模型能优雅回应,如“我现在有点困难”,避免直接失败。
  • 更长的上下文支持:上下文长度从32K提升至128K。
  • 更强的领域理解:更好地记忆专业术语、专有名词及医疗词汇等。
  • 更可控的语气与表达:根据上下文调整语气,表现出冷静、同理或活泼等风格。
  • 可调节的推理强度:开发者可选择最小、低、中、高及极高五档推理水平,默认为低。

演示视频展示了该模型在主讲人与他人对话时,能更好地避免打断,提升交互体验。

AI Twitter 速览

核心新闻:GPT-Realtime-2及OpenAI语音AI新进展

OpenAI 推出了三款实时流式音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。GPT-Realtime-2 被定位为“迄今最智能的语音模型”,具备 GPT-5 级别的推理能力,支持实时语音代理的听取、推理、处理中断、工具使用及长时间对话。GPT-Realtime-Translate 支持70多种输入语言到13种输出语言的实时语音翻译,GPT-Realtime-Whisper 则提供实时语音转录和字幕功能。三款模型现已在 Realtime API 中上线,ChatGPT 语音升级仍在开发中。

事实与数据

  • 模型系列:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 均已在 Realtime API 可用。
  • GPT-Realtime-2 功能:面向生产环境的本地语音到语音模型,支持工具调用、中断恢复及长对话,具备 GPT-5 级推理能力。
  • 上下文窗口:支持128K上下文,输出最大32K tokens。
  • 翻译能力:支持70+输入语言到13输出语言的实时语音翻译。
  • 转录功能:提供低延迟的实时语音转录。
  • 提示与控制:官方发布了语音提示指南,涵盖推理强度、前置语句、工具行为等。
  • 独立评测:Scale AI 评测中,GPT-Realtime-2 在 Audio MultiChallenge S2S 排名第一,指令保留率从36.7%提升至70.8%。Artificial Analysis 报告其在 Big Bench Audio 语音推理测试中得分96.6%,对话动态测试得分96.1%。
  • 推理强度调节:支持五档推理水平,默认为低。
  • 企业应用:Glean 内部评测显示 GPT-Realtime-2 带来42.9%的帮助度提升,Genspark 的呼叫代理提升了26%的有效对话率,减少了掉线。

观点与解读

  • 支持者认为这是语音代理的重大进步,首次实现了足够复杂的语音到语音模型应用。
  • 也有观点指出,ChatGPT 语音模式尚未升级,相关功能仍在开发中。
  • 有评论认为,实时工具使用、推理和翻译能力是推动语音界面普及的关键。
  • 语音作为更自然、高效的交互方式,未来有望成为常驻智能助手的重要入口。
  • 竞争方面,埃隆·马斯克推动的 Grok Voice 也在实时语音客服领域发力,显示该领域竞争激烈。

技术细节与评测数据

GPT-Realtime-2

  • 本地语音到语音实时模型,支持中途推理、工具调用、中断处理及长对话。
  • 上下文支持128K tokens,最大输出32K tokens。
  • 支持文本、音频和图像输入。
  • 推理强度可调,时间至首音频输出为1.12秒(最低推理)至2.33秒(高推理)。
  • 价格维持不变,音频输入1.15美元/小时,输出4.61美元/小时。
  • 支持前置语句和工具调用时的语音提示。

评测成绩

  • Scale AI Audio MultiChallenge S2S 排名第一,指令保留率大幅提升。
  • Big Bench Audio 得分96.6%,领先于之前版本。
  • 对话动态测试得分96.1%,表现出色。

GPT-Realtime-Translate

  • 支持70多种语言的实时语音翻译。
  • Vimeo 展示了无需预加载字幕的实时配音。

GPT-Realtime-Whisper

  • 实时语音转录,支持字幕和笔记。
  • 提供延迟选择以平衡准确率和响应速度。

产品集成与演示

  • Glean 利用 GPT-Realtime-2 实现基于组织上下文的实时语音交互,帮助度提升42.9%。
  • Vimeo 展示了基于 GPT-Realtime-Translate 的实时配音。
  • Genspark 升级呼叫代理至 GPT-Realtime-2,提升对话效率和稳定性。
  • 多个开发者展示了基于 GPT-Realtime-2 的语音控制和实时翻译演示。
  • 机器人语音接口也表现出对新模型的浓厚兴趣。

重要意义

此次发布推动语音代理从简单的语音输入输出,迈向支持全双工、工具调用、长上下文和推理能力的智能代理。技术革新不仅是更好的语音识别或合成,而是低延迟的对话管理、中断处理、工具透明度和推理调节的综合提升。这对客服、会议、无障碍、实时翻译、机器人控制及免手操作等场景意义重大。

工程上,语音应用需设计为有状态的实时系统,开发者需关注延迟预算、中断语义、工具调用体验、对话记忆和故障恢复等方面,而非仅依赖模型本身。

目前API模型已开放,但ChatGPT语音模式尚未升级,未来若同步更新,将带来更广泛的用户影响。短期内,此次发布主要惠及开发者和构建专业实时语音代理的平台。