OpenAI于周四宣布,其API现已新增多项语音智能功能,旨在帮助开发者打造能够与用户对话、转录及翻译交流内容的应用程序。

公司推出了全新的GPT‑Realtime‑2语音模型,该模型能够生成逼真的语音模拟并与用户进行对话。与前代产品GPT-Realtime-1.5相比,GPT‑Realtime‑2采用了GPT‑5级别的推理能力,能够处理更复杂的用户请求。

此外,OpenAI还发布了GPT‑Realtime‑Translate,这是一项实时翻译服务,能够在对话过程中同步跟进用户的语言需求。该功能支持超过70种输入语言(即可理解的语言)和13种输出语言(即向用户播报的语言)。

最后,公司推出了新的转录功能GPT-Realtime-Whisper,提供实时语音转文本服务,能够在交互过程中即时捕捉语音内容。

OpenAI表示:“我们推出的这些模型将实时音频从简单的问答交互提升到能够真正执行任务的语音界面:倾听、推理、翻译、转录,并在对话进行时采取行动。”

这些更新对哪些用户最有帮助?显然,想要扩展客户服务能力的企业是主要受益者。OpenAI还指出,这些新功能将在教育、媒体、活动和创作者平台等多个领域发挥作用。

尽管这些工具在企业应用中非常实用,但也存在被滥用的风险。为此,OpenAI建立了防护机制,防止新功能被用于制造垃圾信息、欺诈或其他网络滥用行为。系统内置了特定触发器,一旦检测到违反有害内容准则的对话,将自动中止交流。

所有新语音模型均包含在OpenAI的实时API中。Translate和Whisper按分钟计费,而GPT-Realtime-2则按令牌消耗计费。