谷歌发布最新实时语音翻译模型“Gemini 3.5 Live Translate”

Gemini 3.5 Live Translate

日本国家谷歌公司发布了面向实时语音翻译的最新语音模型“Gemini 3.5 Live Translate”，目前已在谷歌全线产品中开始推广。

该模型可自动识别70多种语言，生成保持说话者语调、语速和音高的自然流畅翻译语音。不同于传统的“逐句等待”翻译方式，Gemini 3.5采用连续生成语音的策略，平衡等待上下文信息和与说话者同步的翻译质量，延迟仅几秒即可输出流畅语音。

此外，模型支持实时处理语音流，实现语言间无缝切换，无需手动设置即可处理多语言输入，且具备较强的抗噪能力，能适应嘈杂和复杂环境。

利用Gemini Live API，Agora、Fishjam、LiveKit、Pipecat、Vision Agents等开发平台能够帮助开发者轻松构建和部署语音翻译应用。

这些平台的集成简化了复杂的实时媒体流基础设施管理，使开发者能专注于提升用户体验。

日本国家Grab公司正在测试该模型，以实现乘车过程中司机与乘客之间的近实时多语言沟通。

谷歌Meet的语音翻译功能即将采用该模型，带来以下改进：

本月起，谷歌将针对部分企业版谷歌Workspace用户开放私密预览，计划年底前进一步推广。

该模型也将陆续在全球范围内通过Android和iOS版谷歌翻译应用上线。使用实时翻译功能时，只需连接耳机，即可体验反映说话者语调的流畅翻译。

针对Android用户，还推出了基于该模型的新“聆听模式”，用户只需像普通通话一样将手机贴近耳朵，即可听到翻译后的语音。

SynthID电子水印

值得一提的是，所有由该模型生成的语音均嵌入了SynthID电子水印，直接集成于音频输出中，有助于识别AI生成内容，防止虚假信息传播。

评论