
美国谷歌公司于2026年6月9日(当地时间)正式发布了最新的实时语音翻译模型“Gemini 3.5 Live Translate”,以纪念其翻译服务“Google 翻译”诞生20周年。
“Gemini 3.5 Live Translate”支持70多种语言,能够在保持说话者语调、语速和音高的同时,几乎实时生成翻译语音。传统的语音翻译多采用“轮流翻译”方式,即需等待说话者说完后再进行翻译,而该模型采用“流式生成”技术,无需等待话语结束,能以几秒的延迟流畅输出翻译内容。
此外,该模型具备自动识别多语言输入的能力,无需手动设置翻译语言。它还具备较强的抗噪能力,即使在嘈杂环境中也能实现高精度翻译。
“Gemini 3.5 Live Translate”不仅面向开发者提供API,还将在企业级在线会议服务“Google Meet”以及广受个人用户欢迎的“Google 翻译”移动应用中推广使用。
- 开发者:通过“Gemini Live API”和“Google AI Studio”提供公开预览(模型名:gemini-3.5-live-translate-preview)
- 企业用户:“Google Meet”将于本月开始私密预览,预计今年下半年全面上线
- 个人用户:“Google 翻译”应用(iOS/Android)已全球推广
“Google Meet”:打破语言障碍的会议体验

“Google Meet”的语音翻译功能将采用“Gemini 3.5 Live Translate”模型。此前仅支持5种语言且翻译需通过英语中转,现已大幅提升:
- 支持语言从5种扩展至70多种
- 支持超过2000种语言组合,且无需通过英语中转
- 用户界面得到优化
“Google 翻译”应用:如同电话般自然的跨语言交流

移动版“Google 翻译”应用(iOS/Android)集成了该模型的实时翻译功能,用户连接耳机后即可享受70多种语言的无缝语音翻译体验。
Android版本新增“聆听模式”,无需耳机,只需将设备贴近耳朵,翻译语音即可通过听筒播放,使用体验类似普通电话。
值得一提的是,所有由该模型生成的语音均嵌入了不可听见的“SynthID”数字水印,便于后续验证内容为AI生成,有助于防止虚假信息传播。


