谷歌近日发布了一款全新的AI工具——Gemini 3.5实时翻译,旨在实现与真实对话速度相匹配的翻译体验,让不同语言的人们能够更自然地交流。

Gemini 3.5实时翻译是一种音频模型,能够持续监听、翻译并发声,避免了传统翻译系统需要轮流发言的限制。该技术仅有几秒的延迟,模仿自然的语音节奏,使对话更加流畅。

该模型能自动识别说话语言,支持超过70种语言,允许在同一对话中实现成千上万种语言配对。谷歌表示,这项技术现已向开发者和合作伙伴开放,能够集成到会议、通讯平台和移动应用中。

Gemini 3.5实时翻译的创新点

最大的变化在于翻译方式。它不再等待一方说完才开始翻译,而是进行连续流式翻译,极大减少了尴尬的停顿、中断和延迟,带来更自然的对话体验。

该模型针对日常交流环境设计,能够在嘈杂环境中工作,处理背景噪音、声音重叠和非正式的语音模式。这使其适用于客户支持电话、导览讲解、课堂教学、网约车服务及直播等多种场景。

谷歌还特别注重语音质量,系统不仅生成合成语音,还努力保留原说话者的语速、语调和情感色彩,使翻译后的语音更自然,便于理解和跟随对话。

更广泛的目标是将实时翻译从偶尔的演示推向日常交流。通过实现近乎实时的多语言对话,且无需改变说话方式,Gemini 3.5实时翻译有望让跨语言交流在企业、组织和个人层面更加实用。

更多信息请参见谷歌官方博客。