谷歌Gemini 3.5实时翻译：为真实对话而生

谷歌近日发布了一款全新的AI工具——Gemini 3.5实时翻译，旨在实现与真实对话速度相匹配的翻译体验，让不同语言的人们能够更自然地交流。

Gemini 3.5实时翻译是一种音频模型，能够持续监听、翻译并发声，避免了传统翻译系统需要轮流发言的限制。该技术仅有几秒的延迟，模仿自然的语音节奏，使对话更加流畅。

该模型能自动识别说话语言，支持超过70种语言，允许在同一对话中实现成千上万种语言配对。谷歌表示，这项技术现已向开发者和合作伙伴开放，能够集成到会议、通讯平台和移动应用中。

最大的变化在于翻译方式。它不再等待一方说完才开始翻译，而是进行连续流式翻译，极大减少了尴尬的停顿、中断和延迟，带来更自然的对话体验。

该模型针对日常交流环境设计，能够在嘈杂环境中工作，处理背景噪音、声音重叠和非正式的语音模式。这使其适用于客户支持电话、导览讲解、课堂教学、网约车服务及直播等多种场景。

谷歌还特别注重语音质量，系统不仅生成合成语音，还努力保留原说话者的语速、语调和情感色彩，使翻译后的语音更自然，便于理解和跟随对话。

更广泛的目标是将实时翻译从偶尔的演示推向日常交流。通过实现近乎实时的多语言对话，且无需改变说话方式，Gemini 3.5实时翻译有望让跨语言交流在企业、组织和个人层面更加实用。

更多信息请参见谷歌官方博客。

评论