DeepL Voice-to-Voice发布会现场

日本DeepL公司于4月16日正式发布了实时AI语音翻译系统“DeepL Voice-to-Voice”。该系统能够实时将说出的语言通过AI翻译后,以语音形式输出。在发布会上,DeepL的首席产品官冈萨罗·盖奥拉斯(Gonzalo Gayolaz)进行了演讲,系统实时翻译他的发言并显示字幕,同时通过接收设备播放翻译后的语音。

“Voice-to-Voice”产品线包括:

  • 适用于Microsoft Teams、Zoom等会议平台的“Voice for Meeting”,提供实时语音翻译服务;
  • 支持移动设备和网页端使用的“Voice for Conversations”;
  • 适合培训、辅导等多语言多人数场景的“Group Conversations”,可多设备同步接收翻译语音;
  • 以及面向开发者的“Voice-to-Voice API”。

此外,系统将于5月7日开始提供新功能,支持根据说话速度、专业术语及产品名称等自定义翻译内容,进一步提升翻译质量。

关于产品发布时间:

  • “Voice for Conversations”已于当天开始提供;
  • “Voice for Meeting”计划于6月启动早期访问,目前开放注册;
  • “Group Conversations”预计4月30日上线;
  • “Voice-to-Voice API”已开放早期访问,接受注册。

DeepL Voice-to-Voice演示

此前,DeepL主要专注于将语音翻译成文本的解决方案。此次则重点拓展实时语音翻译及语音输出领域。在面向媒体的说明会上,DeepL指出语言障碍不仅导致沟通困难,还会增加理解时间,甚至让员工不敢发言,带来显著的心理成本和经济损失,影响业务机会和客户关系。

发布会上通过模拟会议、多语言员工培训及客服中心海外客户咨询等场景,展示了“Voice-to-Voice”的实际应用效果。会议中,日语与韩语参与者通过系统实现顺畅交流,加快决策速度;培训中,多语言员工实时沟通保障了危险作业信息的及时共享;客服中心演示则提升了客户满意度。DeepL强调,招聘全语言员工不现实,翻译解决方案的重要性日益凸显。

DeepL Voice-to-Voice翻译演示

体验中发现,作为开发阶段产品,系统偶尔会出现发音错误,如将“みっつ(三个)”误读为“さんつ”,“だいきぎょう(大企业)”读成“おおきぎょう”,“こうはんい(广范围)”读成“ひろはんい”。当说话速度过快时,翻译延迟也会增加。

不过,实时字幕翻译准确且易于理解,有些语音翻译甚至比字幕更自然流畅,能够更好地传达说话者的情感和意图,如“希望大家积极参与”等表达,显示出较高的翻译精度。

DeepL首席产品官冈萨罗·盖奥拉斯

冈萨罗·盖奥拉斯表示,目前产品在质量上仍有不足,但团队正专注于提升质量,优先于成本和延迟。他预计今年下半年至明年初将实现技术突破,开发出将语音到语音翻译整合为单一模型的技术。

此外,DeepL还在研究复制说话者声纹、翻译后以相似声音输出的技术。针对移动端离线使用,因质量、精度、模型大小之间的权衡,产品化存在挑战,未来将考虑简化模型以实现相关产品。