Gemini 3.1 Flash TTS

Google推出了最新的文本转语音模型“Gemini 3.1 Flash TTS”。该模型在控制性、表现力和音质方面均有显著提升,旨在帮助开发者、企业及普通用户构建下一代AI语音应用。截至4月16日,Gemini 3.1 Flash TTS已通过Gemini API和Google AI Studio向开发者预览开放,同时企业用户可通过Vertex AI预览版使用,Google Workspace用户也能通过Google Vid体验。

Gemini 3.1 Flash TTS整体音质优于以往版本。在反映数千名视障者偏好的基准测试“Artificial Analysis”中,取得了1211的高分。该模型支持70多种语言,具备出色的自然语言创意控制能力,并内置“多说话人”功能,能够自然地支持多角色对话。

音声タグ制御

此外,Gemini 3.1 Flash TTS引入了语音标签功能,用户可以通过在文本中插入标签,直观地控制语音的风格、语速和发音方式,实现情感和说话风格的细致调整。

值得一提的是,所有由Gemini 3.1 Flash TTS生成的语音均嵌入了Google的电子水印技术“SynthID”,这有助于准确识别AI生成内容,防止虚假信息的传播。