AI资讯谷歌发布最新实时语音AI模型“Gemini 3.1 Flash Live”
美国谷歌公司于3月26日(当地时间)正式发布了最新的实时语音生成模型“Gemini 3.1 Flash Live”。该模型被认为是谷歌迄今为止质量最高的实时语音AI模型。 “Gemini 3.1 Flash Live”是继承自“Gemini 2.5 Flash Native Audio”的新一代语音生成模型。相比前代产品,它在响应延迟和语音理解准确度方面都有显著提升。 例如,在评估多步骤函数调用
按标签聚合查看文章内容。
AI资讯美国谷歌公司于3月26日(当地时间)正式发布了最新的实时语音生成模型“Gemini 3.1 Flash Live”。该模型被认为是谷歌迄今为止质量最高的实时语音AI模型。 “Gemini 3.1 Flash Live”是继承自“Gemini 2.5 Flash Native Audio”的新一代语音生成模型。相比前代产品,它在响应延迟和语音理解准确度方面都有显著提升。 例如,在评估多步骤函数调用
AI聊天助手Me.bot 是一款可以学习你的说话风格和表达习惯的 AI 分身工具,帮助你把想法快速变成声音和视觉内容,让“第二个自己”为你发声。
AI音频Audiobox 是 Meta 推出的语音与音频生成研究项目,曾通过在线 Demo 展示文本转语音、声音克隆与音效生成等能力,目前公开 Demo 已下线,但相关技术仍在持续研究与迭代。
AI资讯法国人工智能公司Mistral于周四发布了一款全新的开源文本转语音(TTS)模型,适用于语音助手及企业场景,如客户支持等。该模型帮助企业构建销售和客户互动的语音代理,直接与ElevenLabs、Deepgram和OpenAI等公司竞争。 这款名为Voxtral TTS的新模型支持九种语言,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。 Mistral AI科学运营副
AI音频Murf AI 是一款面向创作者和开发者的在线AI配音与文本转语音平台,提供高保真拟真人声、专业配音工作室以及高速TTS API,可用于播客、有声书、视频配音与智能语音客服等多种场景。