谷歌发布最新实时语音AI模型“Gemini 3.1 Flash Live”

Gemini 3.1 Flash Live

美国谷歌公司于3月26日（当地时间）正式发布了最新的实时语音生成模型“Gemini 3.1 Flash Live”。该模型被认为是谷歌迄今为止质量最高的实时语音AI模型。

“Gemini 3.1 Flash Live”是继承自“Gemini 2.5 Flash Native Audio”的新一代语音生成模型。相比前代产品，它在响应延迟和语音理解准确度方面都有显著提升。

例如，在评估多步骤函数调用等复杂任务的基准测试“ComplexFuncBench Audio”中，该模型取得了90.8%的高分。在评估实际语音环境中处理打断和口吃等复杂指令的Scale AI“Audio MultiChallenge”测试中，启用“Thinking”模式时得分达到36.1%，在同类竞品中名列前茅。

性能提升

除了性能和质量的提升外，该模型还在音频细节的识别上表现优异。它能更准确地捕捉输入语音的音调和节奏等声学细节，甚至能够检测用户的情绪状态，如困惑或焦躁，并动态调整回复的语调和时长。这一特性有望提升呼叫中心等客户服务场景中的用户满意度，避免传统AI模型带来的冷漠感。

此外，“Gemini 3.1 Flash Live”还增强了噪声消除能力，能够更精准地分离用户的语音，过滤环境噪音。

该模型通过“Gemini Live API”向开发者提供预览版本，普通用户也能通过如“Gemini Live”等应用体验其强大功能，只需对着手机说话，AI即可实时回应。

同时，配合“Gemini 3.1 Flash Live”，谷歌还将在包括日本在内的200多个国家和地区推广“搜索 Live”（Search Live）服务。该服务基于“Gemini Live”，可通过谷歌搜索的“AI模式”访问，适用于需要实时帮助或文本搜索难以满足的场景。

值得一提的是，所有由“Gemini 3.1 Flash Live”生成的语音内容都会自动嵌入谷歌的AI生成内容识别技术“SynthID”电子水印，即使被用于深度伪造，也能被后续检测和验证为AI生成或加工内容。

谷歌发布最新实时语音AI模型“Gemini 3.1 Flash Live”

标签

评论

相关阅读

Medicare新支付模式为AI量身打造，科技界大多尚未察觉

AI短片引发愤怒：将1970年代女性制作成情色影像引争议

1X Neo机器人拥有惊人的快速灵巧手指