微软近日开源了名为VibeVoice的先进语音AI模型系列,涵盖自动语音识别(ASR)和文本转语音(TTS)功能。该项目因其强大的长音频处理能力、自然的多说话人对话生成及实时低延迟特性,迅速在开发者社区引起关注,GitHub上已获得约27K颗星。

作为一个开源研究框架,VibeVoice采用MIT许可证,支持本地部署,无需云订阅费用,旨在促进语音合成领域的协作与创新。该模型家族主要包含三大核心成员,分别聚焦不同方向,共同解决传统语音AI在长序列处理、说话人一致性及自然流畅度等方面的痛点。

VibeVoice-ASR-7B:支持最长60分钟结构化语音转文本

VibeVoice-ASR-7B是一款统一的语音转文本模型,能够一次性处理最长60分钟的音频文件,直接输出结构化转录结果。输出内容包括“谁在说话”(说话人识别)、“何时说的”(精准时间戳)以及“说了什么”(详细内容),并支持自定义热词,有效提升专有名词或专业术语的识别准确率。该模型支持50多种语言,适用于会议记录、播客转录等复杂场景。

社区开发者基于此模型已打造实用工具,如支持macOS和Windows平台的语音输入法Vibing,用户反馈其速度和准确度表现优异,大幅提升日常语音输入效率。

VibeVoice-TTS-1.5B:支持最长90分钟多说话人富表达语音合成

VibeVoice-TTS-1.5B是文本转语音的核心模型,能够一次生成最长90分钟的连续音频,支持最多四个不同说话人的自然对话模拟。生成的语音富有表现力,听起来自然流畅,能够模拟真实的停顿、重音和情感变化,适合制作播客、长篇音频故事、有声书或多角色对话。

相比传统多为1-2说话人支持的TTS模型,VibeVoice-TTS在长文本和多说话人一致性方面取得显著突破。其底层设计结合了连续语音分词器(声学与语义分词器)和低帧率(7.5Hz),大幅提升了长序列的计算效率。

VibeVoice-Realtime-0.5B:约300毫秒延迟的实时文本转语音

VibeVoice-Realtime-0.5B专注于实时应用场景,支持流式文本输入,首次音频输出延迟约300毫秒,同时也能生成最长10分钟的长音频。该模型特别适合需要即时响应的交互式应用,如实时语音助手或直播配音。

此外,项目还引入了实验性说话人支持,包括多语言语音及多种英语风格变体,为开发者提供更多定制选项。

AIbase点评:微软开源VibeVoice不仅降低了高性能语音AI的入门门槛,还提供了完整的本地部署方案。项目曾因潜在滥用风险短暂下线,后通过嵌入音频水印和可听免责声明等安全机制重新上线,体现了负责任的AI开发原则。目前,开发者可从GitHub和Hugging Face获取模型权重,并通过Colab等平台快速体验。

随着开源社区持续贡献(如针对Apple Silicon的优化),VibeVoice有望加速在内容创作、无障碍工具和语音交互等领域的应用。感兴趣的开发者可访问微软官方项目页面深入了解。

项目地址:https://github.com/microsoft/VibeVoice