微软开源前沿语音AI系列VibeVoice：一次处理90分钟多说话人对话，GitHub迅速获27K星

微软近日开源了名为VibeVoice的先进语音AI模型系列，涵盖自动语音识别（ASR）和文本转语音（TTS）功能。该项目因其强大的长音频处理能力、自然的多说话人对话生成及实时低延迟特性，迅速在开发者社区引起关注，GitHub上已获得约27K颗星。

作为一个开源研究框架，VibeVoice采用MIT许可证，支持本地部署，无需云订阅费用，旨在促进语音合成领域的协作与创新。该模型家族主要包含三大核心成员，分别聚焦不同方向，共同解决传统语音AI在长序列处理、说话人一致性及自然流畅度等方面的痛点。

VibeVoice-ASR-7B：支持最长60分钟结构化语音转文本

VibeVoice-ASR-7B是一款统一的语音转文本模型，能够一次性处理最长60分钟的音频文件，直接输出结构化转录结果。输出内容包括“谁在说话”（说话人识别）、“何时说的”（精准时间戳）以及“说了什么”（详细内容），并支持自定义热词，有效提升专有名词或专业术语的识别准确率。该模型支持50多种语言，适用于会议记录、播客转录等复杂场景。

社区开发者基于此模型已打造实用工具，如支持macOS和Windows平台的语音输入法Vibing，用户反馈其速度和准确度表现优异，大幅提升日常语音输入效率。

VibeVoice-TTS-1.5B：支持最长90分钟多说话人富表达语音合成

VibeVoice-TTS-1.5B是文本转语音的核心模型，能够一次生成最长90分钟的连续音频，支持最多四个不同说话人的自然对话模拟。生成的语音富有表现力，听起来自然流畅，能够模拟真实的停顿、重音和情感变化，适合制作播客、长篇音频故事、有声书或多角色对话。

相比传统多为1-2说话人支持的TTS模型，VibeVoice-TTS在长文本和多说话人一致性方面取得显著突破。其底层设计结合了连续语音分词器（声学与语义分词器）和低帧率（7.5Hz），大幅提升了长序列的计算效率。

VibeVoice-Realtime-0.5B：约300毫秒延迟的实时文本转语音

VibeVoice-Realtime-0.5B专注于实时应用场景，支持流式文本输入，首次音频输出延迟约300毫秒，同时也能生成最长10分钟的长音频。该模型特别适合需要即时响应的交互式应用，如实时语音助手或直播配音。

此外，项目还引入了实验性说话人支持，包括多语言语音及多种英语风格变体，为开发者提供更多定制选项。

AIbase点评：微软开源VibeVoice不仅降低了高性能语音AI的入门门槛，还提供了完整的本地部署方案。项目曾因潜在滥用风险短暂下线，后通过嵌入音频水印和可听免责声明等安全机制重新上线，体现了负责任的AI开发原则。目前，开发者可从GitHub和Hugging Face获取模型权重，并通过Colab等平台快速体验。

随着开源社区持续贡献（如针对Apple Silicon的优化），VibeVoice有望加速在内容创作、无障碍工具和语音交互等领域的应用。感兴趣的开发者可访问微软官方项目页面深入了解。

项目地址：https://github.com/microsoft/VibeVoice