阿里巴巴通义实验室于3月16日正式发布并开源了电影级多场景语音表演多模态大模型——Fun-CineForge。该模型致力于解决AI配音中的关键痛点,包括唇动不同步、情感表达不足以及多角色声音不一致等问题,同时提供了高质量的数据集构建方案。

在技术架构方面,Fun-CineForge首次引入了“时间模态”的概念。与传统仅关注文本或视觉信息的模型不同,该模型通过精确的时间戳控制,确保语音合成严格对应正确的时间区间。即使在角色被遮挡、镜头频繁切换或面部模糊的复杂电影场景中,模型依然能够实现高度的视听同步和指令遵循。

伴随发布的开源数据集CineDub构建流程同样亮点突出。通义实验室利用大模型链式思维技术,自动将原始电影素材转化为结构化数据,大幅降低了人工标注成本。数据显示,该流程将词错误率降低至约1%,说话人分离错误率仅为1.20%,为大模型训练提供了极具竞争力的基础。

目前,Fun-CineForge已同步上线GitHub、HuggingFace和ModelScope社区,支持最长30秒的视频片段推理。它不仅在单人独白场景表现优异,还首次实现了专业级的双人及多人对话场景支持。这一突破标志着AI语音技术正从基础的客服和助手场景,迈向高标准的动画及影视后期制作领域。