AI配音新时代：同义实验室开源Fun-CineForge，首创多人物对话难题解决方案

发布时间：2026/3/18

传统的AI语音配音在面对电影和动画等高标准场景时，常常遇到情感表达复杂和唇形精准匹配的瓶颈。为解决这一难题，同义实验室正式发布并开源了首个电影级多场景多模态大模型——Fun-CineForge。

打破“视听脱节”：四大严格协同维度

Fun-CineForge不同于传统仅依赖文本转语音的模型，针对影视制作中的四大核心挑战展开攻关：

唇形同步：实现合成语音与视频中口型动作的高度一致。
情感表达：结合面部特征与指令描述，赋予声音人性化的情感深度。
声音一致性：在复杂多角色对话中保持特定角色声音的稳定。
时间对齐：即使说话者被遮挡或未出现在画面中，也能在毫秒级精准时间点插入语音。

核心技术：引入“时间模态”与高质量数据集

Fun-CineForge的技术突破在于其独特的“数据+模型”一体化设计：

CineDub高质量数据集：同义实验室开源了CineDub自动化数据集构建流程，采用链式思维纠错机制，将中英文文本转录错误率降低至约1%-2%，说话人分离错误率显著降至1.2%。
四模态融合架构：模型首次引入“时间模态”，结合视觉（唇形与表情）、文本（对话情感）和音频（声音参考）进行联合建模，实现即使在面部不可见的复杂场景下也能精准同步。

卓越表现：填补多人物对话配音空白

实验数据显示，Fun-CineForge在词错误率（WER/CER）、唇形同步（LSE-C/D）和声音相似度方面显著优于DeepDubber-V1等基线模型。值得一提的是，该模型首次实现了对二重唱及多人物对话场景的精准支持，在30秒以内的视频片段中表现出强大的鲁棒性。

GitHub：https://github.com/FunAudioLLM/FunCineForge
HuggingFace：https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope：https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

标签

#人工智能配音 #多模态模型 #情感表达 #唇形同步 #多人物对话

评论

评论系统可后续接入后端接口，这里先保留展示与提交区域。

相关阅读

优步表示其人工智能成本不值得继续投入

2026/05/28

优步表示其人工智能成本不值得继续投入

优步首席运营官承认，尽管投入大量资金，人工智能并未带来预期的生产力提升。

谷歌悄然推出支持离线的AI语音转写应用

2026/04/07

谷歌悄然推出支持离线的AI语音转写应用

谷歌于周一悄然发布了一款名为“Google AI Edge Eloquent”的离线优先语音转写应用，目前仅在iOS平台上线，旨在与Wispr Flow、SuperWhisper、Willow等同类产品竞争。该应用免费下载，用户只需下载基于Gemma的自动语音识别（ASR）模型，即可开始在手机上进行语音转写。应用内支持实时转录，暂停时会自动过滤“嗯”、“啊”等填充词，并对文本进行润色。转录文本下

新工具几分钟内移除AI安全防护，允许其提供氯气攻击指导

2026/05/27

新工具几分钟内移除AI安全防护，允许其提供氯气攻击指导

我们都知道，人工智能的安全防护措施远非完美，但至少应该不容易被绕过，对吧？坏消息是：事实并非如此。《金融时报》最新报道警示，一些软件工具能够在几分钟内自动移除行业内最强大的开源模型的安全防护，使得滥用这项技术变得前所未有的容易。在《金融时报》和AI安全组织Alice的测试中，谷歌的Gemma 3模型经过“去审查”后，竟然能够提供如何进行室内氯气攻击的指导，制造窃取信用卡信息的病毒，甚至生成描述