传统的AI语音配音在面对电影和动画等高标准场景时,常常遇到情感表达复杂和唇形精准匹配的瓶颈。为解决这一难题,同义实验室正式发布并开源了首个电影级多场景多模态大模型——Fun-CineForge。

打破“视听脱节”:四大严格协同维度

Fun-CineForge不同于传统仅依赖文本转语音的模型,针对影视制作中的四大核心挑战展开攻关:

  • 唇形同步:实现合成语音与视频中口型动作的高度一致。
  • 情感表达:结合面部特征与指令描述,赋予声音人性化的情感深度。
  • 声音一致性:在复杂多角色对话中保持特定角色声音的稳定。
  • 时间对齐:即使说话者被遮挡或未出现在画面中,也能在毫秒级精准时间点插入语音。

核心技术:引入“时间模态”与高质量数据集

Fun-CineForge的技术突破在于其独特的“数据+模型”一体化设计:

  1. CineDub高质量数据集:同义实验室开源了CineDub自动化数据集构建流程,采用链式思维纠错机制,将中英文文本转录错误率降低至约1%-2%,说话人分离错误率显著降至1.2%。
  2. 四模态融合架构:模型首次引入“时间模态”,结合视觉(唇形与表情)、文本(对话情感)和音频(声音参考)进行联合建模,实现即使在面部不可见的复杂场景下也能精准同步。

卓越表现:填补多人物对话配音空白

实验数据显示,Fun-CineForge在词错误率(WER/CER)、唇形同步(LSE-C/D)和声音相似度方面显著优于DeepDubber-V1等基线模型。值得一提的是,该模型首次实现了对二重唱及多人物对话场景的精准支持,在30秒以内的视频片段中表现出强大的鲁棒性。

  • GitHub:https://github.com/FunAudioLLM/FunCineForge
  • HuggingFace:https://huggingface.co/FunAudioLLM/Fun-CineForge
  • ModelScope:https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/