最近,由阿里巴巴通义实验室语音团队与中国科学技术大学联合开发的Fun-CineForge项目正式开源。该项目针对影视配音中的核心难题,如唇动同步、声音风格迁移和情感表达,推出了一套端到端的制作流程和大模型解决方案。

核心突破:解决电影配音中的“不同步”难题

传统的AI配音常常面临唇动不匹配、情感僵硬以及难以适应复杂影视场景(如对话、多人物混响)等问题。Fun-CineForge通过以下两大核心创新实现了重大突破:

  • MLLM配音模型:不再仅依赖唇部区域的音视频对齐学习,而是采用多模态大模型(MLLM)架构,能够深入理解影视场景中角色身份及情感变化。
  • CineDub大规模数据集:利用自动化流程构建了首个丰富标注的中文电视剧配音数据集,涵盖独白、旁白、对话及多人物等多样场景。

项目进展及开源计划

该项目近期频繁更新,展现出较高的工程完成度:

  • 2026年1月至3月:发布了中英文样本数据集及演示。
  • 2026年3月16日:正式开源推理代码及模型权重,开发者可通过GitHub获取相关资源。
  • 数据集开放:目前包括《红楼梦》(中文)和《唐顿庄园》(英文)等经典剧集数据集已开放供研究使用。

技术实践:从“对话”到“表演”

官方演示显示,该模型在重制《三国演义》等经典剧集时表现出色。通过输入特定的“情感线索”,模型能精准捕捉角色从恐惧到抗争的情绪变化,实现高保真声音克隆和自然唇动同步。

Fun-CineForge的出现标志着影视AI配音从简单的“文本转语音”向具备艺术理解的“自动化后期制作”转变,预计将大幅降低影视配音制作成本。

项目地址:https://funcineforge.github.io/