阿里云开源Fun-CineForge：首个电影级多模态配音大模型及大规模数据集发布

发布时间：2026/3/18

最近，由阿里巴巴通义实验室语音团队与中国科学技术大学联合开发的Fun-CineForge项目正式开源。该项目针对影视配音中的核心难题，如唇动同步、声音风格迁移和情感表达，推出了一套端到端的制作流程和大模型解决方案。

核心突破：解决电影配音中的“不同步”难题

传统的AI配音常常面临唇动不匹配、情感僵硬以及难以适应复杂影视场景（如对话、多人物混响）等问题。Fun-CineForge通过以下两大核心创新实现了重大突破：

MLLM配音模型：不再仅依赖唇部区域的音视频对齐学习，而是采用多模态大模型（MLLM）架构，能够深入理解影视场景中角色身份及情感变化。
CineDub大规模数据集：利用自动化流程构建了首个丰富标注的中文电视剧配音数据集，涵盖独白、旁白、对话及多人物等多样场景。

项目进展及开源计划

该项目近期频繁更新，展现出较高的工程完成度：

2026年1月至3月：发布了中英文样本数据集及演示。
2026年3月16日：正式开源推理代码及模型权重，开发者可通过GitHub获取相关资源。
数据集开放：目前包括《红楼梦》（中文）和《唐顿庄园》（英文）等经典剧集数据集已开放供研究使用。

技术实践：从“对话”到“表演”

官方演示显示，该模型在重制《三国演义》等经典剧集时表现出色。通过输入特定的“情感线索”，模型能精准捕捉角色从恐惧到抗争的情绪变化，实现高保真声音克隆和自然唇动同步。

Fun-CineForge的出现标志着影视AI配音从简单的“文本转语音”向具备艺术理解的“自动化后期制作”转变，预计将大幅降低影视配音制作成本。

项目地址：https://funcineforge.github.io/

标签

#多模态配音 #影视AI技术 #大规模数据集 #情感表达 #唇动同步

评论

评论系统可后续接入后端接口，这里先保留展示与提交区域。

相关阅读

中国日益留住顶尖人工智能人才

2026/05/28

中国日益留住顶尖人工智能人才

对于中国顶尖的人工智能研究人员来说，出境的限制正在逐渐加严。据报道，研究人员、初创企业创始人以及私营企业高管现在面临旅行限制，其中一些行业内最重要的人物必须获得政府批准才能出国。这些限制反映了北京在管理人工智能领域人才流失方面的更广泛转变。随着全球科技行业将人工智能视为新的增长点，对人才的需求激增，训练和优化人工智能模型的人才变得尤为抢手。 2025年3月，《华尔街日报》报道，中国当局已建议顶尖

日本游戏设计先驱森川幸人举办AI游戏咨询活动

2026/05/04

日本游戏设计先驱森川幸人举办AI游戏咨询活动

日本游戏设计师森川幸人将在BitSummit2026活动中提供游戏AI咨询，助力开发者探索AI应用。

东京地铁利用AI技术推进铁路变电所和电气室的状态基准维护

2026/05/28

东京地铁利用AI技术推进铁路变电所和电气室的状态基准维护

东京地铁宣布将通过AI技术实现铁路变电所和电气室的状态基准维护，提升安全性和维护效率。