阿里云通义发布Fun-CineForge：开源电影级语音合成大模型，解决视听同步难题

发布时间：2026/3/17

阿里巴巴通义实验室于3月16日正式发布并开源了电影级多场景语音表演多模态大模型——Fun-CineForge。该模型致力于解决AI配音中的关键痛点，包括唇动不同步、情感表达不足以及多角色声音不一致等问题，同时提供了高质量的数据集构建方案。

在技术架构方面，Fun-CineForge首次引入了“时间模态”的概念。与传统仅关注文本或视觉信息的模型不同，该模型通过精确的时间戳控制，确保语音合成严格对应正确的时间区间。即使在角色被遮挡、镜头频繁切换或面部模糊的复杂电影场景中，模型依然能够实现高度的视听同步和指令遵循。

伴随发布的开源数据集CineDub构建流程同样亮点突出。通义实验室利用大模型链式思维技术，自动将原始电影素材转化为结构化数据，大幅降低了人工标注成本。数据显示，该流程将词错误率降低至约1%，说话人分离错误率仅为1.20%，为大模型训练提供了极具竞争力的基础。

目前，Fun-CineForge已同步上线GitHub、HuggingFace和ModelScope社区，支持最长30秒的视频片段推理。它不仅在单人独白场景表现优异，还首次实现了专业级的双人及多人对话场景支持。这一突破标志着AI语音技术正从基础的客服和助手场景，迈向高标准的动画及影视后期制作领域。

标签

#阿里云通义 #语音合成 #视听同步 #多模态模型 #开源数据集

评论

评论系统可后续接入后端接口，这里先保留展示与提交区域。

相关阅读

中国日益留住顶尖人工智能人才

2026/05/28

中国日益留住顶尖人工智能人才

对于中国顶尖的人工智能研究人员来说，出境的限制正在逐渐加严。据报道，研究人员、初创企业创始人以及私营企业高管现在面临旅行限制，其中一些行业内最重要的人物必须获得政府批准才能出国。这些限制反映了北京在管理人工智能领域人才流失方面的更广泛转变。随着全球科技行业将人工智能视为新的增长点，对人才的需求激增，训练和优化人工智能模型的人才变得尤为抢手。 2025年3月，《华尔街日报》报道，中国当局已建议顶尖

京东AI战略升级：JoyAI大模型开源，智能体生态激增455%

2026/03/26

京东AI战略升级：JoyAI大模型开源，智能体生态激增455%

京东宣布AI战略由单点突破转向全面扩展，发布基础大模型、数字人、具身智能及智能体生态最新进展，推动AI深度融入供应链与电商。JoyAI大模型首次开源，使用量环比增长4.55倍。

采用AI代理的公司惊觉其在关键任务中频频失误

2026/05/28

采用AI代理的公司惊觉其在关键任务中频频失误

AI代理曾被视为继生成式AI之后的下一个热门产品类别，尤其是在生成式AI未能带来预期的生产效益后。然而，随着时间推移，这些被寄予厚望的AI代理项目开始暴露出严重问题。据估计，美国约有79%的企业高管正在开发某种AI代理，但Gartner预测显示，到2027年底，约40%的此类项目将因风险控制不当而失败。简而言之，AI代理在执行关键任务时可能对企业造成巨大损害。网络咨询工程师Sayali Pat