随着AI视频生成技术的快速发展,“画面无声”或“声音错位”一直是影响用户沉浸体验的最后一道难关。为解决这一痛点,阿里巴巴通义实验室最新推出了名为PrismAudio的视频到音频生成框架。该研究已被顶级AI会议ICLR 2026录用,核心目标是实现视频与环境音效的精准自动匹配。
先思考,后发声:“链式思维”引领配音新突破
传统的配音模型通常采用“直觉式”生成,常出现马蹄声配成鸟鸣声,或声音与画面错位半拍等尴尬现象。PrismAudio的创新在于“先做笔记,再开口”,即通过链式思维机制提升配音的准确性:
- 分解链式思维:模型在生成声音前,先分析视频内容——场景中有什么?声音何时开始?音色是清脆还是低沉?声源位于左侧还是右侧?
- 四师评分机制:为确保输出质量,团队引入强化学习,由四个“虚拟教师”从语义一致性、时间同步性、美学质量和空间准确性四个维度对生成结果进行评分。此多维反馈机制有效解决了以往模型“顾此失彼”的问题。
轻量高效:9秒视频音频生成仅需0.6秒
PrismAudio不仅音效精准,还具备极高的运行效率。依托自主研发的Fast-GRPO高效训练算法,模型性能大幅提升,同时保持高效运算:

- 体积小,实力强:模型参数仅5.18亿,远低于通常数十亿参数的同类模型。
- 响应快,几乎实时:生成9秒高质量音频仅需0.63秒,接近“秒开”体验。
行业展望:迈入真实环境音效时代
PrismAudio的问世不仅为影视后期制作和短视频创作提供了强大自动化工具,也为多目标生成任务带来新思路。当AI能够精准平衡声音的质感与空间感,未来的视频创作将真正实现“所见即所闻”。
论文链接:arXiv:2511.18833 开源地址:https://prismaudio-project.github.io/


