双向视听分离：阿里通义实验室发布PrismAudio，实现AI视频理解与配音

随着AI视频生成技术的快速发展，“画面无声”或“声音错位”一直是影响用户沉浸体验的最后一道难关。为解决这一痛点，阿里巴巴通义实验室最新推出了名为PrismAudio的视频到音频生成框架。该研究已被顶级AI会议ICLR 2026录用，核心目标是实现视频与环境音效的精准自动匹配。

传统的配音模型通常采用“直觉式”生成，常出现马蹄声配成鸟鸣声，或声音与画面错位半拍等尴尬现象。PrismAudio的创新在于“先做笔记，再开口”，即通过链式思维机制提升配音的准确性：

分解链式思维：模型在生成声音前，先分析视频内容——场景中有什么？声音何时开始？音色是清脆还是低沉？声源位于左侧还是右侧？
四师评分机制：为确保输出质量，团队引入强化学习，由四个“虚拟教师”从语义一致性、时间同步性、美学质量和空间准确性四个维度对生成结果进行评分。此多维反馈机制有效解决了以往模型“顾此失彼”的问题。