AI资讯双向视听分离:阿里通义实验室发布PrismAudio,实现AI视频理解与配音
阿里巴巴通义实验室推出PrismAudio框架,解决AI视频生成中的音视频不同步问题。该技术采用“链式思维”机制,先分析视频内容,再生成匹配的音效,提升沉浸感。研究成果已被ICLR 2026录用。
按标签聚合查看文章内容。
AI资讯阿里巴巴通义实验室推出PrismAudio框架,解决AI视频生成中的音视频不同步问题。该技术采用“链式思维”机制,先分析视频内容,再生成匹配的音效,提升沉浸感。研究成果已被ICLR 2026录用。