3月24日,阿里巴巴通义实验室发布了PrismAudio,一个视频生成音频框架,专注于环境音/音效合成。PrismAudio结合强化学习与思维链,通过四位“老师”——语义、时序、美学和空间老师——对模型进行评分,确保生成的音频与视频内容同步且自然。
PrismAudio的工作流程分为三步:首先,模型在生成音频前会“写笔记”,即生成一份行动指南,包括视频内容、声音类型、开始和结束时间等;其次,四位老师分别使用不同的打分器对音频进行评分,确保音频在语义、时序、美学和空间上的表现;最后,通过Fast-GRPO算法优化模型,提高训练效率,减少训练时间。
在性能测试中,PrismAudio在VGGSound测试集上超越了现有最佳方法,并在AudioCanvas测试集上表现更加出色。该模型参数仅有5.18亿,生成9秒音频仅需0.63秒,显示出其轻量级和实用性。PrismAudio的研究已被ICLR2026收录,代码即将开源。

