阿里巴巴发布PrismAudio:AI视频同步音效生成技术突破
创始人
2026-03-24 17:06:52
0

3月24日,阿里巴巴通义实验室发布了PrismAudio,一个视频生成音频框架,专注于环境音/音效合成。PrismAudio结合强化学习与思维链,通过四位“老师”——语义、时序、美学和空间老师——对模型进行评分,确保生成的音频与视频内容同步且自然。

PrismAudio的工作流程分为三步:首先,模型在生成音频前会“写笔记”,即生成一份行动指南,包括视频内容、声音类型、开始和结束时间等;其次,四位老师分别使用不同的打分器对音频进行评分,确保音频在语义、时序、美学和空间上的表现;最后,通过Fast-GRPO算法优化模型,提高训练效率,减少训练时间。

在性能测试中,PrismAudio在VGGSound测试集上超越了现有最佳方法,并在AudioCanvas测试集上表现更加出色。该模型参数仅有5.18亿,生成9秒音频仅需0.63秒,显示出其轻量级和实用性。PrismAudio的研究已被ICLR2026收录,代码即将开源。

相关内容

热门资讯

微信安卓版新功能:ClawBo... 3月24日,微信iOS版新增ClawBot插件后,安卓端微信也正式支持该插件,实现与OpenClaw...
比亚迪仰望U9X全球首辆交付泰... 近日,比亚迪集团宣布泰国私人收藏家PratarnwongPhornprapha先生成为仰望U9Xtr...
AI时代来临:裁员还是创业潮?... 3月24日,人工智能公司PerplexityAI的首席执行官Aravind Srinivas在最新的...
问界M6预售24小时破6万!华... 3月24日,鸿蒙智行宣布旗下最新车型问界M6开启预售,增程版起售价为26.98万元,纯电版起售价为2...
比亚迪欧洲销量激增162.3%... 今日,欧洲汽车制造商协会发布数据显示,2026年2月欧洲市场新车注册量同比微增1.7%至979,32...
华为问界M6订单破6万!智能S... 3月24日,华为常务董事余承东宣布,问界M6自开启预订以来24小时订单量突破60000台。这款全新智...
奇瑞捷豹路虎联手打造豪华新能源... 3月24日,奇瑞与捷豹路虎合作的全球豪华新能源汽车品牌FREELANDER神行者宣布,将于3月31日...
阿里巴巴发布PrismAudi... 3月24日,阿里巴巴通义实验室发布了PrismAudio,一个视频生成音频框架,专注于环境音/音效合...
特斯拉欧洲销量逆势增长12%,... 3月24日,特斯拉在欧洲市场实现了一年多来的首次月度销量增长。根据欧洲汽车制造商协会(ACEA)的数...
东风风行FRIDAY泰国上市,... 日前,在第47届曼谷国际车展上,东风风行FRIDAY正式上市,星海V9同步亮相。FRIDAY作为东风...