今日,Meta发布了首个统一的多模态音频分离模型SAMAudio,标志着音频处理技术的新突破。SAMAudio通过自然、多模态的提示简化音频处理,能够从复杂的音频混合中分离出任何声音,无论是通过文本、视觉提示还是时间段标记。该模型的核心是感知编码器视听(PE-AV),基于Meta早先分享的开源感知编码器模型构建,实现先进性能。
SAMAudio提供了三种音频分割方法:文本提示、视觉提示和时间片段提示。文本提示允许用户输入特定声音名称以提取音频,视觉提示则通过在视频中点击发声物体来分离音频,而时间片段提示则允许用户标记目标音频出现的时间段。此外,Meta还发布了SAMAudio-Bench和SAMAudioJudge,分别作为音频分离的基准测试和自动评估模型。
Meta今日还发布了第二个模型——PerceptionEncoderAudiovisual,作为SAMAudio成果的核心引擎。该模型基于Meta四月发布的开源模型MetaPerceptionEncoder构建,将计算机视觉能力扩展到了音频领域。SAMAudio的访问地址为:网页链接。


