2月9日,科技媒体9to5Mac报道了苹果公司与中国人民大学合作推出的VSSFlow新型AI模型。该模型突破了传统音频生成技术的局限,能够从无声视频中同时生成逼真的环境音效与人类语音,仅需单一系统即可完成。VSSFlow的核心优势在于其“化静为动”的能力,直接处理无声视频数据,并在单一框架下同步生成与画面高度匹配的音效和语音对话。
VSSFlow采用了10层架构设计,并引入“流匹配”技术,使模型能够自主学习从随机噪声中重构出目标声音信号。在训练过程中,研究团队发现联合训练不仅没有导致任务干扰,反而产生了“互助效应”,即语音数据的训练提升了音效生成的质量,而音效数据的加入也优化了语音的表现。为了实现这一效果,团队向模型投喂了混合数据,包括配有环境音的视频、配有字幕的说话视频以及纯文本转语音数据,并利用合成样本微调模型,让其学会同时输出背景音与人声。
VSSFlow在实际运行中,以每秒10帧的频率从视频中提取视觉线索来塑造环境音效,同时依据文本脚本精确引导语音生成。测试数据显示,该模型在多项关键指标上均优于专门针对单一任务设计的竞品模型。目前,研究团队已在GitHub上开源了VSSFlow的代码,并正在推进模型权重公开及在线推理演示的开发工作。


