苹果联手人大打造AI新突破:无声视频秒变逼真音画同步
创始人
2026-02-10 08:02:56
0

2月9日,科技媒体9to5Mac报道了苹果公司与中国人民大学合作推出的VSSFlow新型AI模型。该模型突破了传统音频生成技术的局限,能够从无声视频中同时生成逼真的环境音效与人类语音,仅需单一系统即可完成。VSSFlow的核心优势在于其“化静为动”的能力,直接处理无声视频数据,并在单一框架下同步生成与画面高度匹配的音效和语音对话。

VSSFlow采用了10层架构设计,并引入“流匹配”技术,使模型能够自主学习从随机噪声中重构出目标声音信号。在训练过程中,研究团队发现联合训练不仅没有导致任务干扰,反而产生了“互助效应”,即语音数据的训练提升了音效生成的质量,而音效数据的加入也优化了语音的表现。为了实现这一效果,团队向模型投喂了混合数据,包括配有环境音的视频、配有字幕的说话视频以及纯文本转语音数据,并利用合成样本微调模型,让其学会同时输出背景音与人声。

VSSFlow在实际运行中,以每秒10帧的频率从视频中提取视觉线索来塑造环境音效,同时依据文本脚本精确引导语音生成。测试数据显示,该模型在多项关键指标上均优于专门针对单一任务设计的竞品模型。目前,研究团队已在GitHub上开源了VSSFlow的代码,并正在推进模型权重公开及在线推理演示的开发工作。

相关内容

热门资讯

小米法务部助力车主维权,打击网... 近日,小米公司在保护车主权益方面取得了显著进展。自2025年9月26日启动专项援助信息收集以来,截至...
字节跳动AI视频生成模型See... 近日,字节跳动旗下AI视频生成大模型Seedance2.0因其高度逼真的声音生成能力而引发关注。科技...
“快充虽快,但电池寿命减半?G... 2月10日,远程信息服务公司Geotab发布的一项大规模分析揭示了电动汽车电池在频繁使用大功率快充时...
日本出光兴产启动全球首座硫化物... 近日,日本石油巨头出光兴产在千叶县启动了全球首座大规模硫化物固态电解质中试工厂的建设。该工厂投资约2...
海报 | 以脚力丈量岭南春早!... 2026年,“十五五”规划扬帆起航,岭南大地万物竞发。当春风拂过阡陌街巷,广东正以“百县千镇万村高质...
广东群众安全感连续4年超98%... 2月9日,广东省政府新闻办在广州举行“‘十四五’广东成就”系列主题新闻发布会,广东省委政法委、省法院...
春节不打烊!蔚来全国350+服... 2月10日,蔚来官方宣布春节期间全国350+服务中心将保持运营,全力保障本地及异地服务需求。根据蔚来...
丰田联手出光兴产打造固态电池工... 近日,丰田汽车与日本炼油巨头出光兴产宣布,双方合作进入新阶段,计划新建一座工厂专门生产全固态电动汽车...
习近平考察信创园,中科曙光拟募... 2月9日,习近平总书记在北京亦庄国家信创园调研信息技术应用创新与科技创新成果。在此次考察中,习近平总...
内存价格飙升90% 本轮上涨主... 2月9日,第三方市场研究机构Counterpoint发布的《2月内存价格追踪报告》显示,与2025年...