苹果联手人大打造AI新突破:无声视频秒变逼真音画同步
创始人
2026-02-10 08:02:56
0

2月9日,科技媒体9to5Mac报道了苹果公司与中国人民大学合作推出的VSSFlow新型AI模型。该模型突破了传统音频生成技术的局限,能够从无声视频中同时生成逼真的环境音效与人类语音,仅需单一系统即可完成。VSSFlow的核心优势在于其“化静为动”的能力,直接处理无声视频数据,并在单一框架下同步生成与画面高度匹配的音效和语音对话。

VSSFlow采用了10层架构设计,并引入“流匹配”技术,使模型能够自主学习从随机噪声中重构出目标声音信号。在训练过程中,研究团队发现联合训练不仅没有导致任务干扰,反而产生了“互助效应”,即语音数据的训练提升了音效生成的质量,而音效数据的加入也优化了语音的表现。为了实现这一效果,团队向模型投喂了混合数据,包括配有环境音的视频、配有字幕的说话视频以及纯文本转语音数据,并利用合成样本微调模型,让其学会同时输出背景音与人声。

VSSFlow在实际运行中,以每秒10帧的频率从视频中提取视觉线索来塑造环境音效,同时依据文本脚本精确引导语音生成。测试数据显示,该模型在多项关键指标上均优于专门针对单一任务设计的竞品模型。目前,研究团队已在GitHub上开源了VSSFlow的代码,并正在推进模型权重公开及在线推理演示的开发工作。

相关内容

热门资讯

九号Mz1新国标电动车5月20... 今日,九号电动宣布将于5月20日发布新款国标电动车九号Mz1。这款新车型采用全新底盘架构,配备高强钢...
谷歌推AI新订阅“UltraL... 近日,科技媒体9to5Google报道,谷歌正在开发名为“Neon”的GeminiAI新订阅层级,暂...
谷歌AI新突破:Remy智能体... 5月6日,谷歌正在开发一款名为“Remy”的AI个人智能体,旨在代表用户自主执行各种操作。Remy基...
告别“专门学”,拥抱“随处见”... 文/图 羊城晚报全媒体记者 钱瑜在珠海,全省共享的“超级知识库”正化作一股清流,悄然流进人们的生活缝...
苹果公司宣布特纳斯将接替库克担... △约翰·特纳斯(资料图)当地时间4月20日,央视记者获悉,美国苹果公司宣布任命内部高管、长期负责硬件...
广州大岗镇防邪教主题公园变身科... 4月15日,一场以“统筹发展和安全・全民反邪教聚力护平安”为主题的全民国家安全教育日活动在广州市南沙...
全国首份AI开源生态共识在广州... 羊城晚报全媒体记者李焕坤,通讯员马卓尔、陈中山报道:4月20日,来自全国人工智能产业链的部分头部科技...
广州暹岗大山等地遭私挖水晶 专... 当地已组织对私挖造成的洞、沟等进行覆土回填,并恢复植被文/羊城晚报全媒体记者 马思泳图/网络图片近日...
纸上权利如何变成真金白银 知识... 羊城晚报全媒体记者 吴珊今年4月26日是第26个世界知识产权日。4月21日,广州召开了一场新闻发布会...
广州内环高架桥出现疑似裂缝 官... 羊城晚报讯 记者李海婵、严艺文摄影报道:“等车时一抬头,看到头顶高架桥底密密麻麻的裂缝,挺吓人的。”...