今日,小米公司宣布其多项AI创新成果被选入国际顶级会议ICASSP2026。ICASSP是全球音频领域极具权威性的学术会议,本年度会议将于5月在西班牙巴塞罗那举行。小米的入选成果覆盖音频理解、音乐生成评估、通用音频-文本预训练、视频到音频合成等多个AI技术领域。
具体成果包括ACAVCaps数据集,旨在提升音频理解模型性能,通过多级自动化标注框架,实现了音频内容的精细化刻画;FedDCG方法,首次在联邦学习中联合解决类别和域泛化问题,提升了模型的准确性与鲁棒性;FUSEMOS双编码器架构,通过融合不同预训练模型,实现了更精准的音乐生成评估;GLAP模型,实现了跨音频领域与跨语言的音频-文本对齐,提升了音频搜索性能;MeanFlow模型,通过平均速度场建模,实现了视频同步音效生成的效率与质量双重突破;Think-Clip-Sample框架,提升了长视频问答任务的准确性与效率;以及一种统一的多任务学习框架,通过跨注意力机制与NLU模型进行语义交互,实现了跨模态、跨语言的高效语义对齐。这些成果展现了小米在AI领域的技术实力和创新能力。


