阿里通义发布新一代语音交互模型Fun-Audio-Chat8B,性能领先业界
创始人
2025-12-23 18:35:57
0

今日,阿里巴巴集团旗下的阿里通义大模型发布了新一代端到端语音交互模型Fun-Audio-Chat。该模型以其在多个语音交互榜单上的卓越表现而备受关注,尤其是在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等榜单上,Fun-Audio-Chat8B模型在同尺寸模型中排名第一,综合性能超越了GLM4-Voice、Kimi-Audio、Baichuan-Omni等竞争对手。

Fun-Audio-Chat的技术亮点包括端到端S2S架构,该架构允许模型直接从语音输入生成语音输出,无需复杂的ASR+LLM+TTS多模块拼接,从而提高了效率并降低了延迟。此外,模型采用了双分辨率设计,SharedLLM层以5Hz帧率处理,而SRH以25Hz帧率生成高质量语音,显著降低了GPU的计算开销。Fun-Audio-Chat还经过了百万小时多任务数据的训练,覆盖了音频理解、语音问答、情感识别、工具调用等多种真实场景,使模型更加贴近实际应用。

阿里通义强调,Fun-Audio-Chat能够提供类似朋友间的对话体验,能够感知用户情绪,甚至在用户没有直接表达情绪时,也能从语气、语速、停顿中推断出用户的心情,并给出相应的回应。同时,该模型能够完成复杂任务,用户只需用自然语音下达指令,Fun-Audio-Chat便能自动调用相应函数。

相关内容

热门资讯

10万级纯电SUV新标杆!广汽... 5月8日,广汽丰田2026款铂智3X正式上市,提供3种续航7款配置,限时权益价9.48万-14.48...
2026年度“深圳惠民保”上线... 羊城晚报讯 记者沈婷婷报道:7日,2026年度“深圳惠民保”新闻发布会召开,这项由政府指导的普惠型商...
在时代洪流中锚定文明:羊城晚报... 日前,由羊城晚报社主编、羊城晚报出版社出版的《有风自南——岭南文脉的传承与思辨 文史哲岁集·2025...
五一南沙接待游客超212万人次... 文/羊城晚报全媒体记者 江皓轩 通讯员 刘超 罗瑞娴图/南宣提供刚过去的“五一”假期,广州南沙因为时...
@各位老细,请速来给广州法治化... 广州的营商环境好不好,企业和市民最有发言权。即日起,广州市优化法治化营商环境满意度调查问卷正式上线,...
“自由”每一天,枪“劫”美利坚... 近日,举办白宫记者协会晚宴的华盛顿希尔顿酒店发生枪击事件,包括美国总统特朗普在内,现场数百名记者和政...
创新驱动发展后劲足——“十五五... “十五五”规划纲要提出——全社会研发(R&D)经费投入年均增长7%以上全社会研发经费投入,是一个国家...
体验经济蓬勃发展 “五一”假期... 新华社上海5月6日电(记者陈爱平)今年劳动节假期,部分省市放春假提前预热“假日经济”,传统热门目的地...
超百组亲子家庭参与!广州白云这... 近日,广州市白云区同和街同宝社区星汇云山花园中央广场迎来超过100组亲子家庭,共同参与该社区首届“为...
第139届广交会期间,广东入境... 5月5日,第139届中国进出口商品交易会(广交会)正式收官。记者7日从广东省公安厅了解到,为深入贯彻...