今日,阿里巴巴集团旗下的阿里通义大模型发布了新一代端到端语音交互模型Fun-Audio-Chat。该模型以其在多个语音交互榜单上的卓越表现而备受关注,尤其是在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等榜单上,Fun-Audio-Chat8B模型在同尺寸模型中排名第一,综合性能超越了GLM4-Voice、Kimi-Audio、Baichuan-Omni等竞争对手。
Fun-Audio-Chat的技术亮点包括端到端S2S架构,该架构允许模型直接从语音输入生成语音输出,无需复杂的ASR+LLM+TTS多模块拼接,从而提高了效率并降低了延迟。此外,模型采用了双分辨率设计,SharedLLM层以5Hz帧率处理,而SRH以25Hz帧率生成高质量语音,显著降低了GPU的计算开销。Fun-Audio-Chat还经过了百万小时多任务数据的训练,覆盖了音频理解、语音问答、情感识别、工具调用等多种真实场景,使模型更加贴近实际应用。
阿里通义强调,Fun-Audio-Chat能够提供类似朋友间的对话体验,能够感知用户情绪,甚至在用户没有直接表达情绪时,也能从语气、语速、停顿中推断出用户的心情,并给出相应的回应。同时,该模型能够完成复杂任务,用户只需用自然语音下达指令,Fun-Audio-Chat便能自动调用相应函数。


