今日(2月4日),面壁智能宣布开源新一代全模态旗舰模型MiniCPM-o4.5。这款模型以其“边看、边听、主动说”的全模态能力,突破了传统AI“对讲机”式的交互限制,实现了行业首个“即时自由对话”的大模型。MiniCPM-o4.5已在GitHub、HuggingFace等平台开源,展现了其跨平台能力,尤其在天数智芯、华为昇腾等6款芯片上实现了端到端推理性能提升。
MiniCPM-o4.5以其9B参数,在全模态、视觉理解、文档解析、语音理解和生成、声音克隆等方面达到了SOTA水准。该模型在能效比方面表现突出,通过更低的显存占用和更快的响应速度,提供了SOTA级全模态表现的同时,实现了更好的推理效率和更低的推理开销。在语音生成方面,MiniCPM-o4.5通过新的模型设计和数据方法,全面提升了音色、拟人度和声音表现力,解决了长语音合成中的音色不统一等问题。此外,MiniCPM-o4.5在声音克隆上提供了更多的声音选择,能够基于几秒的声音样本克隆定制新音色,并进行角色扮演的语音对话。模型采用了端到端的全模态架构,并加入了全双工多模态实时流机制、主动交互机制、可配置语音建模设计。


