今日,面壁智能宣布VoxCPM1.5版本正式上线,该版本在优化开发者体验的同时,带来了多项核心能力升级。VoxCPM是一个0.5B参数尺寸的语音生成基座模型,首次发布于今年9月。此次更新的亮点包括:高采样音频克隆能力的提升,AudioVAE采样率从16kHz提升至44.1kHz,使得模型能够根据高质量音频克隆出效果更佳、细节更丰富的声音;生成效率翻倍,VoxCPM1.5仅需6.25个token即可生成1秒音频,较之前版本提高一倍,同时保持了音频生成质量;开发者友好性增强,新增LoRA和全量微调脚本,支持深度定制;增强稳定性,减少音频伪影,优化长文本音频的生成效果。
VoxCPM1.5模型现已在Github和HuggingFace开源,开发者可以访问相关链接获取资源,进行进一步的开发和应用。这一更新标志着面壁智能在语音生成技术领域的又一进步,为开发者提供了更加强大和灵活的工具。

