1月22日,千问Qwen微信公众号宣布,Qwen3-TTS多码本全系列模型已开源,提供1.7B和0.6B两种尺寸,其中1.7B模型可提供极致性能,而0.6B模型则在性能与效率之间实现均衡。Qwen3-TTS是一系列强大的语音生成模型,支持音色克隆、音色创造、超高质量拟人化语音生成,以及基于自然语言描述的语音控制,满足开发者和用户的多样化需求。
Qwen3-TTS采用创新的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,实现了对语音信号的高效压缩与强表征能力,保留了副语言信息和声学环境特征,并通过轻量级的非DiT架构实现高速、高保真的语音还原。该模型采用Dual-Track双轨建模,实现了极致的双向流式生成速度,首包音频仅需等待一个字符。模型覆盖10种主流语言及多种方言音色,具备强大的上下文理解能力,可根据指令和文本语义自适应调整语气、节奏与情感表达,对输入文本噪声的鲁棒性有显著提升。
Qwen3-TTS在音色克隆、创造、控制等方面进行了全面评估,结果显示其在多项指标上都达到了SOTA性能。在音色创造任务上,Qwen3-TTS-VoiceDesign在InstructTTS-Eval中指令遵循能力和生成表现力都整体超越MiniMax-Voice-Design闭源模型,并大幅领先其余开源模型。在音色控制任务上,Qwen3-TTS-Instruct展现出卓越的长语音生成能力,一次性合成10分钟语音的中英词错率为2.36/2.81%。在音色克隆任务上,Qwen3-TTS-VoiceClone在多个测试集上超越MiniMax和SeedTTS,跨语种音色克隆也超越CosyVoice3位居SOTA。


