Qwen3-TTS多码本模型开源！1.7B性能极致，0.6B效率均衡_知识学习

Qwen3-TTS多码本模型开源！1.7B性能极致，0.6B效率均衡

创始人

2026-01-22 22:26:02

0次

1月22日，千问Qwen微信公众号宣布，Qwen3-TTS多码本全系列模型已开源，提供1.7B和0.6B两种尺寸，其中1.7B模型可提供极致性能，而0.6B模型则在性能与效率之间实现均衡。Qwen3-TTS是一系列强大的语音生成模型，支持音色克隆、音色创造、超高质量拟人化语音生成，以及基于自然语言描述的语音控制，满足开发者和用户的多样化需求。

Qwen3-TTS采用创新的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器，实现了对语音信号的高效压缩与强表征能力，保留了副语言信息和声学环境特征，并通过轻量级的非DiT架构实现高速、高保真的语音还原。该模型采用Dual-Track双轨建模，实现了极致的双向流式生成速度，首包音频仅需等待一个字符。模型覆盖10种主流语言及多种方言音色，具备强大的上下文理解能力，可根据指令和文本语义自适应调整语气、节奏与情感表达，对输入文本噪声的鲁棒性有显著提升。

Qwen3-TTS在音色克隆、创造、控制等方面进行了全面评估，结果显示其在多项指标上都达到了SOTA性能。在音色创造任务上，Qwen3-TTS-VoiceDesign在InstructTTS-Eval中指令遵循能力和生成表现力都整体超越MiniMax-Voice-Design闭源模型，并大幅领先其余开源模型。在音色控制任务上，Qwen3-TTS-Instruct展现出卓越的长语音生成能力，一次性合成10分钟语音的中英词错率为2.36/2.81%。在音色克隆任务上，Qwen3-TTS-VoiceClone在多个测试集上超越MiniMax和SeedTTS，跨语种音色克隆也超越CosyVoice3位居SOTA。

上一篇：两名博士研究生被清华大学退学，学校称难以联系到两人，无法直接送达通知，特予公告送达

下一篇：奔驰EQC召回升级后“锁电”？车主续航缩水80-100公里

Qwen3-TTS多码本模型开源！1.7B性能极致，0.6B效率均衡

相关内容

热门资讯