Qwen3-TTS多码本模型开源!1.7B性能极致,0.6B效率均衡
创始人
2026-01-22 22:26:02
0

1月22日,千问Qwen微信公众号宣布,Qwen3-TTS多码本全系列模型已开源,提供1.7B和0.6B两种尺寸,其中1.7B模型可提供极致性能,而0.6B模型则在性能与效率之间实现均衡。Qwen3-TTS是一系列强大的语音生成模型,支持音色克隆、音色创造、超高质量拟人化语音生成,以及基于自然语言描述的语音控制,满足开发者和用户的多样化需求。

Qwen3-TTS采用创新的Qwen3-TTS-Tokenizer-12Hz多码本语音编码器,实现了对语音信号的高效压缩与强表征能力,保留了副语言信息和声学环境特征,并通过轻量级的非DiT架构实现高速、高保真的语音还原。该模型采用Dual-Track双轨建模,实现了极致的双向流式生成速度,首包音频仅需等待一个字符。模型覆盖10种主流语言及多种方言音色,具备强大的上下文理解能力,可根据指令和文本语义自适应调整语气、节奏与情感表达,对输入文本噪声的鲁棒性有显著提升。

Qwen3-TTS在音色克隆、创造、控制等方面进行了全面评估,结果显示其在多项指标上都达到了SOTA性能。在音色创造任务上,Qwen3-TTS-VoiceDesign在InstructTTS-Eval中指令遵循能力和生成表现力都整体超越MiniMax-Voice-Design闭源模型,并大幅领先其余开源模型。在音色控制任务上,Qwen3-TTS-Instruct展现出卓越的长语音生成能力,一次性合成10分钟语音的中英词错率为2.36/2.81%。在音色克隆任务上,Qwen3-TTS-VoiceClone在多个测试集上超越MiniMax和SeedTTS,跨语种音色克隆也超越CosyVoice3位居SOTA。

相关内容

热门资讯

2026车市冷开局:车企“7年... 近日,2026年汽车市场开局低迷,各大车企为刺激销量纷纷推出7年低息分期购车方案。特斯拉率先针对中国...
1月新能源车市回暖,预计零售量... 今日,乘联分会发布最新市场分析,指出2026年春节较晚,1月作为春节前最后一个完整销售月,工作日多于...
2026年1月新能源车销量预测... 1月22日,乘联分会发布2026年1月乘用车销量预测。预计当月狭义乘用车零售总市场约180万辆,环比...
广州越秀援疆教师载誉而归:他们... 文/羊城晚报全媒体记者 卢佳圳 通讯员 詹苹苹图/通讯员提供日前,越秀区教育局在广州市育才中学举办2...
从线上火到线下:“拼豆”热潮为... 走进藏在闹市里的拼豆手作店,宛如进入了一个自习室,年轻人安安静静在豆板前埋头苦干。他们拿着镊子,将一...
献血车进中学举办无偿献血活动引... 近日,重庆彭水县数所中学有献血车进校,举办师生无偿献血活动引发关注。有网民质疑,国家提倡献血年龄为1...
广东机器人进化:从七剑客到群英... 南方财经全媒体集团 郑康喜,白宇航,肖航 广州报道短短几年时间,广东机器人产业到底为何一跃成为世界级...
吉利控股2030战略:650万... 1月22日,吉利控股集团在北京举行战略解析会,宣布将深化“人才森林”战略,通过产教融合战略工程定向培...
奔驰EQC召回升级后“锁电”?... 近日,奔驰EQC车型因存在热失控隐患在国内部分车辆中进行了召回。然而,召回升级后,车主们发现车辆电池...
Qwen3-TTS多码本模型开... 1月22日,千问Qwen微信公众号宣布,Qwen3-TTS多码本全系列模型已开源,提供1.7B和0....