今日,阿里巴巴集团旗下的阿里通义千问发布了一款名为Qwen3-TTS的语音合成AI模型。该模型支持多音色、多语种和多方言,用户可以通过QwenAPI进行访问。Qwen3-TTS在音色方面提供了超过49种选择,包括不同性别、年龄、地域特征与角色设定,如撒娇搞怪的茉兔、青梅竹马的小野杏等,丰富了语音合成的可能性。
Qwen3-TTS在多语种多方言能力上也有所增强,支持包括中文、英文、德语在内的10大主流语言,并在MiniMaxTTSmultilingualtestset上的平均词错误率(WER)优于多个竞争对手。此外,该模型还支持多种方言的生成,如普通话、闽南语、吴语等,能够还原地方口音特色与语言神韵。
在韵律和语速方面,Qwen3-TTS相较于前一版本有了显著提升,自适应调节语速和韵律的能力大幅提高,官方宣称其拟人化程度逼近真人。这使得Qwen3-TTS在语音合成领域的表现更加自然和人性化。

