智谱今日发布工业级语音合成系统GLM-TTS,并在HuggingFace和ModelScope上开放模型权重。该系统仅需3秒语音样本即可学习说话人的音色和说话习惯,适用于通用朗读、情感配音等多个场景,实现自然流畅、贴近真人的语音效果。GLM-TTS采用两阶段生成架构,并引入基于GRPO的强化学习方案,在字错误率和情感表达上取得开源SOTA表现。该系统仅使用10万小时训练数据,远低于行业主流商用模型,同时兼顾训练成本和效果,预训练仅需单机4天即可达到开源SOTA水平。
GLM-TTS重点验证了教育、电子书与有声内容、智能客服等场景的应用。在教育场景中,该系统适配多音字和生僻字、公式符号,为教材和题库批量生成标准发音示范音频,并保持大规模合成的一致性和准确度。在电子书与有声内容场景中,GLM-TTS可以用单一音色完成整本书的朗读,也可以为不同角色配置专属音色,适配不同文体的节奏与情绪。在智能客服与语音助手场景中,GLM-TTS能为机器人客服打造温和但克制的声音形象,降低机械感,并与上游NLU/NLG模块协同,支持端到端语音交互。
智谱还开放了GLM-TTS的模型权重、推理代码和在线调用接口,方便开发者、研究者和企业评估与集成。开发者可以在GPU环境中快速部署GLM-TTS,并按需做二次开发。同时,智谱也提供了开放平台和API接口,支持从Demo试用到生产级大规模调用。用户还可以通过网页链接和智谱清言App/网页版快速体验GLM-TTS的合成效果。


