3秒语音样本即可合成逼真人声！智谱发布工业级GLM-TTS系统_知识学习

3秒语音样本即可合成逼真人声！智谱发布工业级GLM-TTS系统

创始人

2025-12-11 10:40:58

0次

智谱今日发布工业级语音合成系统GLM-TTS，并在HuggingFace和ModelScope上开放模型权重。该系统仅需3秒语音样本即可学习说话人的音色和说话习惯，适用于通用朗读、情感配音等多个场景，实现自然流畅、贴近真人的语音效果。GLM-TTS采用两阶段生成架构，并引入基于GRPO的强化学习方案，在字错误率和情感表达上取得开源SOTA表现。该系统仅使用10万小时训练数据，远低于行业主流商用模型，同时兼顾训练成本和效果，预训练仅需单机4天即可达到开源SOTA水平。

GLM-TTS重点验证了教育、电子书与有声内容、智能客服等场景的应用。在教育场景中，该系统适配多音字和生僻字、公式符号，为教材和题库批量生成标准发音示范音频，并保持大规模合成的一致性和准确度。在电子书与有声内容场景中，GLM-TTS可以用单一音色完成整本书的朗读，也可以为不同角色配置专属音色，适配不同文体的节奏与情绪。在智能客服与语音助手场景中，GLM-TTS能为机器人客服打造温和但克制的声音形象，降低机械感，并与上游NLU/NLG模块协同，支持端到端语音交互。

智谱还开放了GLM-TTS的模型权重、推理代码和在线调用接口，方便开发者、研究者和企业评估与集成。开发者可以在GPU环境中快速部署GLM-TTS，并按需做二次开发。同时，智谱也提供了开放平台和API接口，支持从Demo试用到生产级大规模调用。用户还可以通过网页链接和智谱清言App/网页版快速体验GLM-TTS的合成效果。

上一篇：马斯克暗讽Waymo无胜算，特斯拉自动驾驶全球布局加速

下一篇：以下是一些改写“回应民生关切”的方式，你可以根据具体情境和表达需求进行选择：对民生关切予以回应：强调了主动去做、给予回应的动作，突出了积极的态度。针对民生关切作出回应：明确了是针对特定的民生问题进行回应，使回应更具针对性。以回应民生关切为导向：将回应民生关切作为行动的导向，体现了重视民生的理念。对民生关切进行积极回应：强调了回应的积极态度，即主动、认真地对待民生关切。用回应民生关切来体现：表明通过回应民生关切来展现某种价值或态度，突出了回应的重要性。以回应民生关切为己任：将回应民生关切视为自

3秒语音样本即可合成逼真人声！智谱发布工业级GLM-TTS系统

相关内容

热门资讯