苹果联手特拉维夫大学突破AI语音生成速度瓶颈，效率提升40%_知识学习

苹果联手特拉维夫大学突破AI语音生成速度瓶颈，效率提升40%

创始人

2026-02-03 08:39:57

0次

2月3日，苹果公司与特拉维夫大学合作，共同发表了一篇关于语音生成技术的论文，提出了一种名为“原则性粗粒度”（PCG）的新方法，旨在解决AI文本转语音（TTS）技术中的速度瓶颈问题。目前，行业普遍采用的自回归模型在生成语音时，需要逐个预测tokens，并且要求预测结果必须精确匹配预设的tokens，这导致模型经常拒绝听感差异极小但完全可用的预测结果，从而拖慢了生成速度。

PCG技术的核心在于将不同的声学token视为声学相似组，允许模型生成的预测token落在正确的相似组范围内即可被系统采纳，从而将单点验证升级为容错率更高的范围验证。具体实施中，PCG采用了投机解码策略，通过一个轻量级的小模型快速生成候选语音token，再由一个参数更大的裁判模型进行审核，只要候选token属于正确的声学组，大模型便会放行。这种分工既保留了小模型的高速度，也利用大模型保障了输出质量，有效平衡了效率与准确性。

试验数据显示，应用PCG技术后，语音生成速度提升了约40%，音频质量并未受到影响。在自然度评分中，该模型取得了4.09的高分。在一项极限压力测试中，即使将91.4%的语音token替换为同组的其他token，词错率仅增加了0.007，说话人相似度仅下降0.027，人耳几乎无法察觉差异。PCG技术属于推理阶段的优化方案，无需对现有模型进行重新训练即可直接应用，且存储声学相似组仅需约37MB的额外内存。

上一篇：OpenAI发布Codex独立应用，ChatGPT用户免费用

下一篇：小米汽车实验室揭秘：2-3周模拟30万公里耐久性测试

苹果联手特拉维夫大学突破AI语音生成速度瓶颈，效率提升40%

相关内容

热门资讯