苹果联手特拉维夫大学突破AI语音生成速度瓶颈,效率提升40%
创始人
2026-02-03 08:39:57
0

2月3日,苹果公司与特拉维夫大学合作,共同发表了一篇关于语音生成技术的论文,提出了一种名为“原则性粗粒度”(PCG)的新方法,旨在解决AI文本转语音(TTS)技术中的速度瓶颈问题。目前,行业普遍采用的自回归模型在生成语音时,需要逐个预测tokens,并且要求预测结果必须精确匹配预设的tokens,这导致模型经常拒绝听感差异极小但完全可用的预测结果,从而拖慢了生成速度。

PCG技术的核心在于将不同的声学token视为声学相似组,允许模型生成的预测token落在正确的相似组范围内即可被系统采纳,从而将单点验证升级为容错率更高的范围验证。具体实施中,PCG采用了投机解码策略,通过一个轻量级的小模型快速生成候选语音token,再由一个参数更大的裁判模型进行审核,只要候选token属于正确的声学组,大模型便会放行。这种分工既保留了小模型的高速度,也利用大模型保障了输出质量,有效平衡了效率与准确性。

试验数据显示,应用PCG技术后,语音生成速度提升了约40%,音频质量并未受到影响。在自然度评分中,该模型取得了4.09的高分。在一项极限压力测试中,即使将91.4%的语音token替换为同组的其他token,词错率仅增加了0.007,说话人相似度仅下降0.027,人耳几乎无法察觉差异。PCG技术属于推理阶段的优化方案,无需对现有模型进行重新训练即可直接应用,且存储声学相似组仅需约37MB的额外内存。

相关内容

热门资讯

AI安全漏洞曝光:Anthro... 5月6日,安全研究揭示了主打安全的人工智能公司Anthropic的潜在安全漏洞。人工智能红队测试公司...
特斯拉21万辆车因倒车影像延迟... 5月6日,美国国家公路交通安全管理局(NHTSA)宣布,特斯拉将在美国召回超过21万辆电动车,涉及2...
7年低息车贷全面下架,购车压力... 近日,新能源汽车市场出现了一项重大变化,7年超长低息车贷政策全面下架。此前,特斯拉、小米SU7、理想...
商汤科技挑战AI巨头:低成本高... 5月6日,商汤科技联合创始人兼首席科学家林达华透露,公司从DeepSeek获得启发,即便在资金和技术...
承载“广交天下”的国产无人机,... 文/图 羊城晚报全媒体记者 严锦程4月的广州,春潮涌动,珠江之畔的琶洲展馆人声鼎沸,第139届广交会...
以侨引商以侨促贸,助力经济高质... 羊城晚报讯 16日下午,由广东省侨办、广州市人民政府联合主办的“2026侨助广东经济高质量发展推进大...
以微光入眼以澄明观心 傅锡洪:... 文/羊城晚报全媒体记者 王倩图/羊城晚报全媒体记者 钟振彬 方浩四月的中山大学,草木葱茏。在陈寅恪故...
早筛早诊早治​“全链条”出击 ... 广州“肿瘤防治宣传周”系列活动启动,全市癌症总体5年生存率提升至49.57%羊城晚报全媒体记者 朱嘉...
广东强对流天气或迎“双休日” ... 羊城晚报讯 记者梁怿韬报道:广东多地在4月17日迎来强对流天气。截至17日17时,多地在白天时段录得...
消费新语|“首展”+“首秀”,... 监制:唐卫彬策划:陈发宝 姜 范统筹:潘笑天 李 劼记者:林语晋拍摄:甄子豪 李丹丹 张博雅 朱轶琳...