苹果联手特拉维夫大学突破AI语音生成速度瓶颈,效率提升40%
创始人
2026-02-03 08:39:57
0

2月3日,苹果公司与特拉维夫大学合作,共同发表了一篇关于语音生成技术的论文,提出了一种名为“原则性粗粒度”(PCG)的新方法,旨在解决AI文本转语音(TTS)技术中的速度瓶颈问题。目前,行业普遍采用的自回归模型在生成语音时,需要逐个预测tokens,并且要求预测结果必须精确匹配预设的tokens,这导致模型经常拒绝听感差异极小但完全可用的预测结果,从而拖慢了生成速度。

PCG技术的核心在于将不同的声学token视为声学相似组,允许模型生成的预测token落在正确的相似组范围内即可被系统采纳,从而将单点验证升级为容错率更高的范围验证。具体实施中,PCG采用了投机解码策略,通过一个轻量级的小模型快速生成候选语音token,再由一个参数更大的裁判模型进行审核,只要候选token属于正确的声学组,大模型便会放行。这种分工既保留了小模型的高速度,也利用大模型保障了输出质量,有效平衡了效率与准确性。

试验数据显示,应用PCG技术后,语音生成速度提升了约40%,音频质量并未受到影响。在自然度评分中,该模型取得了4.09的高分。在一项极限压力测试中,即使将91.4%的语音token替换为同组的其他token,词错率仅增加了0.007,说话人相似度仅下降0.027,人耳几乎无法察觉差异。PCG技术属于推理阶段的优化方案,无需对现有模型进行重新训练即可直接应用,且存储声学相似组仅需约37MB的额外内存。

相关内容

热门资讯

两男孩扔烟花点燃狗笼后致狗死亡... 2月2日,江苏连云港市东海县的姜女士反映,1日,她家养在笼子里的宠物狗,被小区两个小男孩点火烧死。此...
春运首日 江西南昌万“福”入车... 2月2日,2026年春运正式启动。“暖途·年味——老字号年礼暨书法名家送福”活动同日开启,多位江西省...
利好!4万亿元,投资方向确定了... “十五五”期间,国家电网固定资产投资预计达4万亿元,较“十四五”增长40%。今天,国家电网披露了重点...
春运期间广东省跨区域人员流动量... 广东多个交通枢纽严阵以待,全力守护旅客舒心返乡羊城晚报全媒体记者 严锦程 王丹阳 詹淑真 严艺文 通...
阿维塔06T亮相:华为激光雷达... 2月3日,阿维塔汽车宣布与华为乾崑战略合作2.0的全新车型命名为“阿维塔06T”。这款新车将首批搭载...
华为激光雷达加持!阿维塔06T... 2月3日,阿维塔官方宣布与华为乾崑的战略合作2.0项目中,全新车型被正式命名为阿维塔06T。此车型将...
鸿蒙智行尚界H5二月购车权益大... 今日,鸿蒙智行尚界汽车官方微博宣布了尚界H5的二月购车权益,其中包括星闪实体车钥匙、HUAWEI A...
问界M6实车亮相:华为高阶辅助... 2月3日,华为问界品牌发布了问界M6的实车视频。问界M6延续了家族化前脸设计,大灯装饰璀璨如钻石,展...
华为问界M6曝光:新锐设计,璀... 2月3日,华为终端官方发布了鸿蒙智行问界M6汽车的宣传图。新车设计上采用了分体式前后大灯,配备半隐藏...
买买买!岭南花卉市场年宵花上市... 过年买年花,是老广的年俗之一。临近春节,位于广州市荔湾区的岭南花卉市场化身花的海洋,近日,为积极响应...