12月2日,科技媒体Tom'sHardware报道了英伟达最新论文中介绍的TiDAR新型AI解码方法。TiDAR结合了自回归和扩散模型机制,通过利用GPU的“空闲槽位”加速文本生成。自回归模型按顺序生成文本,而扩散模型则一次性生成多个可能的词。TiDAR的核心在于在不牺牲质量的前提下,通过单步生成多个Token来提升响应速度并降低GPU运行时长。
TiDAR技术原理上创新性地训练单个Transformer模型同时执行自回归“下一词预测”和基于扩散的“并行起草”。它通过结构化的注意力掩码将输入分为三个区域:前缀区、验证区和起草区。这种设计让模型在利用扩散头并行起草新Token的同时,还能通过自回归头验证这些草稿,确保了KV缓存的结构有效性。
研究团队基于Qwen系列模型进行了测试。在HumanEval和GSM8K等基准测试中,TiDAR的准确率与基准模型持平甚至略有提升。在速度方面,15亿参数版本的TiDAR模型实现了4.71倍的吞吐量增长;而80亿参数版本的表现更为抢眼,吞吐量达到了Qwen3-8B基准的5.91倍。这表明TiDAR能有效利用GPU的显存带宽,在不增加额外显存搬运的情况下生成更多Token。尽管实验数据亮眼,TiDAR目前仍面临规模扩展的挑战,未来将在更大规模的模型上进行验证。

