近日,清华大学TSAIL实验室与生数科技合作推出了一款名为TurboDiffusion的开源视频生成加速框架。该框架在保持视频质量的同时,实现了端到端扩散生成推理速度的显著提升,速度提升高达100至200倍。
技术层面上,TurboDiffusion采用了SageAttention和SLA(稀疏线性注意力机制)来加速注意力计算,有效降低了处理高分辨率视频时的算力需求。此外,团队还引入了rCM(时间步蒸馏)技术,减少了扩散模型的采样步数。这些技术的结合使得模型在保持生成效果一致性的同时,大幅减少了计算延迟。GitHub页面公布的实测数据显示,在单张RTX5090显卡上测试Wan-2.1-T2V-1.3B-480P模型时,TurboDiffusion将生成5秒视频的时间从184秒缩短至1.9秒,对于参数量更大的Wan-2.2-I2V-A14B-720P模型,耗时从4549秒压缩至38秒。
TurboDiffusion还提供了多种规格的模型权重下载,并针对不同硬件进行了优化。对于显存有限的消费级显卡如RTX5090、RTX4090,团队提供了量化版(Quantized)权重,并建议开启线性层量化功能;而对于拥有80GB以上显存的工业级显卡如H100,则推荐使用非量化版本以获得最佳效果。


