今日,腾讯混元AIInfra团队宣布推出开源生产级高性能LLM推理核心算子库HPC-Ops。该算子库基于生产环境痛点,采用CUDA和CuTe从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了性能突破。
在真实场景下,基于HPC-Ops,混元模型推理QPM提升30%,DeepSeek模型QPM提升17%。同时,在单算子性能方面,HPC-Ops实现Attention相比FlashInfer/FlashAttention最高提升2.22倍;GroupGEMM相比DeepGEMM最高提升1.88倍;FusedMoE相比TensorRT-LLM最高提升1.49倍。未来,HPC-Ops将持续深耕大模型推理性能的突破方向,包括重点研发稀疏Attention算子,拓展更丰富的量化策略,以及布局计算-通信协同优化的内核,为超大规模大模型的高效部署提供底层支撑。
