腾讯HPC-Ops开源!大模型推理性能突破,QPM提升30%
创始人
2026-02-04 19:51:14
0

今日,腾讯混元AIInfra团队宣布推出开源生产级高性能LLM推理核心算子库HPC-Ops。该算子库基于生产环境痛点,采用CUDA和CuTe从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了性能突破。

在真实场景下,基于HPC-Ops,混元模型推理QPM提升30%,DeepSeek模型QPM提升17%。同时,在单算子性能方面,HPC-Ops实现Attention相比FlashInfer/FlashAttention最高提升2.22倍;GroupGEMM相比DeepGEMM最高提升1.88倍;FusedMoE相比TensorRT-LLM最高提升1.49倍。未来,HPC-Ops将持续深耕大模型推理性能的突破方向,包括重点研发稀疏Attention算子,拓展更丰富的量化策略,以及布局计算-通信协同优化的内核,为超大规模大模型的高效部署提供底层支撑。

相关内容

热门资讯

特斯拉21万辆车因倒车影像延迟... 5月6日,美国国家公路交通安全管理局(NHTSA)宣布,特斯拉将在美国召回超过21万辆电动车,涉及2...
7年低息车贷全面下架,购车压力... 近日,新能源汽车市场出现了一项重大变化,7年超长低息车贷政策全面下架。此前,特斯拉、小米SU7、理想...
商汤科技挑战AI巨头:低成本高... 5月6日,商汤科技联合创始人兼首席科学家林达华透露,公司从DeepSeek获得启发,即便在资金和技术...
承载“广交天下”的国产无人机,... 文/图 羊城晚报全媒体记者 严锦程4月的广州,春潮涌动,珠江之畔的琶洲展馆人声鼎沸,第139届广交会...
以侨引商以侨促贸,助力经济高质... 羊城晚报讯 16日下午,由广东省侨办、广州市人民政府联合主办的“2026侨助广东经济高质量发展推进大...
以微光入眼以澄明观心 傅锡洪:... 文/羊城晚报全媒体记者 王倩图/羊城晚报全媒体记者 钟振彬 方浩四月的中山大学,草木葱茏。在陈寅恪故...
早筛早诊早治​“全链条”出击 ... 广州“肿瘤防治宣传周”系列活动启动,全市癌症总体5年生存率提升至49.57%羊城晚报全媒体记者 朱嘉...
广东强对流天气或迎“双休日” ... 羊城晚报讯 记者梁怿韬报道:广东多地在4月17日迎来强对流天气。截至17日17时,多地在白天时段录得...
消费新语|“首展”+“首秀”,... 监制:唐卫彬策划:陈发宝 姜 范统筹:潘笑天 李 劼记者:林语晋拍摄:甄子豪 李丹丹 张博雅 朱轶琳...
人民论坛网评 | 忙“事务”更... 习近平总书记强调,共产党人是唯物主义者,务实是必备品格,必须实事求是、求真务实、真抓实干。在日常工作...