华为昇腾助力南京大学团队突破MoE模型显存优化,推理速度翻倍
创始人
2026-02-04 20:21:14
0

今日,华为计算宣布南京大学李猛博士团队在MoE(混合专家)稀疏架构领域取得重大进展。该团队基于华为昇腾算力支持,开展专家等价性驱动的MoE无损显存高效优化研究,成功实现显存消耗降低50%以上,推理延迟显著提升。

项目聚焦MoE模型部署的核心痛点,通过四项核心技术构建异构推理混合部署框架,实现全链路效率提升。首先,团队创新设计三级流水线并行架构,大幅减轻数据传输压力。其次,基于专家等价性将专家划分为三类,优先缓存核心专家,显著减少冗余传输与显存占用。第三,首创共享专家引导的在线预取机制,无需离线训练即可精准预测后续所需专家。最后,设计双指针动态负载均衡算法,充分发挥异构计算优势。

依托昇腾的硬件特性与CANN软件栈,团队研发异构推理加速引擎MoE-Ascend,涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块,实现昇腾平台的深度适配与优化。该引擎可支持昇腾等多硬件环境,在保持模型精度无损的前提下,将显存消耗降至原方案的一半,推理速度提升2倍以上,提升显存缓存命中率到70%以上。

相关内容

热门资讯

上海AI实验室发布全球最大开源... 今日,上海AI实验室宣布开源了基于“通专融合”技术架构SAGE打造的万亿参数科学多模态大模型Inte...
小米汽车OTA更新:CNOA门... 2月4日,小米汽车宣布推出Xiaomi HyperOS 1.12.0版本OTA更新,此次更新显著降低...
李开复预言:2026年AI智能... 2月4日,零一万物CEO、创新工场董事长李开复在《中关村对话·AI迎春夜》节目中分享了他对AI未来趋...
“天仪空间科技启动IPO:从科... 2月3日,证监会公示系统显示,商业卫星公司天仪空间科技股份有限公司(原“天仪研究院”)已启动IPO辅...
AI新突破!面壁智能开源全模态... 今日(2月4日),面壁智能宣布开源新一代全模态旗舰模型MiniCPM-o4.5。这款模型以其“边看、...
小米汽车OTA升级:辅助驾驶优... 2月4日,小米汽车官方宣布,小米SU7、小米SU7Ultra、小米YU7的最新OTA1.12.0版本...
多省份将有大到暴雪、大暴雪!春... 2月4日是中国传统二十四节气中的第一个节气——立春,全国大多地区气温继续升高,江南大部温暖如春。但自...
让违法驾驶人当“志愿者”参与劝... 为营造干净、整洁、有序的城区道路交通环境,持续加强道路交通秩序综合治理,2月4日,广州市荔湾区在中山...
珠江红船母港迁移至广州塔码头 2月3日,“十载红船传粤韵,百年船说再启航”珠江红船运营十周年暨母港迁移活动在红船上举行。活动回顾了...
外交部回应日本首相扬言将自卫队... 新华社北京2月4日电(记者温馨、朱超)日本首相高市早苗近日在演讲时声称有意将自卫队写入宪法。对此,外...