今日,华为数据存储与中科弘云联合发布了AI推理加速解决方案,旨在优化长序列推理体验。该方案以华为OceanStorA系列存储为基础,结合中科弘云HyperCN平台,通过深度融合华为UCM推理记忆数据管理技术及HyperCN平台能力,实现了智能算力的高效输送至业务一线。方案具备异构管理、算力调度、推理加速等核心优势,支持多元AI算力和主流框架,实现资源利用率最大化,并显著降低首Token时延,提升长序列推理吞吐与体验。
具体而言,该方案通过KVCache多级缓存管理、秒级算力调度、分钟级推理大模型部署及全流程AI工具链,覆盖数据管理标注、算法开发、大小模型训练推理、智能体开发等全流程,支持传统机器学习与深度学习开发,实现AI资产的统一建设与集中管理。在智能问答的典型推理场景中,首Token时延降低57.5%,长文档推理场景中,结合GSA稀疏加速算法,当序列长度为39K时,并发能力提升86%,推理吞吐提升36%。
目前,该联合方案已在能源电力、智能制造、国家实验室等关键行业启动试点应用,展现了其在实际业务中的高效性和实用性。
