智能体推理新突破!DualPath框架提升吞吐量近2倍
创始人
2026-02-27 10:11:00
0

近日,DeepSeek与北京大学、清华大学合作,在ArXiv上发表了一篇新论文,介绍了一个名为DualPath的智能体推理框架。该框架旨在解决长文本推理场景下的I/O瓶颈问题,通过优化KV-Cache的加载速度,确保计算资源不被存储读取拖累。DualPath改变了传统的存储至预填充引擎的单路径加载模式,引入了存储至解码引擎的第二条路径,利用解码引擎闲置的存储网卡带宽读取缓存,并配合高速计算网络RDMA将其传输至预填充引擎,实现了集群存储带宽的全局池化与动态负载均衡。

DualPath的核心洞见是KV-Cache的加载不必以预填充为中心,而是可以先加载到解码引擎中,再通过RDMA网络传输至预填充引擎。这种设计允许系统在两条路径间动态分配负载,释放了原本闲置的解码侧存储网卡带宽,构建起一个全局可调度的存储I/O资源池。在660B规模的生产级模型实测中,DualPath显著提高了离线推理吞吐量和在线服务吞吐量,同时优化了首字延迟和Token间生成速度。

DualPath的架构包括推理引擎、流量管理器和中央调度器,分别负责管理GPU、处理数据传输和实时决策请求路径。该框架通过自适应请求调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体LLM推理系统的效率。

相关内容

热门资讯

英伟达200亿美元收购Groq... 2月26日,英伟达CEO黄仁勋在2026财年第4财季财报会议上透露了收购Groq后的核心整合计划。黄...
视频丨57.52亿元!2026... 2026年春节档已正式收官,据国家电影局统计,2026年春节档票房为57.52亿元,平均票价同比降低...
2026年全国两会新闻中心启用 新华社北京2月27日电(记者于佳欣、邵艺博)在2026年全国两会即将召开之际,设在北京梅地亚中心的全...
党建评:以正确政绩观引领新春实... 春节后首个工作日,十余个省份召开“新春第一会”,虽主题各有侧重,但字里行间传递着同一个信号:以实干开...
【2026新春走基层】“五口顶... 农历正月初八,广东省高质量发展大会如期召开,奏响南粤大地高质量发展的时代强音,也让万千来粤务工者的奋...
停摆近三十年,广州赛马运动再开... 停摆近三十年后,广州计划在今年重启赛马运动。记者从香港赛马会方面获悉,位于广州的从化马场将于2026...
Stellantis年度亏损2... 近日,全球第四大汽车集团Stellantis公布了2025年全年财务业绩,显示集团首次年度亏损,净亏...
领克03大尾翼版3月5日上市,... 今日,领克汽车销售有限公司副总经理穆军宣布,第三代领克03大尾翼版将于3月5日上市。新车将搭载2.0...