近日,DeepSeek与北京大学、清华大学合作,在ArXiv上发表了一篇新论文,介绍了一个名为DualPath的智能体推理框架。该框架旨在解决长文本推理场景下的I/O瓶颈问题,通过优化KV-Cache的加载速度,确保计算资源不被存储读取拖累。DualPath改变了传统的存储至预填充引擎的单路径加载模式,引入了存储至解码引擎的第二条路径,利用解码引擎闲置的存储网卡带宽读取缓存,并配合高速计算网络RDMA将其传输至预填充引擎,实现了集群存储带宽的全局池化与动态负载均衡。
DualPath的核心洞见是KV-Cache的加载不必以预填充为中心,而是可以先加载到解码引擎中,再通过RDMA网络传输至预填充引擎。这种设计允许系统在两条路径间动态分配负载,释放了原本闲置的解码侧存储网卡带宽,构建起一个全局可调度的存储I/O资源池。在660B规模的生产级模型实测中,DualPath显著提高了离线推理吞吐量和在线服务吞吐量,同时优化了首字延迟和Token间生成速度。
DualPath的架构包括推理引擎、流量管理器和中央调度器,分别负责管理GPU、处理数据传输和实时决策请求路径。该框架通过自适应请求调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体LLM推理系统的效率。


