智能体推理新突破！DualPath框架提升吞吐量近2倍_知识学习

智能体推理新突破！DualPath框架提升吞吐量近2倍

创始人

2026-02-27 10:11:00

0次

近日，DeepSeek与北京大学、清华大学合作，在ArXiv上发表了一篇新论文，介绍了一个名为DualPath的智能体推理框架。该框架旨在解决长文本推理场景下的I/O瓶颈问题，通过优化KV-Cache的加载速度，确保计算资源不被存储读取拖累。DualPath改变了传统的存储至预填充引擎的单路径加载模式，引入了存储至解码引擎的第二条路径，利用解码引擎闲置的存储网卡带宽读取缓存，并配合高速计算网络RDMA将其传输至预填充引擎，实现了集群存储带宽的全局池化与动态负载均衡。

DualPath的核心洞见是KV-Cache的加载不必以预填充为中心，而是可以先加载到解码引擎中，再通过RDMA网络传输至预填充引擎。这种设计允许系统在两条路径间动态分配负载，释放了原本闲置的解码侧存储网卡带宽，构建起一个全局可调度的存储I/O资源池。在660B规模的生产级模型实测中，DualPath显著提高了离线推理吞吐量和在线服务吞吐量，同时优化了首字延迟和Token间生成速度。

DualPath的架构包括推理引擎、流量管理器和中央调度器，分别负责管理GPU、处理数据传输和实时决策请求路径。该框架通过自适应请求调度和严谨的流量隔离机制，在不增加硬件成本的前提下，大幅提升了智能体LLM推理系统的效率。

上一篇：硅谷Tensor携手Arm打造全球首款“脱眼”自动驾驶汽车，2026年上市

下一篇：保时捷K1放弃纯电版，2028年推燃油及插混大型SUV

智能体推理新突破！DualPath框架提升吞吐量近2倍

相关内容

热门资讯