3月16日,PenguinSolutions宣布推出业界首款采用CXL技术的量产型KVCache服务器。这款服务器综合了3TB的DDR5系统主内存和8个1TB的CXL内存AIC模块,为AI推理负载提供合计11TB的海量内存空间。PenguinSolutions指出,AI推理工作负载中,30%依赖于算力,而70%依赖于内存,这一比例与模型训练/调优有显著不同。此外,延迟表现对推理场景的用户使用体验影响重大。
MemoryAIKVCache服务器旨在为AI推理系统提供更低的延迟、更短的首Token响应时间、更高的吞吐量以及更高的XPU集群利用效率。这些特性使得服务器能够持续满足严苛的服务水平一致性要求,特别适合实时金融分析、海量数据集RAG、监管合规性分析等需求大窗口和低延迟的企业级任务。
