2月12日,SK海力士在其发布的论文中介绍了一种新的H3混合存储架构,该架构结合了HBM高带宽内存和HBF高带宽闪存,旨在发挥两者的优势并避免各自的不足。H3架构将HBF作为HBM的二级扩展,其中HBF负责存储只读数据,而HBM则处理其他数据。
在H3架构的具体结构上,GPU与HBM的BaseDie通过中介层互联,HBMBaseDie内置了HBM控制器和与HBF系统配套的“延迟隐藏缓冲”。HBMBaseDie再通过中介层与HBFBaseDie连接,后者包含HBF堆栈的控制器。这种设计使得H3能够存储大量只读数据,特别适合用于LLM推理工作负载环境,尤其是那些采用共享预计算键值缓存的用例。
仿真测试结果显示,与仅使用HBM的传统系统相比,配备H3的GPU在单位功耗的吞吐量上提高了2.69倍,这表明H3架构在处理具有海量只读数据的LLM推理方面具有显著的成本效益。
