1月26日,AMD宣布推出ROCm开源软件堆栈的7.2.0版本,该版本带来了对多款新硬件的正式支持,并针对Instinct MI350系列与MI300X显卡加速器的AI性能进行了优化。ROCm 7.2.0版本新增了对AMD Radeon AI PRO R9600D、Radeon RX 9060 XTLP、Radeon RX 7700三款独立显卡以及锐龙AI 400系列处理器的支持。
在性能优化方面,ROCm 7.2.0版本在Instinct MI355X上显著提升了MetaLlama3.1405B模型的推理表现,通过内核级调优和内存带宽提升实现了吞吐量提升和延迟降低。此外,还优化了Llama370B和Llama270B在MI355X、MI350X上的性能,以及在MI300X上优化了智谱GLM-4.6的GEMM算子性能和DeepSeek的DeepEP开源通信库表现。
ROCm 7.2.0版本还包括一系列其他改进,如提升HIP运行时性能、新增对多GPU节点的节点电源管理等。这些更新旨在提高软件的性能和稳定性,为用户提供更好的AI和高性能计算体验。
