今日,蚂蚁集团宣布开源万亿参数强化学习高性能权重交换框架Awex。该框架专为极致性能打造,旨在解决强化学习(RL)流程中训练权重参数同步到推理模型的核心难题。Awex能够在秒级完成TB级大规模参数交换,显著降低RL模型训练延迟,具备极速同步性能、统一模型适配层、零冗余Resharding传输与原地更新、多模式传输支持、异构部署兼容以及灵活可插拔架构等特点。
Awex框架由三个主要组件构成:WeightWriter、WeightReader和MetaServer。WeightWriter负责训练进程中的权重Shard元数据收集、权重转换和发送;WeightReader在推理实例的控制进程上运行,负责权重Shard的元数据收集、权重转换和接受;MetaServer作为全局Server,负责训推引擎的服务发现和权重元数据交换。框架的核心功能模块包括训推权重统一转换、全局权重元数据计算与交换、P2P权重传输执行计划、NCCL权重传输和RDMA权重传输等。
在千卡规模的集群上,Awex使用NCCL传输数据能在一秒内完成10B规模的模型权重交换,使用RDMA传输时,1T模型权重交换耗时可缩短至六秒。未来,蚂蚁集团计划开源ASystem的其他核心RL组件,进一步完善开源强化学习训练生态。目前,Awex开源版已支持Megatron和SGLang引擎。

