蚂蚁集团联手清华打造AReaL,强化学习训练效率提升2.77倍!
创始人
2026-03-04 12:20:59
0

3月4日,蚂蚁集团与清华大学合作发布了开源强化学习训练框架AReaL v1.0稳定版。该框架是一种大规模异步强化学习系统,旨在通过解耦生成与训练流程,提升大语言模型尤其是推理模型的训练效率。随着大语言模型向大推理模型演进,强化学习成为提升模型逻辑推理能力的关键技术。然而,现有RL训练系统主流采用同步机制,导致大量GPU算力闲置,制约了训练效率。AReaL系统通过完全异步的RL训练架构,彻底解耦模型的生成与训练过程,消除了同步等待时间,显著提升了硬件资源利用率。

AReaL系统面临异步带来的数据“陈旧度”挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。同时,研究团队提出了解耦PPO目标函数,并支持“可中断生成”技术,允许模型在生成过程中无缝更新权重。实验结果表明,在数学和代码推理基准测试中,使用相同数量的GPU,AReaL相比最先进的同步系统,训练速度最高提升2.77倍,且模型的解题能力在部分任务上有所提升。

相关内容

热门资讯

比亚迪夏2026款开年钜惠:首... 比亚迪2026款夏推出购车福利,2月28日至3月31日期间购车可享受7年低息、3年0息等金融政策。首...
沃尔沃XC70豪华SUV新福利... 3月4日,沃尔沃汽车宣布为全新XC70提供多重购车福利。2025年9月上市的全新XC70定位豪华中大...
比亚迪宋UltraEV预售开启... 3月4日,比亚迪汽车宣布,其王朝系列首款B级纯电SUV宋UltraEV将于3月5日开启预售。这款新车...
中国农业科技创新动能更足、前景... 农业现代化,关键是农业科技现代化。通过到中国参观访问、参与中外农业技术合作等,许多国际人士对中国重视...
战争进入第5天,美以称已发动超... 截至当地时间3月4日,美国和以色列对伊朗发动的军事打击行动已进入第5天。美国军方3日表示,自2月28...
大众EA211增程器下线,ID... 近日,上汽大众宣布其第一台EA211黄金增程器正式下线,并计划将该技术率先应用于ID.ERA9X车型...
AI爆发增长!华为预测中国日流... 3月3日,在巴塞罗那举行的2026年世界移动通信大会(MWC2026)期间,华为ICT BG CEO...
蚂蚁集团联手清华打造AReaL... 3月4日,蚂蚁集团与清华大学合作发布了开源强化学习训练框架AReaL v1.0稳定版。该框架是一种大...
奥迪ConceptC电动跑车两... 近日,奥迪CEO格诺特·德尔纳确认,奥迪Concept C电动跑车将在两年内上市。这款双座电动跑车在...
何小鹏两会提三大议题:自动驾驶... 3月4日,小鹏汽车董事长何小鹏在全国两会上提出了三条建议。首先,他建议加快自动驾驶技术的发展,从L2...