蚂蚁集团联手清华打造AReaL,强化学习训练效率提升2.77倍!
创始人
2026-03-04 12:20:59
0

3月4日,蚂蚁集团与清华大学合作发布了开源强化学习训练框架AReaL v1.0稳定版。该框架是一种大规模异步强化学习系统,旨在通过解耦生成与训练流程,提升大语言模型尤其是推理模型的训练效率。随着大语言模型向大推理模型演进,强化学习成为提升模型逻辑推理能力的关键技术。然而,现有RL训练系统主流采用同步机制,导致大量GPU算力闲置,制约了训练效率。AReaL系统通过完全异步的RL训练架构,彻底解耦模型的生成与训练过程,消除了同步等待时间,显著提升了硬件资源利用率。

AReaL系统面临异步带来的数据“陈旧度”挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。同时,研究团队提出了解耦PPO目标函数,并支持“可中断生成”技术,允许模型在生成过程中无缝更新权重。实验结果表明,在数学和代码推理基准测试中,使用相同数量的GPU,AReaL相比最先进的同步系统,训练速度最高提升2.77倍,且模型的解题能力在部分任务上有所提升。

相关内容

热门资讯

奥迪E7X纯电SUV亮相北京车... 2026年4月24日,奥迪与上汽合作的豪华新能源汽车品牌AUDI在2026北京车展上发布了其首款纯电...
吉利银河A7EM/A7EV双车... 今日,吉利汽车发布了2026款银河A7EM/A7EV双车系列,标志着品牌在新能源汽车领域的进一步拓展...
比亚迪2026款夏露营改装版亮... 今日,2026北京车展上,比亚迪王朝网旗下中大型旗舰MPV——2026款夏带来重磅惊喜,官方定制露营...
DeepSeek-V4模型震撼... 4月24日,DeepSeek公司宣布推出其新一代基础模型DeepSeek-V4,该模型已在官网、官方...
比亚迪大唐EV预售开启,950... 4月24日,比亚迪王朝网旗下全新全尺寸旗舰SUV大唐EV正式开启预售,预售价25万元至32万元。新车...
华为问界M6上市15分钟订单破... 4月22日,华为常务董事余承东宣布,搭载鸿蒙智行系统的问界M6汽车上市15分钟内,大定订单已突破10...
千里科技发布AI战略,2027... 4月22日,千里科技在北京举办了AI战略暨产品发布会,宣布了其“AI+车”战略的最新成果,并探讨了A...
越南青年来华“红色研学之旅”广... 文、图/羊城晚报全媒体记者 张小悦 通讯员 岳青4月11日至13日,由共青团中央主办,中央团校、共青...
广州南沙:智能育秧显优势,稻苗... 清风催新绿,春耕正当时。当许多地方仍在沿用传统手工育秧方式时,广州南沙多家育秧中心已率先引入智能化生...
把植物新品种繁殖换个名销售,法... 故事梗概2023 年4月,A公司发现B某、C公司及D公司(法人代表B某)大量对外销售、宣传销售被诉侵...