美团开源5677亿参数大模型,刷新数学证明问题SOTA记录!
创始人
2026-03-21 15:48:26
0

美团近日开源了名为LongCat-Flash-Prover的大模型,该模型拥有5677亿参数,并采用MoE(混合专家模型)形态,专注于解决复杂的数学证明问题。模型引入了混合专家迭代框架,用于生成大规模、高质量的形式化推理轨迹,并通过整合Lean4、基于AST的多阶段严格验证流程,以消除“幻觉”现象。

在训练过程中,LongCat-Flash-Prover模型利用混合专家迭代框架生成冷启动数据,并在强化学习阶段引入HisPO算法,以稳定MoE模型的长程任务训练。此外,模型还加入了定理一致性和合法性检测机制,以防止RewardHacking(奖励黑客行为)。基准测试显示,该模型在MiniF2F-Test上取得了97.1%的成绩,仅需72次推理尝试;在PutnamBench任务上解决了41.5%的问题,使用118次推理尝试,均刷新了SOTA水平。

相关内容

热门资讯

马斯克xAI上门服务抢客户,S... 3月21日,马斯克旗下的xAI公司为争夺企业客户,采取了将工程师直接派驻到客户办公室的策略,以推动产...
小米MiMo-V2系列大模型发... 3月21日,小米公司宣布推出MiMo-V2-Pro、MiMo-V2-Omni和MiMo-V2-TTS...
MiniMax M2.7模型爆... 3月20日,MiniMax开放平台发布“MiniMaxM2.7服务调整公告”,宣布由于MiniMax...
吉利银河星耀8远航家预售开启,... 3月21日,吉利汽车旗下银河星耀8远航家正式开启预售,新车以“豪华平权起步即旗舰”为口号,预售价格区...
鸿蒙智行尚界Z7T亮相:华为技... 今日,鸿蒙智行发布了尚界Z7和Z7T两款新能源汽车的10款颜色官图,并提供了多款轮毂选择。尚界Z7T...
“8大企业入驻国家人工智能中试... 3月20日,国家人工智能应用中试基地2026年联盟工作会议暨首期生态活动在广州成功举办。南网数字集团...
比亚迪腾势Z超跑征名,网友定义... 3月21日,比亚迪腾势汽车总经理李慧在微博宣布启动腾势Z超跑的有奖征名活动,将命名权交给网友。李慧提...
商场内现不雅标语“你已进入艳遇... 3月19日,媒体报道河南项城知名商场——德银百货内出现不雅标语,并自称“艳遇高发地”,引发热议一事。...
昆明异宠咖啡店:“神奇动物”引... 近年来,以宠物+咖啡为特色,主打体验的模式在国内兴起。昆明一家咖啡店别出心裁,引入猪鼻蛇、守宫、鬃狮...
2026年“广州职工公益林”义... 3月20日,“绿美广州‘工’同行 携手奋进‘十五五’”2026年“广州职工公益林”义务植树志愿服务活...