美团近日开源了名为LongCat-Flash-Prover的大模型,该模型拥有5677亿参数,并采用MoE(混合专家模型)形态,专注于解决复杂的数学证明问题。模型引入了混合专家迭代框架,用于生成大规模、高质量的形式化推理轨迹,并通过整合Lean4、基于AST的多阶段严格验证流程,以消除“幻觉”现象。
在训练过程中,LongCat-Flash-Prover模型利用混合专家迭代框架生成冷启动数据,并在强化学习阶段引入HisPO算法,以稳定MoE模型的长程任务训练。此外,模型还加入了定理一致性和合法性检测机制,以防止RewardHacking(奖励黑客行为)。基准测试显示,该模型在MiniF2F-Test上取得了97.1%的成绩,仅需72次推理尝试;在PutnamBench任务上解决了41.5%的问题,使用118次推理尝试,均刷新了SOTA水平。
