11月27日,DeepSeekMath-V2的发布标志着数学推理训练框架的一个重要进步。该框架专注于自我验证的数学推理,旨在解决仅追求正确答案率而忽视推理严谨性的问题。DeepSeekMath-V2通过构建基于LLM的验证器,自动审查生成的证明,并利用扩展的验证计算生成高难度训练样本,以此提升验证器的能力。
DeepSeekMath-V2在数学竞赛中的表现令人瞩目。它基于DeepSeek-V3.2-Exp-Base,不仅在2025年国际数学奥林匹克竞赛(IMO2025)和2024年中国数学奥林匹克竞赛(CMO2024)中达到了金牌水准,还在2024年普特南数学竞赛(Putnam2024)中取得了118/120的高分。这些成绩展示了DeepSeekMath-V2在数学推理领域的强大潜力。
尽管DeepSeekMath-V2仍有许多工作需要推进,但其当前成果已经证明了可自验证的数学推理是一个切实可行的研究路径。这一进展有望为构建更强大、更可靠的数学智能系统奠定基础。

