近日,Gemini3Pro在EpochAI的FrontierMath基准测试中创下新纪录,Tier1-3准确率达38%,Tier4达19%,在Epoch能力指数(ECI)中获得154分,超越了GPT-5.1此前保持的151分的最高纪录。FrontierMath由EpochAI联合众多职业数学家打造,包含数百道原创、从未公开的难题,覆盖现代数学的主要分支,是衡量AI高阶数学推理能力的重要基准。
Gemini3Pro不仅在基准测试中表现出色,还在实战中证明了自己的实力。数学家陶哲轩近日发帖表示,他用GeminiDeepthink模式十分钟便解决了埃尔德什问题#367的关键证明。这一问题涉及将整数拆成积木,只留下能成对出现、能拼成平方的那一部分,探讨整数里“平方因子扎堆”的程度。陶哲轩将这一证明转化为更基础的版本,BorisAlexeev完成了证明的Lean形式化。
在登顶数学基准测试的同时,Gemini3Pro也在一项最新的物理基准测试CritPt中霸榜。CritPt由三十多家机构的五十余位活跃物理学者共同打造,涵盖现代物理的十一大分支,是首个专门面向“未公开、真研究级”物理问题的大模型基准。Gemini3Pro在CritPt测试中的成绩为9.1%,虽然与满分表现还有距离,但再次证明了其在前沿模型中的领先地位。


