Gemini3Pro刷新AI数学极限,38%准确率震撼数学界!
创始人
2025-11-24 00:00:55
0

近日,Gemini3Pro在EpochAI的FrontierMath基准测试中创下新纪录,Tier1-3准确率达38%,Tier4达19%,在Epoch能力指数(ECI)中获得154分,超越了GPT-5.1此前保持的151分的最高纪录。FrontierMath由EpochAI联合众多职业数学家打造,包含数百道原创、从未公开的难题,覆盖现代数学的主要分支,是衡量AI高阶数学推理能力的重要基准。

Gemini3Pro不仅在基准测试中表现出色,还在实战中证明了自己的实力。数学家陶哲轩近日发帖表示,他用GeminiDeepthink模式十分钟便解决了埃尔德什问题#367的关键证明。这一问题涉及将整数拆成积木,只留下能成对出现、能拼成平方的那一部分,探讨整数里“平方因子扎堆”的程度。陶哲轩将这一证明转化为更基础的版本,BorisAlexeev完成了证明的Lean形式化。

在登顶数学基准测试的同时,Gemini3Pro也在一项最新的物理基准测试CritPt中霸榜。CritPt由三十多家机构的五十余位活跃物理学者共同打造,涵盖现代物理的十一大分支,是首个专门面向“未公开、真研究级”物理问题的大模型基准。Gemini3Pro在CritPt测试中的成绩为9.1%,虽然与满分表现还有距离,但再次证明了其在前沿模型中的领先地位。

相关内容

热门资讯

奇瑞路虎神行者8亮相:豪华科技... 5月11日,奇瑞路虎FREELANDER神行者品牌宣布,其首款车型“神行者8”已在工信部现身,预计下...
广州16岁男生穿着人字拖边走路... 近日,广东广州一位16岁男生脚穿人字拖鞋,边走路边低头看手机,丝毫没注意路况,结果他的右脚不小心撞上...
余华称不反感“老登”一词:“我... 近日,余华在浙江杭州接受记者采访时谈到“老登”这一词,余华称自己并不讨厌:我这个年纪已经是“上古神登...
吉利星瑞TCR赛车意大利站夺冠... 今日,吉利汽车运动宣布,中国车手马青骅驾驶吉利星瑞TCR赛车在2026FIATCR世界巡回赛意大利站...
演员张静初,面临47人集体起诉 近日,多位在演员张静初直播间购买过“优思益”产品的网友表示,目前仍未拿到退款,陷入退货无门的境地。5...
保利海韵首开认购约18.2亿元... 在“穗八条”新政与传统营销旺季的双重推动下,2026年“五一”黄金周广州楼市交出超预期答卷。小长假后...
高端访谈|中国式现代化为世界提... 新华社贝尔格莱德5月10日电 高端访谈|中国式现代化为世界提供了新的发展模式——访黑山副总理阿莱克西...
新疆旅游新动向丨从“凑人气”到... 石榴云/新疆日报记者 姚刚美团《2026“五一”消费洞察报告》显示,全国县域旅游热度榜Top10中,...
男子因“帮忙”刷脸认证,竟卷入... 5月10日,韶关市中级人民法院公布了这样一起案件:马某“帮人”在游戏里刷脸认证以绑定微信,导致他人游...