Gemini3Pro刷新AI数学极限,38%准确率震撼数学界!
创始人
2025-11-24 00:00:55
0

近日,Gemini3Pro在EpochAI的FrontierMath基准测试中创下新纪录,Tier1-3准确率达38%,Tier4达19%,在Epoch能力指数(ECI)中获得154分,超越了GPT-5.1此前保持的151分的最高纪录。FrontierMath由EpochAI联合众多职业数学家打造,包含数百道原创、从未公开的难题,覆盖现代数学的主要分支,是衡量AI高阶数学推理能力的重要基准。

Gemini3Pro不仅在基准测试中表现出色,还在实战中证明了自己的实力。数学家陶哲轩近日发帖表示,他用GeminiDeepthink模式十分钟便解决了埃尔德什问题#367的关键证明。这一问题涉及将整数拆成积木,只留下能成对出现、能拼成平方的那一部分,探讨整数里“平方因子扎堆”的程度。陶哲轩将这一证明转化为更基础的版本,BorisAlexeev完成了证明的Lean形式化。

在登顶数学基准测试的同时,Gemini3Pro也在一项最新的物理基准测试CritPt中霸榜。CritPt由三十多家机构的五十余位活跃物理学者共同打造,涵盖现代物理的十一大分支,是首个专门面向“未公开、真研究级”物理问题的大模型基准。Gemini3Pro在CritPt测试中的成绩为9.1%,虽然与满分表现还有距离,但再次证明了其在前沿模型中的领先地位。

相关内容

热门资讯

以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
闻泰科技呼吁安世荷兰尊重事实法... 11月23日,闻泰科技就安世控制权问题发表声明。声明中指出,自从荷兰经济部不当干预后,闻泰科技在维护...
总台现场直击丨美乌首轮会谈结束... 当地时间23日,美国、乌克兰以及欧洲国家的代表团在瑞士日内瓦举行会谈,讨论美方就结束俄乌冲突提出的“...
只需5分钟 广佛核心区通行效率... ■该项目“主动降噪”,将一条交通干线打造成守护社区宁静的“绿色通道”。广佛出口放射线二期工程B线高架...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
AI时代来临,人类专业知识贬值... 11月24日,麻省理工学院经济学家大卫·奥托在接受德国《明镜》周刊采访时提出,人工智能(AI)对社会...
AI聊天机器人被控引发自杀:C... 近日,一起涉及人工智能的自杀事件引起了公众关注。受害人Zane Shamblin于今年7月自杀,而在...
小米汽车辟谣“8死车祸”:纯属... 11月24日,小米汽车副总裁李肖爽对外澄清,有关“小乔地铁站附近车祸致8人死亡”的网传信息与小米汽车...
云南一山上惊现百米“垃圾池”!... 11月23日,云南昭通市生态环境局彝良分局通报,11月22日,有抖音博主在社交平台反映“彝良县大山深...
男子有4家店和百万存款,觉得生... 据报道,北京一老板开四家内衣店,有上百万存款,家庭美满,却因为觉得生活没意思,为寻刺激赌博,被抓时痛...