微软Copilot升级GPT5.2:70.9%任务超越人类专家
创始人
2025-12-30 09:38:46
0

12月29日,微软宣布向网页版、Windows 11版和移动端的Copilot用户全量推送GPT-5.2模型,并命名为“智能+”(SmartPlus)模式。此次更新作为免费升级,与上月发布的基于GPT-5.1的“智能”(Smart)模式共存。GPT-5.2的“Thinking(思考)”变体被定义为显著增强处理复杂任务的能力,支持用户快速完成电子表格构建、演示文稿制作、代码编写与审查、长文档理解及图像处理等办公任务,被官方定义为“专家级”工具。

在针对44种职业的“知识型工作”任务评估(GDPval)中,GPT-5.2Thinking在70.9%的测试案例中击败或持平了人类行业专家,而GPT-5仅为38.8%。GPT-5.2在多项权威基准测试中展现了统治级的技术实力,如在软件工程测试SWE-BenchPro中得分55.6%,在SWE-benchVerified中达到80%,均优于GPT-5.1Thinking。此外,GPT-5.2在AIME2025中取得100%满分,在GPQADiamond测试中得分92.4%,在CharXiv推理(含Python)测试中得分88.7%,并在ARC-AGI测试中实现了大幅分数增长。

相关内容

热门资讯

旅游收入近300亿元 广东:“... 4706.9万人次5月1日至5月5日,广东省接待游客4706.9万人次,同比增长2.1%;实现旅游收...
华润燃气控股有限公司原副总裁李... 5月7日,据中央纪委国家监委驻华润集团纪检监察组、广东省纪委监委消息:华润燃气控股有限公司原党委委员...
深圳一居民区现三四斤重剧毒眼镜... 近日,广东深圳,在龙岗区吉华街道秀峰二街一个包子铺,店主邱先生发现一条眼镜蛇在后厨准备偷吃鸡蛋。自己...
安全经不起“没绑紧”的玩笑|街... 近日,一名女游客在四川华蓥玛琉岩探险公园体验瀑布秋千项目时受伤,送医途中死亡。现场视频显示,游客被推...
AI记账软件怼用户给父亲买的衣... 近日,有用户发帖反映,其使用飞鸭AI记账App时,告知记账AI自己为父亲购买159元衣服,AI竟不当...
以高质量发展实效检验学习教育成... 4月28日召开的中共中央政治局会议提出:“要深入开展树立和践行正确政绩观学习教育,把学习教育的成效转...
税收数据显示:“五一”假期中国... 中新社北京5月6日电 (记者 赵建华)中国国家税务总局6日公布的增值税发票数据显示,“五一”假期中国...
【光明论坛】让乡村文化生活火起... 作者:王维国(南开大学·中国社会科学院大学21世纪马克思主义研究院研究员)近日,国务院新闻办公室举行...
焦点访谈丨穿越周期 向上生长!... 5月5日,第139届中国进出口商品交易会,也就是广交会落下帷幕。作为中国外贸的“风向标”和“晴雨表”...