微软Copilot升级GPT5.2:70.9%任务超越人类专家
创始人
2025-12-30 09:38:46
0

12月29日,微软宣布向网页版、Windows 11版和移动端的Copilot用户全量推送GPT-5.2模型,并命名为“智能+”(SmartPlus)模式。此次更新作为免费升级,与上月发布的基于GPT-5.1的“智能”(Smart)模式共存。GPT-5.2的“Thinking(思考)”变体被定义为显著增强处理复杂任务的能力,支持用户快速完成电子表格构建、演示文稿制作、代码编写与审查、长文档理解及图像处理等办公任务,被官方定义为“专家级”工具。

在针对44种职业的“知识型工作”任务评估(GDPval)中,GPT-5.2Thinking在70.9%的测试案例中击败或持平了人类行业专家,而GPT-5仅为38.8%。GPT-5.2在多项权威基准测试中展现了统治级的技术实力,如在软件工程测试SWE-BenchPro中得分55.6%,在SWE-benchVerified中达到80%,均优于GPT-5.1Thinking。此外,GPT-5.2在AIME2025中取得100%满分,在GPQADiamond测试中得分92.4%,在CharXiv推理(含Python)测试中得分88.7%,并在ARC-AGI测试中实现了大幅分数增长。

相关内容

热门资讯

“电动汽车电池革命:科学家破解... 12月30日,美国阿贡国家实验室与芝加哥大学普利兹克分子工程学院的研究人员宣布,他们解开了高镍锂离子...
法拉第未来更名聚焦AI,202... 12月30日,法拉第未来宣布将于2026年2月13日召开特别股东大会,并呼吁股东对所有提案投赞成票。...
中国汽车销量2025年有望超日... 12月30日,中国汽车制造商在全球新车销量榜上有望实现历史性突破。预计到2025年,中国汽车全球销量...
智界汽车打造潮流地标,2026... 12月25日至28日,智界汽车在上海西岸梦中心市集广场举办了“2026智愿填报大会”,这是一场为期四...
小鹏G7超级增程来袭:430公... 12月30日,小鹏汽车对外发布了G7超级增程的详细信息。这款新车以其430公里的纯电续航里程和170...
广州越秀:擦亮老城文化名片,赋... 日前,全国文化人才工作座谈会暨全国宣传系统先进集体和先进个人表彰大会在北京举行,广州市越秀区委宣传部...
12月31日,羊城晚报原创理论... 一只“摔不碎”的碗,背后藏着什么秘密?羊城晚报联合华南师范大学马克思主义学院、暨南大学马克思主义学院...
特斯拉2025年交付量或连续两... 今日,特斯拉通过其投资者关系网站发布了一则不同寻常的新闻稿,公开了2025年第四季度的交付量市场共识...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
中国车企2025年有望全球销量... 12月30日,据日本经济新闻报道,中国汽车制造商有望在2025年首次登上全球新车销量榜首,终结日本车...