OpenAI GPT-5.2疑似“作弊”?AI评测真实性引发热议
创始人
2025-12-13 17:44:10
0

近日,AI社区对OpenAI最新发布的GPT-5.2模型的基准测试结果提出质疑。用户发现,在关键评测中,GPT-5.2可能使用了远超对手Gemini3.0Pro的算力资源,通过调整模型的“推理力度”参数。具体来说,在ARCAGI2测试中,GPT-5.2xhigh版每个任务消耗约13.5万个token,而Gemini3.0Pro仅使用了6.7万token,取得相似成绩。如果将算力投入标准化,两个模型的真实能力几乎并驾齐驱。

此外,GPT-5.2在其他测试中的表现并不如预期。在HLE、MMMU-Pro、Video-MMMU和FrontierMathTier4中,即使使用了超过Gemini3两倍的token数,GPT-5.2的表现仍然不佳。在GPQA上,两者基本相当。唯一例外的是GDPVal测试集,由OpenAI自己创建,结果的客观性有待考量。

这一发现引发了网友热议,有人认为如果用户得到的“推理力度”参数和token数与测评时不同,那么OpenAI就涉嫌虚假营销。也有人认为,即使增加Gemini3的token数量,它也未必能赶超GPT-5.2。同时,有用户反映GPT-5.2的实际体验并不理想,如在检查代码时出现严重幻觉现象,无法理解函数代码等。这表明GPT-5.2的实际体验与基准测试结果存在较大差距。

相关内容

热门资讯

以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
玛莎拉蒂纯电SUV狂降54万!... 12月16日,玛莎拉蒂Grecale(格雷嘉新能源)在中国市场的售价引发热议。该款纯电SUV的指导价...
(文化中国行)新疆“90后”文... 中新社新疆吉木萨尔12月15日电 题:新疆“90后”文物修复师:让北庭故城千年遗存获新生作者 苟继鹏...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
大众ID.Polo纯电小车20... 今日,大众汽车公司宣布了全新纯电动小车ID.Polo的续航和核心配置信息。ID.Polo计划于202...
湖南株洲哈啰无人驾驶网约车事故... 12月15日,湖南株洲发生了一起哈啰无人驾驶网约车撞伤两名路人的事故,该事件引起了公众的广泛关注。根...
比亚迪天神之眼销量破230万,... 2025年11月,比亚迪在辅助驾驶领域取得显著成绩,其天神之眼及配套辅助驾驶车型累计销量突破230万...
三年深耕,羊城家庭教育公共课程... 文/羊城晚报全媒体记者 周聪家庭是人生启蒙的港湾,家教是成长路上的光。12月15日,羊城晚报记者获悉...