OpenAI GPT-5.2疑似“作弊”?AI评测真实性引发热议
创始人
2025-12-13 17:44:10
0

近日,AI社区对OpenAI最新发布的GPT-5.2模型的基准测试结果提出质疑。用户发现,在关键评测中,GPT-5.2可能使用了远超对手Gemini3.0Pro的算力资源,通过调整模型的“推理力度”参数。具体来说,在ARCAGI2测试中,GPT-5.2xhigh版每个任务消耗约13.5万个token,而Gemini3.0Pro仅使用了6.7万token,取得相似成绩。如果将算力投入标准化,两个模型的真实能力几乎并驾齐驱。

此外,GPT-5.2在其他测试中的表现并不如预期。在HLE、MMMU-Pro、Video-MMMU和FrontierMathTier4中,即使使用了超过Gemini3两倍的token数,GPT-5.2的表现仍然不佳。在GPQA上,两者基本相当。唯一例外的是GDPVal测试集,由OpenAI自己创建,结果的客观性有待考量。

这一发现引发了网友热议,有人认为如果用户得到的“推理力度”参数和token数与测评时不同,那么OpenAI就涉嫌虚假营销。也有人认为,即使增加Gemini3的token数量,它也未必能赶超GPT-5.2。同时,有用户反映GPT-5.2的实际体验并不理想,如在检查代码时出现严重幻觉现象,无法理解函数代码等。这表明GPT-5.2的实际体验与基准测试结果存在较大差距。

相关内容

热门资讯

专访资深政法记者刘海陵:笔锋铸... 刘海陵的新闻人生,是改革开放的生动缩影,是法治进步的忠实见证,更是新闻理想的永恒传承。世纪之交,香江...
38岁身家过亿房地产老总家中遭... 南京市江宁区一身家过亿的房地产老总刘某,在家中遭人杀害,事发16年后,这处“凶宅”于5月7日进行第二...
粤超第三轮球票今日14时开始预... 随着“五一”小长假结束2026年冠旭电子cleer·广东省城市足球超级联赛(粤超)21城全部亮相5月...
记者帮|广州50万粉“捡瓶小狗... 昨日,羊城晚报“记者帮”报道《广州50万粉丝“捡瓶小狗”,疑被“毒狗团伙”盯上,目前只能被迫困在家中...
彩旗飘飘,锣鼓喧天!广州天河石... 农历三月廿三是传统的妈祖诞民俗节日,又叫天后诞,石牌人称娘妈诞。5月9日上午,广州市天河区石牌村开启...
【在希望的田野上】新技术新装备... 央视网消息(新闻联播):农忙时节,各地因地制宜,广泛采用新技术、新装备、新方法节本增效,为丰产丰收打...
老挝官员:老中铁路不仅象征着两... 老挝官员:老中铁路不仅象征着两国友好关系,也为两国人民带来巨大红利
视频丨日本有识之士:高市政权种... 日本高市早苗内阁推动的设立“国家情报局”相关法案8日在日本参议院全体会议进入审议阶段。日本有识之士认...