近日,AI社区对OpenAI最新发布的GPT-5.2模型的基准测试结果提出质疑。用户发现,在关键评测中,GPT-5.2可能使用了远超对手Gemini3.0Pro的算力资源,通过调整模型的“推理力度”参数。具体来说,在ARCAGI2测试中,GPT-5.2xhigh版每个任务消耗约13.5万个token,而Gemini3.0Pro仅使用了6.7万token,取得相似成绩。如果将算力投入标准化,两个模型的真实能力几乎并驾齐驱。
此外,GPT-5.2在其他测试中的表现并不如预期。在HLE、MMMU-Pro、Video-MMMU和FrontierMathTier4中,即使使用了超过Gemini3两倍的token数,GPT-5.2的表现仍然不佳。在GPQA上,两者基本相当。唯一例外的是GDPVal测试集,由OpenAI自己创建,结果的客观性有待考量。
这一发现引发了网友热议,有人认为如果用户得到的“推理力度”参数和token数与测评时不同,那么OpenAI就涉嫌虚假营销。也有人认为,即使增加Gemini3的token数量,它也未必能赶超GPT-5.2。同时,有用户反映GPT-5.2的实际体验并不理想,如在检查代码时出现严重幻觉现象,无法理解函数代码等。这表明GPT-5.2的实际体验与基准测试结果存在较大差距。


