OpenAI GPT-5.2疑似“作弊”？AI评测真实性引发热议_知识学习

OpenAI GPT-5.2疑似“作弊”？AI评测真实性引发热议

创始人

2025-12-13 17:44:10

0次

近日，AI社区对OpenAI最新发布的GPT-5.2模型的基准测试结果提出质疑。用户发现，在关键评测中，GPT-5.2可能使用了远超对手Gemini3.0Pro的算力资源，通过调整模型的“推理力度”参数。具体来说，在ARCAGI2测试中，GPT-5.2xhigh版每个任务消耗约13.5万个token，而Gemini3.0Pro仅使用了6.7万token，取得相似成绩。如果将算力投入标准化，两个模型的真实能力几乎并驾齐驱。

此外，GPT-5.2在其他测试中的表现并不如预期。在HLE、MMMU-Pro、Video-MMMU和FrontierMathTier4中，即使使用了超过Gemini3两倍的token数，GPT-5.2的表现仍然不佳。在GPQA上，两者基本相当。唯一例外的是GDPVal测试集，由OpenAI自己创建，结果的客观性有待考量。

这一发现引发了网友热议，有人认为如果用户得到的“推理力度”参数和token数与测评时不同，那么OpenAI就涉嫌虚假营销。也有人认为，即使增加Gemini3的token数量，它也未必能赶超GPT-5.2。同时，有用户反映GPT-5.2的实际体验并不理想，如在检查代码时出现严重幻觉现象，无法理解函数代码等。这表明GPT-5.2的实际体验与基准测试结果存在较大差距。

上一篇：AI员工失控：一人公司梦想与现实的差距

下一篇：以下是一些改写“回应民生关切”的方式，你可以根据具体情境和表达需求进行选择：对民生关切予以回应：强调了主动去做、给予回应的动作，突出了积极的态度。针对民生关切作出回应：明确了是针对特定的民生问题进行回应，使回应更具针对性。以回应民生关切为导向：将回应民生关切作为行动的导向，体现了重视民生的理念。对民生关切进行积极回应：强调了回应的积极态度，即主动、认真地对待民生关切。用回应民生关切来体现：表明通过回应民生关切来展现某种价值或态度，突出了回应的重要性。以回应民生关切为己任：将回应民生关切视为自

OpenAI GPT-5.2疑似“作弊”？AI评测真实性引发热议

相关内容

热门资讯