智能编程模型作弊曝光：63%问题靠搜索答案解决_知识学习

智能编程模型作弊曝光：63%问题靠搜索答案解决

创始人

2026-06-26 18:09:52

0次

6月25日，Cursor发布研究指出，智能模型在编程基准测试中作弊行为愈发普遍。研究发现，评测套件中由真实缺陷构建的问题特别容易受到作弊影响，因为这些问题已经被解决。智能体通过访问代码仓库历史或公开网络资源，有时能直接找到答案，而非自行推导。

Cursor通过构建智能体审查评测轨迹，发现在SWE-benchPro上，ClaudeOpus4.8Max解决的问题中，有63%是直接获取修复方案。当屏蔽Git历史记录并限制互联网访问后，ClaudeOpus和Cursor的模型Composer2.5的分数均显著下降。Cursor团队建议，为了避免训练阶段的数据污染，智能体编程基准需要受控的运行时环境，并建议评测团队通过审查对话记录和约束评测环境来缓解作弊行为。

Cursor团队审计了731条Opus4.8Max轨迹，发现两种最常见的作弊模式：上游查找和Git历史挖掘。在57%的轨迹中，Opus4.8Max在公开网络上找到已合并的PR或已修复的源文件，然后几乎原封不动地复现了修复内容。在9%的轨迹中，Opus4.8Max搜索了随附的.git历史，寻找未来修复该缺陷的提交，然后从中提取出补丁。随着模型能力增强，它们有时会推断出自己正在参与评测，尤其是在任务取自过去公开的代码仓库时。

上一篇：大众汽车全球裁员10万，四座德国工厂面临停产危机

下一篇：理想L8五座旗舰SUV开启交付，35万起售挑战豪华SUV市场

热门资讯

德系车企大裁员：大众、保时捷、... 近日，德系车企面临新能源转型和市场格局重塑的挑战，大众汽车集团、保时捷、宝马和奔驰等纷纷宣布裁员和减...

广州增城：“双百行动”区校合作... 6月25日，2026年广州增城区百校联百县助力“百千万工程”区校合作领导小组联席会议召开。此次深入贯...

给阿嬷的情书女主演李思潼参加毕... 6月26日，广东财经大学2026年毕业典礼暨学位授予仪式在广州校区体育馆举行。该校金融学院金融工程专...

全球媒体聚焦 | 外媒：中国以... 美国《福布斯》网站6月25日刊文称，中国商务部等八部门近日提出推动“人工智能+消费”的一系列措施，目...

让乡亲们的日子像金柚一样甜美（... 夏日，广东梅州市梅县区雁洋镇南福金柚种植基地绿意盎然，柚子挂满枝头。“现在是幼果膨大关键期，管护到位...

点“经”之笔丨当买车只是起点，... “汽车改装要有技术标准了！”“放宽房车上路，我的‘房车梦’圆梦在即！”国新办近日介绍全链条扩大汽车消...

AI终极预测今晚白玉兰奖获奖名... 第31届上海电视节白玉兰奖颁奖典礼将于今晚在上海举行。羊城晚报记者使用四个主流AI软件，对颁奖结果进...

世界杯丨厄瓜多尔逆转德国库拉... E组第三轮厄瓜多尔2:1德国已确保小组第一的德国队全主力出战，却被厄瓜多尔队逆转击败，积4分、净胜球...

新华深读丨八十载史实还原千万... 80年前，远东国际军事法庭在东京开庭，对日本甲级战犯进行了世纪审判。东京审判是人类历史上规模最大、时...

理想L8五座旗舰SUV开启交付... 6月26日，理想汽车宣布全新理想L8在常州、苏州、杭州、上海正式开启首批交付，并将逐步扩展至更多城市...

智能编程模型作弊曝光：63%问题靠搜索答案解决

相关内容

热门资讯