AI办公能力堪忧:准确率仅24%,离替代人类还远
创始人
2026-01-26 10:58:05
0

1月26日,一项由训练数据公司Mercor发布的研究报告指出,当前主流人工智能模型在处理实际办公室任务时表现不佳,最高准确率未超过25%。这项研究基于Mercor新推出的APEX-Agents基准进行测试,与传统AI评估方法不同,该基准测试直接采用律师、顾问和银行家的真实工作流,要求受试模型完成横跨多个信息来源的多步骤综合任务。结果显示,即使是市场上明显处于领先地位的模型也无法达到25%的准确率,测试中成绩领先的Gemini3Flash和GPT-5.2,其准确率也仅为24%和23%,而其他大多数受试模型的成绩则不高于20%。

Mercor首席执行官Brendan Foody分析称,AI失败的关键在于缺乏上下文处理能力。在真实办公场景中,任务往往需要整合分散资源,比如查看日程,翻阅即时通讯记录、阅读PDF文档和电子表格,而AI在跨源信息搜索与整理时容易混淆、出错,要么干脆放弃。这导致目前的AI在办公室里更像一个“不可靠的实习生”,而非成熟的专业人员。尽管表现有限,但AI的进步引人关注。Foody指出,一年前同类测试的准确率仅为5%-10%,如今已提升至24%,AI的学习速度远超预期。不过,研究也强调,在掌握多任务处理和上下文切换之前,AI尚无法胜任复杂的知识工作。

相关内容

热门资讯

英国3.42亿升级剑桥DAWN... 1月26日,英国政府宣布将投资3600万英镑(约合3.42亿元人民币)用于扩展剑桥大学的DAWN超级...
云米科技年会大奖:员工获赠小米... 1月26日,云米科技创始人兼CEO陈小平在社交平台宣布,在公司年会上奖励一位负责大客户项目并取得重要...
阿尔法·罗密欧销量大跌36%,... 1月23日,阿尔法·罗密欧在美国市场的销量遭遇重挫,全年总销量仅为5652辆,同比大跌36%。宝马X...
世界经济论坛2026年年会呼吁... 人民日报本报记者 许海林 颜 欢 郭梓云 尚凯元世界经济论坛2026年年会1月23日在瑞士达沃斯落下...
高度警惕日本重拾核武装旧梦(国... 人民日报尹晓亮日方图谋修改“无核三原则”,无异于动摇日本核政策的基石,是对全球核不扩散体系的挑战,将...
女子机洗羽绒服时突然发生爆炸,... 据国家应急广播1月25日消息:一女子用洗衣机清洗羽绒服时突然发生爆炸,不仅洗衣机的门被炸掉,女子脸部...
最后一抹绿,开往遗忘 一个时代... 文/图羊城晚报全媒体记者邓勃2026年1月25日上午10时29分,K303次列车完成它作为广州站始发...
一汽大众2030年新能源车占比... 1月26日,一汽大众汽车副总经理王胜利透露,公司计划到2030年将新能源车销量占比提升至60%。为实...
鸿蒙智行问界M6曝光:激光雷达... 1月26日,鸿蒙智行全新车型问界M6的冬季测试影像在网上曝光。新车在五大连池测试场进行场地测试,身披...
印奇出任阶跃星辰董事长,AI+... 今日,阶跃星辰宣布印奇正式出任公司董事长,负责公司整体战略节奏与技术方向的制定。印奇将与CEO姜大昕...