1月26日,一项由训练数据公司Mercor发布的研究报告指出,当前主流人工智能模型在处理实际办公室任务时表现不佳,最高准确率未超过25%。这项研究基于Mercor新推出的APEX-Agents基准进行测试,与传统AI评估方法不同,该基准测试直接采用律师、顾问和银行家的真实工作流,要求受试模型完成横跨多个信息来源的多步骤综合任务。结果显示,即使是市场上明显处于领先地位的模型也无法达到25%的准确率,测试中成绩领先的Gemini3Flash和GPT-5.2,其准确率也仅为24%和23%,而其他大多数受试模型的成绩则不高于20%。
Mercor首席执行官Brendan Foody分析称,AI失败的关键在于缺乏上下文处理能力。在真实办公场景中,任务往往需要整合分散资源,比如查看日程,翻阅即时通讯记录、阅读PDF文档和电子表格,而AI在跨源信息搜索与整理时容易混淆、出错,要么干脆放弃。这导致目前的AI在办公室里更像一个“不可靠的实习生”,而非成熟的专业人员。尽管表现有限,但AI的进步引人关注。Foody指出,一年前同类测试的准确率仅为5%-10%,如今已提升至24%,AI的学习速度远超预期。不过,研究也强调,在掌握多任务处理和上下文切换之前,AI尚无法胜任复杂的知识工作。

