AI办公能力堪忧：准确率仅24%，离替代人类还远_知识学习

AI办公能力堪忧：准确率仅24%，离替代人类还远

创始人

2026-01-26 10:58:05

0次

1月26日，一项由训练数据公司Mercor发布的研究报告指出，当前主流人工智能模型在处理实际办公室任务时表现不佳，最高准确率未超过25%。这项研究基于Mercor新推出的APEX-Agents基准进行测试，与传统AI评估方法不同，该基准测试直接采用律师、顾问和银行家的真实工作流，要求受试模型完成横跨多个信息来源的多步骤综合任务。结果显示，即使是市场上明显处于领先地位的模型也无法达到25%的准确率，测试中成绩领先的Gemini3Flash和GPT-5.2，其准确率也仅为24%和23%，而其他大多数受试模型的成绩则不高于20%。

Mercor首席执行官Brendan Foody分析称，AI失败的关键在于缺乏上下文处理能力。在真实办公场景中，任务往往需要整合分散资源，比如查看日程，翻阅即时通讯记录、阅读PDF文档和电子表格，而AI在跨源信息搜索与整理时容易混淆、出错，要么干脆放弃。这导致目前的AI在办公室里更像一个“不可靠的实习生”，而非成熟的专业人员。尽管表现有限，但AI的进步引人关注。Foody指出，一年前同类测试的准确率仅为5%-10%，如今已提升至24%，AI的学习速度远超预期。不过，研究也强调，在掌握多任务处理和上下文切换之前，AI尚无法胜任复杂的知识工作。

上一篇：煤场智障男子不听话就被打？官方通报：脸部有轻微擦伤，公安已做DNA助其寻亲

下一篇：印奇出任阶跃星辰董事长，AI+终端战略加速落地，融资超50亿创纪录

AI办公能力堪忧：准确率仅24%，离替代人类还远

相关内容

热门资讯