1月30日,阿里千问在公众号平台宣布推出新一代Agent基准测试DeepPlanning。DeepPlanning与传统推理任务不同,要求AI在面对现实世界的复杂规划时通盘考虑,不能只专注于局部。例如,在多日旅行规划中要精确到分钟级排期,同时守住时间、预算的硬上限;在复杂购物场景中要懂得叠加优惠券、动态组合商品以实现整体价格最优。这些“硬要求”必须贯穿整个计划始终。
实测结果显示,即使是目前顶尖的GPT-5.2、Claude4.5、Gemini以及Qwen3模型,在全局优化以及长周期一致性上仍存在部分短板,距离真正成为拥有100%自主决策能力的“行动派”还有一定距离。阿里千问还在HuggingFace和ModelScope平台开源了这款基准,以促进AI规划能力的提升和优化。


