阿里千问发布DeepPlanning:AI规划能力新挑战,顶尖模型仍需提升
创始人
2026-01-30 22:39:09
0

1月30日,阿里千问在公众号平台宣布推出新一代Agent基准测试DeepPlanning。DeepPlanning与传统推理任务不同,要求AI在面对现实世界的复杂规划时通盘考虑,不能只专注于局部。例如,在多日旅行规划中要精确到分钟级排期,同时守住时间、预算的硬上限;在复杂购物场景中要懂得叠加优惠券、动态组合商品以实现整体价格最优。这些“硬要求”必须贯穿整个计划始终。

实测结果显示,即使是目前顶尖的GPT-5.2、Claude4.5、Gemini以及Qwen3模型,在全局优化以及长周期一致性上仍存在部分短板,距离真正成为拥有100%自主决策能力的“行动派”还有一定距离。阿里千问还在HuggingFace和ModelScope平台开源了这款基准,以促进AI规划能力的提升和优化。

相关内容

热门资讯

特斯拉Model S/X停产,... 近日,特斯拉CEO埃隆·马斯克在Q4财报电话会上宣布,Model S和Model X两款旗舰车型将基...
73岁男子检查结果显示“宫内早... 1月30日,宁夏吴忠市人民医院发布“情况说明”:情况说明关于网民反映患者检查报告出现信息错误的情况,...
见证跨越时空的音乐记忆,全国首... 1月30日,广东流行音乐馆暨陈小奇艺术馆在广州市白云区黄石街湾区国际音乐城新月广场开馆。据介绍,广东...
下周一开幕持续到3月初,来广州... 广州市海珠区有着浓厚的工商业、制造业基础,大批优品广货诞生自该区。记者1月30日从广州市海珠区获悉,...
“十四五”期间,广东保障性租赁... 文/羊城晚报全媒体记者 莫谨榕视频/羊城晚报全媒体记者 周敬雅 梁岚 麦宇恒1月30日下午,广东省人...
中等强度冷空气明起带来3℃~6... 文/羊城晚报全媒体记者 梁怿韬根据广东省气象部门预计,中等强度冷空气将自1月31日起影响广东。预计1...
广州南沙产业园管理局获评省工业... 文/羊城晚报全媒体记者 江皓轩 通讯员 南沙产业园管理局图/通讯员提供在近日举行的广东省工业园区协会...
见物 见人 见生活——走,去非... 编者按春节临近,年味渐浓。各地非遗馆纷纷创新展陈方式、推出多彩活动,将场馆装点一新,在营造浓厚春节氛...
理想汽车大动作:研发架构调整,... 今日,理想汽车宣布了一系列研发体系组织架构及人事调整。公司新成立了软件本体团队,由智能空间副总裁勾晓...
阿里千问发布DeepPlann... 1月30日,阿里千问在公众号平台宣布推出新一代Agent基准测试DeepPlanning。DeepP...