美团发布开源AI模型LongCat-Flash-Thinking-2601,性能领先业界!
创始人
2026-01-16 14:04:00
0

美团LongCat团队于1月16日发布并开源了LongCat-Flash-Thinking-2601模型,这是LongCat-Flash-Thinking模型的升级版。该模型在智能体搜索、工具调用、工具交互推理等核心评测基准上达到了开源模型SOTA水平,尤其在工具调用上表现出卓越的泛化能力,性能超越了Claude,可降低新工具的适配训练成本。LongCat-Flash-Thinking-2601是首个完整开源并支持在线免费体验“重思考模式”的模型,通过并行思考和总结归纳两步来处理高难度问题,形成闭环迭代推理。

LongCat-Flash-Thinking-2601在编程、数学推理、智能体工具调用、智能体搜索维度表现全面领先。在编程能力方面,模型在LCB评测中取得82.8分,OIBenchEN评测获47.7分,处于同类模型第一梯队。数学推理能力在开启重思考模式后表现突出,在AIME-25评测中获100.0分(满分),IMO-AnswerBench中以86.8分达到当前SOTA。智能体工具调用能力在τ²-Bench评测中拿到88.2分,VitaBench评测中获得29.3分,均获得开源SOTA水平。智能体搜索能力在BrowseComp任务中取得73.1分(全模型最优),RWSearch评测获79.5分,具备强劲的信息检索与场景适配能力。

美团还提出了一种全新的评测方法,通过构建自动化任务合成流程,支持用户基于给定关键词为任意场景随机生成复杂任务,以测试智能体模型的泛化能力。实验结果表明,LongCat-Flash-Thinking-2601在绝大多数任务中保持领先性能,印证了其在智能体场景下强大的泛化能力。

相关内容

热门资讯

华为乾崑智驾五一假期助力2.8... 近日,华为乾崑发布了五一安全出行报告,揭示了智能驾驶技术在假期出行中的广泛应用。报告显示,乾崑智驾累...
中国车企抢滩加拿大!吉利、奇瑞... 近日,中国新能源汽车企业纷纷布局加拿大市场。特斯拉重新推出中国制造的Model 3后,吉利、奇瑞、比...
重庆出台智能网联汽车高速测试新... 5月7日,重庆市经济信息委联合重庆市公安局、市交委发布《重庆市智能网联汽车高速公路测试管理细则(试行...
鸿蒙智行旗舰MPV智界V9 5... 5月7日,易车报道了智界V9即将上市的消息。这款新车将于5月15日正式与消费者见面,预售价从39.9...
大众CFO:电动车利润率将迎转... 5月7日,大众集团CFO阿诺·安特利茨在财报电话会上表示,目前电动汽车的利润率明显低于燃油车,预计只...
德国AI翻译巨头DeepL裁员... 5月7日,德国翻译工具初创公司DeepL宣布计划裁员约25%。DeepL CEO雅罗斯瓦夫·库蒂洛夫...
蔚来五一假期换电服务超百万次,... 近日,蔚来汽车发布了2026年五一假期用户加电报告。报告显示,5月1日至5月5日,蔚来能源在高速公路...
比亚迪大唐SUV预售破10万!... 近日,比亚迪王朝网宣布,其全尺寸旗舰SUV比亚迪大唐的预售订单已突破10万台。自开启预售以来,比亚迪...
五一假期蔚来换电服务破纪录:超... 5月7日,蔚来能源发布五一假期用户加电报告。5月1日至5月5日,蔚来能源在高速公路累计提供超1543...
本田暂停加拿大电动车工厂计划,... 近日,本田汽车宣布冻结在加拿大建设电动汽车工厂的计划。由于美国纯电动车需求疲软,本田决定在北美市场将...