美团发布开源AI模型LongCat-Flash-Thinking-2601,性能领先业界!
创始人
2026-01-16 14:04:00
0

美团LongCat团队于1月16日发布并开源了LongCat-Flash-Thinking-2601模型,这是LongCat-Flash-Thinking模型的升级版。该模型在智能体搜索、工具调用、工具交互推理等核心评测基准上达到了开源模型SOTA水平,尤其在工具调用上表现出卓越的泛化能力,性能超越了Claude,可降低新工具的适配训练成本。LongCat-Flash-Thinking-2601是首个完整开源并支持在线免费体验“重思考模式”的模型,通过并行思考和总结归纳两步来处理高难度问题,形成闭环迭代推理。

LongCat-Flash-Thinking-2601在编程、数学推理、智能体工具调用、智能体搜索维度表现全面领先。在编程能力方面,模型在LCB评测中取得82.8分,OIBenchEN评测获47.7分,处于同类模型第一梯队。数学推理能力在开启重思考模式后表现突出,在AIME-25评测中获100.0分(满分),IMO-AnswerBench中以86.8分达到当前SOTA。智能体工具调用能力在τ²-Bench评测中拿到88.2分,VitaBench评测中获得29.3分,均获得开源SOTA水平。智能体搜索能力在BrowseComp任务中取得73.1分(全模型最优),RWSearch评测获79.5分,具备强劲的信息检索与场景适配能力。

美团还提出了一种全新的评测方法,通过构建自动化任务合成流程,支持用户基于给定关键词为任意场景随机生成复杂任务,以测试智能体模型的泛化能力。实验结果表明,LongCat-Flash-Thinking-2601在绝大多数任务中保持领先性能,印证了其在智能体场景下强大的泛化能力。

相关内容

热门资讯

以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
奔驰放弃L3级自动驾驶,转向L... 近日,德国媒体报道称,奔驰将不再提供L3级自动驾驶系统,转而专注于L2+辅助驾驶技术的研发。作为最早...
中国动力电池产销两旺:12月产... 今日,中国汽车动力电池产业创新联盟发布了2025年12月动力电池月度信息。12月,我国动力和储能电池...
瑞典路测曝光!梅赛德斯AMG ... 今日,汽车媒体CarBuzz分享了一组在瑞典抓拍的路测图,展示了轻度伪装的梅赛德斯-AMG GLC ...
劳斯莱斯新SUV谍照曝光,纯电... 近日,劳斯莱斯一款全新SUV车型的测试谍照曝光,该车型正在斯堪的纳维亚半岛进行极寒天气测试。新车在外...
台积电2026年资本开支激增三... 1月15日,台积电发布2025年四季度和全年业绩,预计2026年资本开支介于520-560亿美元,创...
大众ID.Cross纯电SUV... 今日,汽车媒体CarBuzz分享了一组大众ID.Cross纯电小型SUV的路测照片。这款正在冬季测试...
极氪007GT与007新车型2... 1月16日,极氪汽车宣布了极氪007GT与极氪007的车型更新计划。两款车型预计将在2026年第二季...
宝马iX3M电动SUV曝光:四... 今日,汽车媒体CarScoops分享了一组在瑞典北部抓拍的路测图,展示了宝马iX3M这款高性能SUV...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...