1月29日,商汤科技宣布开源其多模态自主推理模型SenseNova-MARS,提供8B和32B两个版本。该模型是业界首个支持动态视觉推理和图文搜索深度融合的AgenticVLM模型,能够在多模态搜索与推理的核心基准测试中超越Gemini-3-Pro和GPT-5.2,取得69.74分的优异成绩。SenseNova-MARS能够自主规划步骤、调用工具,轻松完成各种复杂任务,使AI具备真正的“执行能力”。
SenseNova-MARS在多个基准测试中取得了开源模型中的SOTA成绩,甚至超越了一些顶级闭源模型。它能够识别赛车服上的微小logo、查询公司成立年份、匹配车手出生年月,并计算差值等复杂任务,无需人工干预即可完成闭环解答。此外,该模型还能从产品和行业峰会的照片中识别企业标志,搜集产品、企业信息,辅助分析行业情况和格局。SenseNova-MARS还能从赛事照片中识别logo、人物等信息,追溯比赛或人员背景信息,帮助快速补充重要细节。


