今日,阶跃星辰宣布其多模态模型Step3-VL-10B开源。该模型以10B参数量,在视觉感知、逻辑推理、数学竞赛及通用对话等基准测试中达到同规模SOTA水平,解决了参数量小与智能水平高的行业难题。Step3-VL-10B在多项评测中媲美甚至超越规模大10-20倍的开源模型和顶级闭源旗舰模型,使得原本只能在云端运行的复杂多模态推理能够下沉到手机、电脑等端侧设备中。
Step3-VL-10B具备三大核心亮点:极致视觉感知标杆、深层逻辑推演与长程推理、强大端侧Agent交互。模型在STEM推理、识别、OCR&文档、GUIGrounding、空间理解、代码等核心维度取得优秀分数,尤其在PaCoRe范式下表现更优。其性能得益于全参数端到端多模态联合预训练、大规模多模态强化学习演进以及并行协调推理机制(PaCoRe)。
Step3-VL-10B的开源,意味着世界一流的多模态能力有望以更低成本、更少算力获得,推动终端走向“主动理解与可执行交互”,重塑人机交互体验。目前,Base模型和Thinking模型均已开源,阶跃星辰欢迎社区讨论交流和微调模型,共同推动小模型实现智能跃迁。


