智谱AI今日宣布发布并开源GLM-4.6V系列多模态大模型,包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。此次迭代将训练时上下文窗口提升至128ktokens,并在视觉理解精度上达到同参数规模SOTA。模型首次将FunctionCall(工具调用)能力原生融入视觉模型,实现从视觉感知到可执行行动的链路。
GLM-4.6V系列在性能优化的同时,相较于GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens,输出3元/百万tokens,而GLM-4.6V-Flash免费开放使用。该系列模型融入GLMCodingPlan,针对用户8大类场景定向开发了专用MCP工具,模型可自主调用最匹配的接口。GLM-4.6V从设计之初就围绕“图像即参数,结果即上下文”,构建了原生多模态工具调用能力,减少了信息损失和工程复杂度。GLM-4.6V在MMBench、MathVista、OCRBench等30+主流多模态评测基准上进行了验证,较上一代模型取得显著提升。


