今日,智谱推出了一款名为GLM-5V-Turbo的多模态Coding基座模型,专为视觉编程设计。该模型能够理解图片、视频、设计稿等多种输入,并支持画框、截图、读网页等工具调用,将Agent的感知-行动链路扩展至视觉交互。GLM-5V-Turbo在多模态Coding、ToolUse、GUIAgent等核心基准上取得了领先表现,通过多任务协同RL等技术手段,确保了纯文本场景下的编程、推理、工具调用等能力不退化。
GLM-5V-Turbo深度适配ClaudeCode与龙虾场景,支持从“看懂环境→规划动作→执行任务”的完整闭环,并提供全套官方Skills,实现开箱即用。在多模态Coding、Agentic任务以及纯文本Coding维度的评测基准上,GLM-5V-Turbo均以更小尺寸取得了领先表现。此外,模型在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现;在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上同样表现突出。
在AutoClaw等龙虾Agent中接入GLM-5V-Turbo后,龙虾具备了真正的视觉能力,能看懂屏幕上的信息。模型在衡量龙虾Agent任务执行质量的PinchBench、ClawEval和ZClawBench上取得优异成绩,验证了其在复杂任务执行场景中的综合能力。典型场景展示中,GLM-5V-Turbo能够实现图像即代码前端复刻、GUI自主探索复刻以及交互式编辑,为龙虾安上眼睛,大幅拓宽了任务边界。


