智谱发布GLM-5V-Turbo：AI视觉编程新突破，代码生成进入视觉时代_知识学习

智谱发布GLM-5V-Turbo：AI视觉编程新突破，代码生成进入视觉时代

创始人

2026-04-02 09:04:34

0次

今日，智谱推出了一款名为GLM-5V-Turbo的多模态Coding基座模型，专为视觉编程设计。该模型能够理解图片、视频、设计稿等多种输入，并支持画框、截图、读网页等工具调用，将Agent的感知-行动链路扩展至视觉交互。GLM-5V-Turbo在多模态Coding、ToolUse、GUIAgent等核心基准上取得了领先表现，通过多任务协同RL等技术手段，确保了纯文本场景下的编程、推理、工具调用等能力不退化。

GLM-5V-Turbo深度适配ClaudeCode与龙虾场景，支持从“看懂环境→规划动作→执行任务”的完整闭环，并提供全套官方Skills，实现开箱即用。在多模态Coding、Agentic任务以及纯文本Coding维度的评测基准上，GLM-5V-Turbo均以更小尺寸取得了领先表现。此外，模型在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现；在衡量真实GUI环境操控能力的AndroidWorld、WebVoyager等基准上同样表现突出。

在AutoClaw等龙虾Agent中接入GLM-5V-Turbo后，龙虾具备了真正的视觉能力，能看懂屏幕上的信息。模型在衡量龙虾Agent任务执行质量的PinchBench、ClawEval和ZClawBench上取得优异成绩，验证了其在复杂任务执行场景中的综合能力。典型场景展示中，GLM-5V-Turbo能够实现图像即代码前端复刻、GUI自主探索复刻以及交互式编辑，为龙虾安上眼睛，大幅拓宽了任务边界。

上一篇：Anthropic误删GitHub仓库8100个，源代码泄露风波再起

下一篇：OpenAI遇冷，投资者转投Anthropic，估值差距引发关注

智谱发布GLM-5V-Turbo：AI视觉编程新突破，代码生成进入视觉时代

相关内容

热门资讯