0.9B参数GLM-OCR开源！OCR新标杆性能SOTA_知识学习

0.9B参数GLM-OCR开源！OCR新标杆性能SOTA

创始人

2026-02-03 09:40:57

0次

今日，智谱宣布正式发布并开源GLM-OCR，这是一款轻量级的专业级OCR模型，以其“小尺寸、高精度”的特点成为文档解析能力的新标杆。GLM-OCR模型参数规模仅为0.9B，却在多项主流基准测试中取得了SOTA（State of the Art）表现，特别是在公式识别、表格识别和信息抽取方面。该模型针对真实业务中的高难度场景进行了优化，如手写体、复杂表格、代码文档和印章等，表现出色。

GLM-OCR在性能上的优势得益于自研的CogViT视觉编码器和深度场景优化，使其在OmniDocBenchV1.5榜单中以94.6分的成绩登顶。模型在文本、公式、表格识别及信息抽取四大细分领域的表现均优于多款OCR专项模型，性能接近Gemini-3-Pro。此外，GLM-OCR在代码文档、真实场景表格、手写体、多语言、印章识别、票据提取等维度均取得显著优势，展现了其在实际应用中的精准解析能力。

技术细节方面，GLM-OCR采用了“编码器-解码器”架构，由视觉编码器（ViT）、跨模态连接层和语言解码器三大核心模块组成。模型在训练策略上引入了多Tokens预测损失（MTP），以增强损失信号密度并提升模型学习效率。同时，通过全任务强化学习训练，显著提升了模型在复杂文档场景下的整体识别精度与泛化能力。开源方面，GLM-OCR的SDK与推理工具链已同步开源，环境依赖简单，支持快速调用，易于接入现有业务系统。

上一篇：华为问界M6实车亮相：年轻动感，璀璨大灯如钻石闪耀！

下一篇：湛江好物抢“鲜”长沙现场签约11亿元

0.9B参数GLM-OCR开源！OCR新标杆性能SOTA

相关内容

热门资讯