0.9B参数GLM-OCR开源!OCR新标杆性能SOTA
创始人
2026-02-03 09:40:57
0

今日,智谱宣布正式发布并开源GLM-OCR,这是一款轻量级的专业级OCR模型,以其“小尺寸、高精度”的特点成为文档解析能力的新标杆。GLM-OCR模型参数规模仅为0.9B,却在多项主流基准测试中取得了SOTA(State of the Art)表现,特别是在公式识别、表格识别和信息抽取方面。该模型针对真实业务中的高难度场景进行了优化,如手写体、复杂表格、代码文档和印章等,表现出色。

GLM-OCR在性能上的优势得益于自研的CogViT视觉编码器和深度场景优化,使其在OmniDocBenchV1.5榜单中以94.6分的成绩登顶。模型在文本、公式、表格识别及信息抽取四大细分领域的表现均优于多款OCR专项模型,性能接近Gemini-3-Pro。此外,GLM-OCR在代码文档、真实场景表格、手写体、多语言、印章识别、票据提取等维度均取得显著优势,展现了其在实际应用中的精准解析能力。

技术细节方面,GLM-OCR采用了“编码器-解码器”架构,由视觉编码器(ViT)、跨模态连接层和语言解码器三大核心模块组成。模型在训练策略上引入了多Tokens预测损失(MTP),以增强损失信号密度并提升模型学习效率。同时,通过全任务强化学习训练,显著提升了模型在复杂文档场景下的整体识别精度与泛化能力。开源方面,GLM-OCR的SDK与推理工具链已同步开源,环境依赖简单,支持快速调用,易于接入现有业务系统。

相关内容

热门资讯

法拉利F80国内首发!2.2秒... 2月3日,法拉利宣布其全新旗舰车型F80将于2月5日在国内首发。F80在美国售价为400万美元,约合...
两男孩扔烟花点燃狗笼后致狗死亡... 2月2日,江苏连云港市东海县的姜女士反映,1日,她家养在笼子里的宠物狗,被小区两个小男孩点火烧死。此...
春运首日 江西南昌万“福”入车... 2月2日,2026年春运正式启动。“暖途·年味——老字号年礼暨书法名家送福”活动同日开启,多位江西省...
利好!4万亿元,投资方向确定了... “十五五”期间,国家电网固定资产投资预计达4万亿元,较“十四五”增长40%。今天,国家电网披露了重点...
春运期间广东省跨区域人员流动量... 广东多个交通枢纽严阵以待,全力守护旅客舒心返乡羊城晚报全媒体记者 严锦程 王丹阳 詹淑真 严艺文 通...
阿维塔06T亮相:华为激光雷达... 2月3日,阿维塔汽车宣布与华为乾崑战略合作2.0的全新车型命名为“阿维塔06T”。这款新车将首批搭载...
华为激光雷达加持!阿维塔06T... 2月3日,阿维塔官方宣布与华为乾崑的战略合作2.0项目中,全新车型被正式命名为阿维塔06T。此车型将...
鸿蒙智行尚界H5二月购车权益大... 今日,鸿蒙智行尚界汽车官方微博宣布了尚界H5的二月购车权益,其中包括星闪实体车钥匙、HUAWEI A...
问界M6实车亮相:华为高阶辅助... 2月3日,华为问界品牌发布了问界M6的实车视频。问界M6延续了家族化前脸设计,大灯装饰璀璨如钻石,展...
华为问界M6曝光:新锐设计,璀... 2月3日,华为终端官方发布了鸿蒙智行问界M6汽车的宣传图。新车设计上采用了分体式前后大灯,配备半隐藏...