腾讯混元OCR模型1B参数破纪录,小语种翻译能力领先业界!
创始人
2025-11-26 07:15:01
0

11月25日,腾讯混元宣布推出全新开源模型HunyuanOCR,参数规模为1B,基于混元原生多模态架构设计,多项OCR应用榜单达到SOTA(最先进水平)成绩。HunyuanOCR模型采用全端到端范式,通过规模化应用导向数据和在线强化学习,展现出稳健的端到端推理能力。

HunyuanOCR由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三大部分构成。在复杂文档解析的OmniDocBench测评中,HunyuanOCR以94.1分的成绩超越谷歌Gemini3-pro等领先模型。在自建的覆盖9大应用场景的基准上,HunyuanOCR在文字检测和识别能力上大幅度领先同类开源模型及商业OCR模型。在OCRBench榜单上,HunyuanOCR以1B总参数的配置取得3B以下参数模型的SOTA成绩。

HunyuanOCR支持多语种复杂文档解析,具备文字检测和识别能力,应用于票据字段抽取、视频字幕识别、拍照翻译等场景。模型对文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频等场景表现卓越。此外,HunyuanOCR支持14种高频小语种翻译,包括德语、西班牙语等,取得ICDAR2025端到端文档翻译比赛小模型赛道冠军。

相关内容

热门资讯

地铁早高峰上演13分钟生死急救... 近日北京早高峰的地铁车厢一名乘客突然倒地失去意识地铁工作人员和热心乘客用13分钟生死急救成功救助晕倒...
冬日农事忙 中国“西部菜都”... 中新网重庆11月25日电 题:冬日农事忙 中国“西部菜都”新农人辈出作者 张旭制作冰块给豌豆尖(豌豆...
聚焦“十五五”规划建议|以服务... 新华社北京11月25日电(记者邹多为)“十五五”规划建议在部署扩大高水平对外开放时,明确提出“以服务...
焦点访谈丨太空应急:速度与安全 11月25日中午12时11分,在我国酒泉卫星发射中心,神舟二十二号飞船顺利升空,经过3.5小时飞行后...
日本数百民众在首相官邸前抗议高... 中新社东京11月25日电 (记者 朱晨曦)数百名日本民众25日晚在位于东京的首相官邸前举行集会,抗议...
专家:必须坚决阻击日本右翼势力... 新华社北京11月25日电 题:专家:必须坚决阻击日本右翼势力妄图复活军国主义的危险动向新华社记者朱超...
让创意自由生长 让技术有效赋能... 粤剧是自带创新基因的艺术,相关文化产业创意不绝。广州日报全媒体记者陈忧子摄本届大会项目征集覆盖多个投...
艺评 | “广东美术百年大展”... 导语“其命惟新——广东美术百年大展”正在上海美术馆(中华艺术宫)热展中。展览作为第二十四届中国上海国...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
英伟达自信领先一代,谷歌芯片购... 11月26日,英伟达在X平台上发表声明,对谷歌的成功表示祝贺,并强调自身在AI领域的领先地位,声称是...