我要投稿

混元OCR模型宣布开源，参数仅1B，多项核心能力SOTA

发布日期：2025-11-25 14:31:09 浏览次数： 2418

作者：腾讯混元

微信搜一搜，关注“腾讯混元”

混元自研的OCR模型，来了。

11月25日，腾讯混元推出全新开源模型 HunyuanOCR，参数仅为1B，依托于混元原生多模态架构打造，获得多项业界OCR应用榜单SOTA（最先进水平）成绩。

HunyuanOCR 具有高度易用性，不仅体积小，便于部署，得益于混元原生多模态大模型"端到端"的理念设计，各项功能仅需单次前向推理即可直达最优结果，较业界级联方案更高效和便捷，性价比高。

混元OCR专家模型依托于混元原生多模态架构打造，主要由三大部分组建构成：原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型。

不同于其他开源的OCR专家模型或系统，HunyuanOCR模型的训练和推理均采用全端到端范式，通过规模化的高质量应用导向数据，结合在线强化学习，模型表现出了非常稳健的端到端推理能力。

混元OCR多项核心能力达到SOTA效果，其中在复杂文档解析的OmniDocBench测评中，获得了最高的94.1分，效果超过了谷歌的Gemini3-pro等一众领先的模型；文字检测和识别能力，在自建覆盖了9大应用场景（文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频）的基准上，大幅度领先同类开源模型以及商业OCR模型；在OCRBench榜单上，总得分为860分，以仅仅1B总参数的模型配置，取得了包括通用视觉理解模型在内总参数3B以下的SOTA成绩。

在小语种翻译能力，混元OCR支持14种高频小语种翻译翻译中文或英文的效果，并且取得了ICDAR2025端到端文档翻译比赛小模型赛道冠军。

应用场景方面，HunyuanOCR 精通多语种复杂文档解析，同时兼具文字检测和识别能力，在票据字段抽取、视频字幕识别、拍照翻译等场景得到广泛应用。

在文字检测和识别能力上，模型对文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频等场景上表现卓越。

复杂文档解析指的是对多语种文档扫描件或拍摄图像进行电子化，具体地，就是将图片中出现的文本内容按照阅读顺序进行组织、公式采用Latex格式、复杂表格采用HTML格式表达。

此外常见的应用场景还要票据字段提取、视频字幕提取和拍照翻译等功能。

1、对常见卡证和票据的感兴趣字段（如姓名/地址/单位等），采用标准的json格式解析。

2、对视频的字幕实现自动化抽取，包括双语字幕。

3、拍照翻译功能，支持14种高频应用小语种，具体包括：德语、西班牙语、土耳其语、意大利语、俄语、法语、葡萄牙语、阿拉伯语、泰语、越南语、印尼语、马来语、日语、韩语翻译成中/英文，以及中英互译功能。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-24

Nathan Lambert：GLM-5.2是开源Agent重大突破，连锁反应将渗透进更广泛的经济体

2026-06-23

百度开源 Unlimited OCR：让长文档解析一次完成

2026-06-23

我把自己的需求到交付 Skills 开源了：Analysis to Delivery

2026-06-23

腾讯开源WeKnora知识库部署实战(含踩坑排查)

2026-06-22

DiffusionGemma: 文本生成速度提升 4 倍

2026-06-22

刚刚，百度开源拿下全球第一！作者疑似DeepSeek出走大神

2026-06-22

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-20

GLM-5.2本地部署：744B参数模型如何在Mac上跑

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

CoPaw深度解析：源码架构和功能实践

2026-03-31

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部