微信扫码
添加专属顾问
 
                        我要投稿
DeepSeek-OCR突破性地解决了多模态文档解析中的视觉token压缩难题,为高效处理长文本提供了创新方案。 核心内容: 1. DeepSeek-OCR的架构设计:DeepEncoder与MoE解码器的协同工作 2. 视觉token压缩技术:16倍下采样与多分辨率支持实现高效处理 3. 模型性能优势:相比现有VLMs显著降低内存消耗并提升处理能力
 
                                最近接连开源多模态文档解析模型:
DeepSeek-OCR是一个端到端的多模态文档解析模型,是Vary、GOT-OCR2.0的后续,前期也有详细介绍《【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节》。其核心目标是用极少的视觉 token(vision tokens)解码出大量文本 token(text tokens)。
多模态文档解析相关就不再过多介绍了,详细可以看专栏《文档智能》
如下图,DeepSeek-OCR的架构由编码器(DeepEncoder)和解码器(DeepSeek3B-MoE-A570M)组成。
DeepEncoder是DeepSeek-OCR的最核心部分(高分辨率下的轻量视觉压缩器),专门解决现有VLMs视觉编码器(如Vary、InternVL2.0)的痛点:高分辨率输入时token过多、激活内存大、不支持多分辨率。包含三个组件:
Base/Large模式通过“ padding 保留宽高比”,有效token数按公式下面公式计算(避免无效token浪费)。
解码器使用的是DeepSeek3B-MoE,由3B参数的MoE模型,包含64个routed experts和2个shared experts。推理时仅激活6个routed experts+2个shared experts,实际激活参数约570M(仅为3B模型的19%)。这样做既保留3B模型的文本生成能力,又将推理速度提升至“500M小模型”级别,适合大规模部署。
OCR 1.0数据和前面的vary、got-ocr数据构建相似,主要用于训练模型识别传统OCR场景(文档、自然场景文本)。 构成如下:
支持图表、化学公式、几何图形的结构化解析。
避免模型仅适配OCR场景,保留VLMs的通用视觉能力(如图像描述、目标检测)。数据构成参考DeepSeek-VL2,生成图像描述、目标检测、视觉定位任务数据,占总数据20%。
目的是提升解码器的文本流畅度,避免“视觉-文本”映射导致语言能力退化。 10%的内部纯文本数据,统一处理为8192 token长度(与模型序列长度一致)。
训练分两阶段进行,先优化编码器质量,再训练端到端模型。
与vary相似,让编码器学会“高分辨率输入→压缩视觉token”的映射,保证token质量。使用上述所有OCR 1.0和2.0数据,以及从LAION数据集中抽取的1亿条通用数据。
联合优化“编码器→解码器”的映射,提升OCR精度与泛化性。采用流水线并行(PP=4),DeepEncoder占2段(SAM+压缩器冻结,CLIP解冻),解码器占2段(12层MoE分6层/段);
Gundam-M模式微调适配超高清文档(如报纸),但避免与其他模式共训拖慢速度。在预训练好的DeepSeek-OCR上,用6M采样数据继续训练Gundam-M模式(1024×1024局部+1280×1280全局)。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-31
Palantir 本体论模式:重塑企业 AI 应用的 “语义根基” 与产业启示
2025-10-31
树莓派这种“玩具级”设备,真能跑大模型吗?
2025-10-30
Cursor 2.0的一些有趣的新特性
2025-10-30
Anthropic 发布最新研究:LLM 展现初步自省迹象
2025-10-30
让Agent系统更聪明之前,先让它能被信任
2025-10-30
Rag不行?谷歌DeepMind同款,文档阅读新助手:ReadAgent
2025-10-29
4大阶段,10个步骤,助你高效构建企业级智能体(Agent)
2025-10-29
DocReward:让智能体“写得更专业”的文档奖励模型
 
            2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-10-02
2025-09-08
2025-09-17
2025-08-19
2025-09-29
2025-08-20