我要投稿

0.35秒OCR整页文档，比Qwen2.5 VL高出10%的文档转换多模态模型！

发布日期：2025-03-24 15:55:03 浏览次数： 2254

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

SmolDocling是一种多模态的图文到文本模型，专为高效的文档转换而设计，目前冲到huggingface热榜2th。

SmolDocling由Docling团队，IBM Research联合推出，其在A100 GPU上平均每页仅需0.35秒，256M参数比Qwen2.5 VL（7B）更高效！

SmolDocling功能特性：

DocTags高效标记 —— 引入DocTags，这是一种与DoclingDocuments完全兼容的高效且简洁的文档表示方式。

光学字符识别（OCR） —— 从图像中准确提取文本。

布局和定位 —— 保留文档结构和文档元素的边界框。

代码识别 —— 检测并格式化代码块，包括缩进。

公式识别 —— 识别并处理数学表达式。

图表识别 —— 提取并解释图表数据。

表格识别 —— 支持结构化表格提取，包括列标题和行标题。

图形分类 —— 区分图形和图形元素。

标题对应 —— 将标题链接到相关图像和图形。

列表分组 —— 正确组织和结构化列表元素。

全页转换 —— 处理整个页面，实现全面的文档转换，涵盖所有页面元素（代码、公式、表格、图表等）。

带边界框的OCR —— 使用边界框进行OCR区域识别。

通用文档处理 —— 针对科学和非科学文档进行了训练。

无缝集成Docling —— 导入Docling并以多种格式导出。

https://hf-mirror.com/ds4sd/SmolDocling-256M-previewhttps://arxiv.org/pdf/2503.11576SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-27

一个神奇的视频生成 Skills，实测，狂喜

2026-04-26

你的一人公司品牌部，带着Image-2模型的lovart中文版来了

2026-04-22

MNN-Sana-Edit-V2：端侧运行的图像漫画风编辑大模型

2026-04-22

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

2026-04-21

PaddleOCR 3.5 发布：Web 端直用、文档一键转 Markdown，生态交互新体验

2026-04-21

用Claude Code剪视频，自动去口癖、加字幕、调色，完全免费开源

2026-04-15

刚刚，李飞飞最新成果发布，手机也能跑亿级粒子的 3D 世界了｜附体验地址

2026-04-09

豆包「打电话」升级 Seeduplex：周围再吵，只认准你的声音

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

2026-04-22

震惊！即梦推出 CLI，Agent 一行命令生成 Seedance 2.0 视频，AI 视频井喷

2026-04-01

零帧起手 Codex × Figma 双向工作流实操

2026-03-05

Seedance 2.0 正式发布

2026-02-12

NanoBanana 2.0 来了，对比前一代和即梦 5.0 lite，它依旧强的离谱

2026-02-27

Seedance 2.0上线火山方舟体验中心，API即将开放

2026-02-12

Google 发布首个全模态 Embedding 2 模型，文本图片音视频 PDF 统一到一个向量空间

2026-03-11

全解读｜智谱 GLM-5V-Turbo 发布，多模态 Coding 基模

2026-04-02

GLM-OCR技术细节全公开

2026-03-18

Qwen-Image-2.0: 字字清晰，张张细腻

2026-02-10

大家都在问

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-12

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw