微信扫码
添加专属顾问
我要投稿
| 名称 | OCR | 提取表格内容 | 保留文本顺序 | 提取图片 | 保存成md格式 | 其他特性 |
| pymupdf | ❌ | ✔️ | ✔️ | ✔️ | ❌ | ● 表格提取 ● 自定义字体 |
| pdfminer | ❌ | ❌ | ✔️ | ❌ | ❌ | ● 版面分析 |
| pdfplumber | ❌ | ✔️ | ❌ | ❌ | ❌ | ● 表格提取,但存在丢失列的问题 |
| pypdf2 | ❌ | ❌ | ✔️ | ❌ | ❌ | ● pdf合并与拆分 ● 添加水印 |
| llama-parse | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | ● 付费API每天有免费额度 |
| open-parse | ✔️ | ✔️ | ✔️ | ❌ | ✔️ | ● 文本支持保存markdown和html格式 ●内置表格模型,可自由选择 ●表格带markdown格式 |
| deepdoc | ✔️ | ✔️ | ✔️ | ✔️ | ❌ | ● 支持版面分析 ●表格带html格式 |
| MinerU | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | ● 文本带markdown格式 ● 解析保留中间过程,可用于二次调优 ● 表格提取非常慢,目前效果一般 |
• 非扫描件无OCR要求直接使用pymupdf(fitz)即可,能正确保留双列布局的文本顺序,同时能提取表格和图片,而且表格是以List的格式保留。
• 其余几个传统的PDF解析库倾向于对pdf进行编辑,比如添加水印,增加或者删除页面等。
• llama-parse 中文文档效果不好,而且还是通过API使用,但是每天有固定的免费额度,可以用于处理扫描件。
• deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好,亲测无边框的表格有大多数效果仍可圈可点,并且保留为html格式,因此允许合并单元格;MinerU优势在于识别的文本带有markdown格式,因此用于RAG切分文档中可以省去不少功夫。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-21
设计师慌了:Google Stitch 一出,Figma 两天跌了 12%
2026-03-21
Anthropic 产品经理:PRD 已死,原型万岁
2026-03-19
一部5分钟短剧让你惊出冷汗,它的成功却不在于此
2026-03-13
“洗代码即服务”火了!“开源代码洗白”奇葩网站上线,反讽白嫖企业:开源合规太昂贵了!CC逆向复刻客户软件,十分之一的价格转卖!
2026-03-12
为什么 LSP Language Server 对 Coding Agent 很重要
2026-03-09
给“氛围编程”系上安全带:阿里集团 AI 代码评审实践与 Benchmark 开源
2026-03-09
AI时代的"无界面"交互趋势——兼论用户体验行业发展(长文)
2026-03-05
从生成到交付:AI 做游戏,关键在「边界、地图、循环」
2026-01-23
2026-01-06
2026-01-12
2025-12-25
2026-01-28
2026-01-29
2026-02-11
2026-01-18
2026-02-28
2026-01-20
2026-02-28
2026-02-07
2026-01-29
2026-01-21
2026-01-06
2025-12-22
2025-12-15
2025-12-09