我要投稿

PDF解析器对比

发布日期：2024-08-31 12:17:11 浏览次数： 2943

作者：深度学习机器

微信搜一搜，关注“深度学习机器”

一汇总

名称	OCR	提取表格内容	保留文本顺序	提取图片	保存成md格式	其他特性
pymupdf	❌	✔️	✔️	✔️	❌	● 表格提取 ● 自定义字体
pdfminer	❌	❌	✔️	❌	❌	● 版面分析
pdfplumber	❌	✔️	❌	❌	❌	● 表格提取，但存在丢失列的问题
pypdf2	❌	❌	✔️	❌	❌	● pdf合并与拆分 ● 添加水印
llama-parse	✔️	✔️	✔️	✔️	✔️	● 付费API每天有免费额度
open-parse	✔️	✔️	✔️	❌	✔️	● 文本支持保存markdown和html格式 ●内置表格模型，可自由选择 ●表格带markdown格式
deepdoc	✔️	✔️	✔️	✔️	❌	● 支持版面分析 ●表格带html格式
MinerU	✔️	✔️	✔️	✔️	✔️	● 文本带markdown格式 ● 解析保留中间过程，可用于二次调优 ● 表格提取非常慢，目前效果一般

二总结

• 非扫描件无OCR要求直接使用pymupdf(fitz)即可，能正确保留双列布局的文本顺序，同时能提取表格和图片，而且表格是以List的格式保留。
• 其余几个传统的PDF解析库倾向于对pdf进行编辑，比如添加水印，增加或者删除页面等。
• llama-parse 中文文档效果不好，而且还是通过API使用，但是每天有固定的免费额度，可以用于处理扫描件。
• deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好，亲测无边框的表格有大多数效果仍可圈可点，并且保留为html格式，因此允许合并单元格；MinerU优势在于识别的文本带有markdown格式，因此用于RAG切分文档中可以省去不少功夫。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-06

Amazon Quick桌面版：读文档、做PPT、查邮件，一句话全搞定

2026-04-28

gpt-image-2发布后，PPT最强skill

2026-04-18

刚刚，Claude Design 发布！网友：将摧毁设计行业……

2026-04-14

纳米漫剧流水线，我劝你别太离谱

2026-03-30

他们用悟空重写了内容生产这件事

2026-03-27

了解 CreawAI RGB 模式

2026-03-24

陶哲轩：AI 已经把想法成本降到几乎为0了...

2026-03-23

我提议，放开AI做作业的限制

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

98.4K Star！OpenCode+Agent Browser 重构自动化测试流程

2026-02-11

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

Anthropic 产品经理：PRD 已死，原型万岁

2026-03-21

AI时代的"无界面"交互趋势——兼论用户体验行业发展（长文）

2026-03-09

从生成到交付：AI 做游戏，关键在「边界、地图、循环」

2026-03-05

给“氛围编程”系上安全带：阿里集团 AI 代码评审实践与 Benchmark 开源

2026-03-09

为什么 LSP Language Server 对 Coding Agent 很重要

2026-03-12

“洗代码即服务”火了！“开源代码洗白”奇葩网站上线，反讽白嫖企业：开源合规太昂贵了！CC逆向复刻客户软件，十分之一的价格转卖！

2026-03-13

陶哲轩：AI 已经把想法成本降到几乎为0了...

2026-03-24

设计师慌了：Google Stitch 一出，Figma 两天跌了 12%

2026-03-21

大家都在问

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

AI内容工程化：为什么你的团队用了AI，内容还是做不出来?

2026-02-07

OpenAI发布的新科研工具Prism，相比起Overleaf如何？值得入手吗？

2026-01-29

当A++成为新的“紧箍咒”：我们是否忘记了测试的初衷？

2026-01-21

AI对全球白领就业冲击有多大？

2026-01-06

警惕！AI创业的三重“陷阱”你避开了吗？

2025-12-22

NotebookLM+Nano Banana Pro：你的下一个PPT，何必是PPT？

2025-12-15

你用AI做的应用，是在挠自己的痒痒吗？

2025-12-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部