我要投稿

开源 PDF 表格抽取神器来了：一键提取 PDF 表格数据，还提供 Web 可视化操作界面！

发布日期：2024-07-10 11:11:00 浏览次数： 3553

作者：AI真好玩

微信搜一搜，关注“AI真好玩”

在信息爆炸的今天，我们经常面临着从大量 PDF 文档中提取关键数据的挑战。无论是财务报表、市场调研数据还是法律文档，这些PDF 文件中蕴含的表格信息往往需要被转换为可操作的数据格式，以便进行进一步的分析和处理。然而，手动从 PDF 中提取表格数据不仅耗时，而且容易出错，这对于追求效率和精确度的专业人士来说是一个不小的难题。

本文我将介绍一个开源的 PDF 表格抽取工具 —— camelot^[1]。

camelot 使用示例

camelot 快速上手

新建 camelot 项目
安装 Ghostscript^[2]，它用于解析 PDF 文件。macOS 用户可以使用 brew 来安装 Ghostscript。

brew install ghostscript

使用 pip 安装 camelot

pip install "camelot-py[base]"

新建 main.py 文件并输入以下内容

import camelot

tables = camelot.read_pdf('foo.pdf')
tables.export('foo.csv', f='csv', compress=False)

运行 main.py 程序

python3 main.py

对于 macOS 或 Linux 系统的用户来说，在运行 main.py 程序时，如果出现以下错误：

/ghostscript/_gsprint.py", line 267, in <module>
    raise RuntimeError("Please make sure that Ghostscript is installed")

可以在运行程序前，先配置 DYLD_LIBRARY_PATH 环境变量：

export DYLD_LIBRARY_PATH=/opt/homebrew/Cellar/ghostscript/10.03.1/lib/

成功运行 main.py 程序之后，在 camelot 项目根目录下生成对应的 csv 文件。

excalibur 快速上手

为了方便用户使用 camelot，camelot 团队提供了一个 Web 工具 —— excalibur^[3]。

使用 pip 安装 excalibur

pip install excalibur-py

初始化数据库

excalibur initdb

启动 excalibur 服务器

excalibur webserver

当服务器成功启动后，在浏览器中打开 http://127.0.0.1:5000/files 地址，就会看到以下操作界面：

之后，点击 Upload PDF 按钮选择本地 PDF 文件，就可以开始抽取表格了。此外 excalibur 还提供的检测表格的功能，使用效果如下图所示：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-14

AI时代最需要的是判断力

2026-05-14

你的 React 应用还在让 AI 只输出文字？CopilotKit 可以让它直接渲染组件

2026-05-14

LinkedIn高管AI时代生存指南：别卷了，AI时代拼的是做人

2026-05-14

如何用AI提效，又不把脑子用废？

2026-05-11

我终于理解了 datawork：它不是一个 Agent，而是个人的 AI 工作台、上下文中心

2026-05-09

我制作了 Feishu2MD 的桌面应用，帮助你快速批量导出飞书文档

2026-05-07

十年老技术开发的 AI Agent 探索之路

2026-04-25

OpenAI 出圈的「AI 屏幕记忆」，我找到了关于它的最佳答案

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

我分析了 1000 个 skills，这是最推荐的 30 个

2026-02-24

Obsidian 1.12 正式发布！官方 CLI 命令行工具上线，你的知识库从此可编程、可自动化

2026-02-28

微信PC版上线语音输入，AI 时代再造留存神话

2026-02-15

Claude code 产品经理Cat Wu亲述：我是如何用AI彻底重构PM工作流的

2026-03-21

开源两天斩获 1.8K Star！把网站变成命令行工具，支持国内外主流平台！

2026-03-19

比 iTerm2 更好的 Claude Code 终端

2026-02-19

开源免费！这个浏览器插件真香！AI重度用户必看，Gemini 用户必用

2026-02-19

阿里桌面Agent QoderWork全面开放！人人可用的智能体来了

2026-03-03

后悔没早用！AstrBot让我的微信变成最强AI助手

2026-02-23

实测腾讯QClaw：微信找到了和“龙虾”共存的方式

2026-03-10

大家都在问

如何用AI提效，又不把脑子用废？

2026-05-14

为什么要构建个人知识体系？

2026-04-14

Coding Agent 的最终形态是 TUI + GUI 吗？

2026-02-04

谁来给桌面 Agent 的转正签字？

2026-01-21

AI 正在稀释「专家」，什么才是你的新护城河？

2026-01-18

Notion CEO发布AI年度思考笔记，发布1天，200万人围观，AI职场人的黄金时代刚刚开始？

2025-12-25

有了 NotebookLM 后，还需要 Obsidian 吗？

2025-12-10

谁是中国 AI 创新的第一公里？

2025-12-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw