我要投稿

扫描PDF转换太痛苦？pdf-craft秒转Markdown/EPUB，自动生成目录注释、引文对齐

发布日期：2025-05-19 22:10:20 浏览次数： 2159

作者：CourseAI

微信搜一搜，关注“CourseAI”

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术，免费分享业界实战案例与课程，助力您全面拥抱AIGC。

PDF-Craft实战

将 PDF 转换为 MarkDown

from pdf_craft import PDFPageExtractor, MarkDownWriter

extractor = PDFPageExtractor(
  device="cpu", # If you want to use CUDA, please change to device="cuda:0" format.
  model_dir_path="/path/to/model/dir/path", # The folder address where the AI model is downloaded and installed
)
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
  for block in extractor.extract(pdf="/path/to/pdf/file"):
    md.write(block)

如果原始 PDF 中有插图（或表格、公式），则会在与保存图像相同的级别创建一个目录。

目录中的图片将在 MarkDown 文件中以相对地址的形式被引用。*.md``assets``*.md``assets

将 PDF 转换为 EPUB
首先创建PDF抽取对象

extractor = PDFPageExtractor(
  device="cpu", # If you want to use CUDA, please change to device="cuda:0" format.
  model_dir_path="/path/to/model/dir/path", # The folder address where the AI model is downloaded and installed
)

将抽取的内容送给LLM，生成EPUB文件

from pdf_craft import analyse
from pdf_craft import LLM

llm = LLM(
  key="sk-XXXXX", # LLM 供应商提供的 key
  url="https://api.DeepSeek.com", # LLM 供应商提供的 URL
  model="deepseek-chat", # LLM 供应商提供的模型
  token_encoding="o200k_base", # 进行 tokens 估算的本地模型名（与 LLM 无关，若不关心就保留 "o200k_base"）
)

analyse(
  llm=llm, # 上一步准备好的 LLM 配置
  pdf_page_extractor=pdf_page_extractor, # 上一部准备好的 PDFPageExtractor 对象
  pdf_path="/path/to/pdf/file", # PDF 文件路径
  analysing_dir_path="/path/to/analysing/dir", # analysing 文件夹地址
  output_dir_path="/path/to/output/files", # 分析结果将写入这个文件夹
)

output_dir_path，表示扫描和分析的结果（会有多个文件）应该保存在哪个文件夹。
analysing_dir_path，用来存储分析过程中的中间状态。
在分析结束后，将 output_dir_path 文件夹地址传给如下代码作为参数，即可最终生成 EPUB 文件。

pdf-craft主要功能：

使用本地 AI 模型将 PDF 转换为 Markdown 格式，无需联网
支持将 PDF 转换为带结构的 EPUB 电子书格式
智能识别并过滤页眉、页脚、脚注、页码等干扰元素
自动处理图表、公式，以图片形式保留在转换后的文件中
结合 LLM 技术构建书籍结构，生成带目录和章节的 EPUB

pdf-craft的转化逻辑

首先，将PDF分页拆解成图片

其次，利用DocLayout-YOLO识别图片中的block元素，包括：页眉、页脚、段落、标题、图片、表格、图表、页码等信息

然后，利用layoutreader对block进行排序

接着，利用OnnxOCR，识别block中的文字

最后，将OCR识别的文字，输送给Deepseek，并通过特定信息（比如目录等）来构建书本的结构，最终生成带目录，分章节的 EPUB 文件。

这个解析和构建的过程中，会通过 LLM 读取每页的注释和引用信息，然后在 EPUB 文件中以新的格式呈现。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-03

多模态文档智能解析最新开源进展：GLM-OCR方法概述

2026-02-02

月之暗面Kimi正式发布官方编程工具：Kimi Code

2026-01-30

用AI做深度用户访谈，获蓝驰、高瓴、王慧文投资

2026-01-29

DeepSeek-OCR 2重磅发布:让AI像人一样读懂复杂文档

2026-01-28

LingBot-Depth 正式开源：让机器人“看清”物理世界

2026-01-28

一文带你读懂DeepSeek-OCR 2的细节！附实测！

2026-01-27

DeepSeek出品，必是精品！DeepSeek-OCR 2发布：让LLM像人一样读懂复杂文档，效果超Gemini 3 Pro

2026-01-27

DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

谁是OCR王者？MinerU、PaddleOCR、DeepSeek-OCR 实测对比，集成一个多模态PDF解析系统

2025-11-10

万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

2025-12-15

微软又上大分！刚刚开源一款 0.5B 轻量级实时 TTS 模型，还能边想边说！

2025-12-06

阿里 Qwen3-TTS 全新上线！支持9种方言+49种音色，连天津味儿都拿捏了！

2025-12-07

多模态检索新突破！Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么，从图片到视频全拿下！

2026-01-10

Gemini 3 多模态Prompt：手相宗师 - 玄师

2025-11-19

GLM-TTS技术报告：基于多奖励强化学习的可控发音语音合成

2025-12-11

声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

2025-12-17

蓝色光标×火山引擎：用AI实现多模态内容创作自由

2026-01-05

秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

2025-12-14

大家都在问

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： [email protected]

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部