微信扫码
添加专属顾问
我要投稿
PDF转换神器来袭,一键将PDF文件转换为Markdown或EPUB,自动生成目录注释和引文对齐。 核心内容: 1. PDF-Craft工具介绍及安装 2. 将PDF文件转换为Markdown格式 3. 将PDF文件转换为EPUB格式
本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(
device="cpu", # If you want to use CUDA, please change to device="cuda:0" format.
model_dir_path="/path/to/model/dir/path", # The folder address where the AI model is downloaded and installed
)
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/file"):
md.write(block)
如果原始 PDF 中有插图(或表格、公式),则会在与保存图像相同的级别创建一个目录。
目录中的图片将在 MarkDown 文件中以相对地址的形式被引用。*.md``assets``*.md``assets
将 PDF 转换为 EPUB
首先创建PDF抽取对象
extractor = PDFPageExtractor(
device="cpu", # If you want to use CUDA, please change to device="cuda:0" format.
model_dir_path="/path/to/model/dir/path", # The folder address where the AI model is downloaded and installed
)
将抽取的内容送给LLM,生成EPUB文件
from pdf_craft import analyse
from pdf_craft import LLM
llm = LLM(
key="sk-XXXXX", # LLM 供应商提供的 key
url="https://api.DeepSeek.com", # LLM 供应商提供的 URL
model="deepseek-chat", # LLM 供应商提供的模型
token_encoding="o200k_base", # 进行 tokens 估算的本地模型名(与 LLM 无关,若不关心就保留 "o200k_base")
)
analyse(
llm=llm, # 上一步准备好的 LLM 配置
pdf_page_extractor=pdf_page_extractor, # 上一部准备好的 PDFPageExtractor 对象
pdf_path="/path/to/pdf/file", # PDF 文件路径
analysing_dir_path="/path/to/analysing/dir", # analysing 文件夹地址
output_dir_path="/path/to/output/files", # 分析结果将写入这个文件夹
)
output_dir_path,表示扫描和分析的结果(会有多个文件)应该保存在哪个文件夹。
analysing_dir_path,用来存储分析过程中的中间状态。
在分析结束后,将 output_dir_path 文件夹地址传给如下代码作为参数,即可最终生成 EPUB 文件。
首先,将PDF分页拆解成图片
其次,利用DocLayout-YOLO识别图片中的block元素,包括:页眉、页脚、段落、标题、图片、表格、图表、页码等信息
然后,利用layoutreader对block进行排序
接着,利用OnnxOCR,识别block中的文字
最后,将OCR识别的文字,输送给Deepseek,并通过特定信息(比如目录等)来构建书本的结构,最终生成带目录,分章节的 EPUB 文件。
这个解析和构建的过程中,会通过 LLM 读取每页的注释和引用信息,然后在 EPUB 文件中以新的格式呈现。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-27
一个神奇的视频生成 Skills,实测,狂喜
2026-04-26
你的一人公司品牌部,带着Image-2模型的lovart中文版来了
2026-04-22
MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
2026-04-22
刚刚!Codex 居然能直接画图了,OpenAI 凌晨甩出 Image 2.0
2026-04-21
PaddleOCR 3.5 发布:Web 端直用、文档一键转 Markdown,生态交互新体验
2026-04-21
用Claude Code剪视频,自动去口癖、加字幕、调色,完全免费开源
2026-04-15
刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址
2026-04-09
豆包「打电话」升级 Seeduplex:周围再吵,只认准你的声音
2026-04-22
2026-04-01
2026-03-05
2026-02-12
2026-02-27
2026-02-12
2026-03-11
2026-04-02
2026-03-18
2026-02-10
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30