微信扫码
添加专属顾问
我要投稿
提升PDF文档处理效率的利器,PDF-Craft助你轻松转换格式。 核心内容: 1. PDF-Craft工具介绍及其智能识别功能 2. 环境要求及基础安装步骤 3. PDF转Markdown和PDF转EPUB的实践操作
在日常工作中,我们经常需要处理PDF文档,特别是扫描版的书籍或文献。今天有发现一个强大的开源工具 PDF-Craft,它能够智能地将PDF文件转换为Markdown或EPUB格式,并且具有智能识别章节、注释和引用的能力。
pip install pdf-craft
这是最基础的功能,不需要调用远程LLM服务,完全依靠本地计算能力即可完成。第一次调用时会联网下载所需的模型。遇到文档中的插图、表格、公式,会直接截图插入到 MarkDown 文件中。
from pdf_craft import PDFPageExtractor, MarkDownWriter
# 初始化提取器
extractor = PDFPageExtractor(
device="cpu", # 使用GPU时改为 "cuda:0"
model_dir_path="/path/to/model/dir/path" # AI模型存放目录
)
# 开始转换
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/file"):
md.write(block)
这个功能更为强大,需要配合LLM服务使用。
from pdf_craft import PDFPageExtractor
extractor = PDFPageExtractor(
device="cpu", # 使用GPU时改为 "cuda:0"
model_dir_path="/path/to/model/dir/path"
)
from pdf_craft import LLM
llm = LLM(
key="sk-XXXXX", # LLM供应商提供的密钥
url="https://api.deepseek.com", # LLM API地址
model="deepseek-chat", # 模型名称
token_encoding="o200k_base"
)
from pdf_craft import analyse
analyse(
llm=llm,
pdf_page_extractor=pdf_page_extractor,
pdf_path="/path/to/pdf/file",
analysing_dir_path="/path/to/analysing/dir",
output_dir_path="/path/to/output/files"
)
from pdf_craft import generate_epub_file
generate_epub_file(
from_dir_path=output_dir_path,
epub_file_path="/path/to/output/epub"
)
analysing_dir_path目录实现断点续传PDF-Craft是一个功能强大的PDF处理工具,特别适合处理扫描版书籍的转换工作。通过合理配置和使用,可以极大提高文档处理效率。建议在实际部署时,根据具体需求和硬件条件选择合适的功能模块。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-22
Agent终于有了自己的邮箱!腾讯Agently Mail详解
2026-06-20
GLM-5.2本地部署:744B参数模型如何在Mac上跑
2026-06-20
Hermes Agent v0.17发布:AI助手开始扩展触角
2026-06-18
开源中医 Skill:把倪海厦课程变成可检索知识库
2026-06-18
Gemma 4 QAT 模型现已推出: 支持日常端侧设备与消费级 GPU 本地流畅运行
2026-06-17
GLM-5.2 技术解读:智谱百万上下文的新一代旗舰模型
2026-06-16
26.1%的AI编程技能有漏洞:NVIDIA开源 SkillSpector 能扫出什么?
2026-06-12
当 AI Coding Agent 成为基础设施:我们为什么要开源 LoongSuite Pilot
2026-03-30
2026-04-09
2026-04-03
2026-04-01
2026-03-31
2026-03-30
2026-04-18
2026-04-18
2026-03-31
2026-04-02
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01