微信扫码
添加专属顾问
 
                        我要投稿
提升PDF文档处理效率的利器,PDF-Craft助你轻松转换格式。 核心内容: 1. PDF-Craft工具介绍及其智能识别功能 2. 环境要求及基础安装步骤 3. PDF转Markdown和PDF转EPUB的实践操作
 
                                在日常工作中,我们经常需要处理PDF文档,特别是扫描版的书籍或文献。今天有发现一个强大的开源工具 PDF-Craft,它能够智能地将PDF文件转换为Markdown或EPUB格式,并且具有智能识别章节、注释和引用的能力。
pip install pdf-craft
这是最基础的功能,不需要调用远程LLM服务,完全依靠本地计算能力即可完成。第一次调用时会联网下载所需的模型。遇到文档中的插图、表格、公式,会直接截图插入到 MarkDown 文件中。
from pdf_craft import PDFPageExtractor, MarkDownWriter
# 初始化提取器
extractor = PDFPageExtractor(
    device="cpu",  # 使用GPU时改为 "cuda:0"
    model_dir_path="/path/to/model/dir/path"  # AI模型存放目录
)
# 开始转换
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
    for block in extractor.extract(pdf="/path/to/pdf/file"):
        md.write(block)
这个功能更为强大,需要配合LLM服务使用。
from pdf_craft import PDFPageExtractor
extractor = PDFPageExtractor(
    device="cpu",  # 使用GPU时改为 "cuda:0"
    model_dir_path="/path/to/model/dir/path"
)
from pdf_craft import LLM
llm = LLM(
    key="sk-XXXXX",           # LLM供应商提供的密钥
    url="https://api.deepseek.com",  # LLM API地址
    model="deepseek-chat",    # 模型名称
    token_encoding="o200k_base"
)
from pdf_craft import analyse
analyse(
    llm=llm,
    pdf_page_extractor=pdf_page_extractor,
    pdf_path="/path/to/pdf/file",
    analysing_dir_path="/path/to/analysing/dir",
    output_dir_path="/path/to/output/files"
)
from pdf_craft import generate_epub_file
generate_epub_file(
    from_dir_path=output_dir_path,
    epub_file_path="/path/to/output/epub"
)
analysing_dir_path目录实现断点续传PDF-Craft是一个功能强大的PDF处理工具,特别适合处理扫描版书籍的转换工作。通过合理配置和使用,可以极大提高文档处理效率。建议在实际部署时,根据具体需求和硬件条件选择合适的功能模块。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-31
有人问我会不会用 AI,我直接拿出这个 Ollama + FastGPT 项目给他看
2025-10-30
开源可信MCP,AICC机密计算新升级!
2025-10-30
OpenAI 开源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b
2025-10-29
刚刚,OpenAI 再次开源!安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5
2025-10-29
AI本地知识库+智能体系列:手把手教你本地部署 n8n,一键实现自动采集+智能处理!
2025-10-29
n8n如何调用最近爆火的deepseek OCR?
2025-10-29
OpenAI终于快要上市了,也直面了这23个灵魂拷问。
2025-10-29
保姆级教程:我用Coze干掉了最烦的周报
 
            2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-08-06
2025-10-20
2025-08-22
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07