我要投稿

开源的本地文档解析神器，实测，快如闪电，400 页 PDF 仅需 1 秒

发布日期：2026-06-02 20:43:36 浏览次数： 1515

作者：Ai学习的老章

微信搜一搜，关注“Ai学习的老章”

Agent、AI 编程、Vibe Coding 实战、泛人工智能、泛科技发展动态，日更原创技术文章" data-id="MzA4MjYwMTc5Nw==" data-is_biz_ban="0" data-service_type="1" data-verify_status="1">

大家好，我是 Ai 学习的老章

LlamaIndex 搞了个开源文档解析工具叫 LiteParse，Rust 写的，主打一个本地、轻量、飞快

拿 400 多页PDF试了一下，离谱的是，它仅需1秒钟

但我完整看过，感觉这也是它的唯一优点了，适用范围十分有限

我能想到的一个场景是：文字识别部分交给它，只让强大模型解决表格、图片等等，这样速度快、准确率、低成本可以兼得

简介

LiteParse 是 LlamaIndex 团队出品的开源 PDF 解析库，定位是纯本地、无云依赖、无 LLM、无 API Key 的文档解析方案。核心用 Rust 写，通过 PDFium 做文本提取，内置 Tesseract OCR，解析速度快得离谱

LlamaParse 是 LlamaIndex 的云端文档解析服务，适合处理复杂表格、多栏排版、手写体这种硬骨头。
LiteParse 是轻量本地版，适合快速批量处理、离线环境、隐私敏感场景。两者互补，不冲突

下面这张图展示了 LiteParse 的完整工作流程：

核心特性：

Rust 性能底座：核心逻辑全部 Rust 实现，解析一个 3 页 PDF 不到 1 秒
多语言绑定：Node.js、Python、Rust、浏览器 WASM 四种用法任选，CLI 命令完全一致
灵活 OCR 系统：内置 Tesseract 零配置可用，还支持 HTTP OCR Server（EasyOCR、PaddleOCR 随便接）
多格式输入：PDF、DOCX、XLSX、PPTX、各种图片格式，Office 文档走 LibreOffice 自动转换
Bounding Box：每个文本块都带精确坐标，做后续 AI 流水线直接拿去用
Agent Skill 支持：一行命令装到编码 Agent 里，Claude Code、Cursor、Qoder 都能直接调用

安装

三行命令选一个，全部装完都有统一的 lit CLI：

# Node.js（推荐，我实测走的这条）
npm i -g @llamaindex/liteparse

# Python
pip install liteparse

# Rust
cargo install liteparse

实测安装后验证：

$ lit --version
2.0.0

小插曲：npm registry 显示包版本是 2.0.4，但装出来 lit --version 显示 2.0.0，可能是版本号没同步到 binary 里，不影响使用

实测

我拿了一份真实的 MiniMax IPO 辅导备案报告（3 页中文 PDF）来测试

文本解析（关闭 OCR）：

$ lit parse minimax-ipo-counseling.pdf --no-ocr -o output.txt
[liteparse] extract: 949.4ms (3 pages)
[liteparse] ocr: 0.0ms
[liteparse] project: 3.6ms
[liteparse] total: 953.1ms

不到 1 秒搞定 3 页，抽取出了 113 行文本、5120 字节。正文标题、表格内容、公司基本情况全都有：

关于 MiniMax Group Inc.
首次公开发行股票并上市辅导备案报告
成立日期 2021 年 6 月 30 日
注册资本 50,000 美元
辅导协议签署时间 2026 年 5 月 29 日

JSON 格式输出（带 Bounding Box）：

$ lit parse minimax-ipo-counseling.pdf --format json --no-ocr -o output.json
[liteparse] extract: 5.6ms (3 pages)
[liteparse] total: 6.0ms

第二次跑因为有缓存，6 毫秒就完事了。JSON 里每个文本块都带坐标信息，47KB 的结构化数据

默认 OCR 模式：

$ lit parse minimax-ipo-counseling.pdf --target-pages "1"
[liteparse] extract: 29.9ms (1 pages)
[liteparse] ocr render: 2.3ms (0 pages)
[liteparse] ocr: 0.0ms
[liteparse] total: 37.8ms

智能判断：这个 PDF 本身有可抽取文本，所以 OCR 模块直接跳过了（0 pages），没有做无用功

截图生成：

$ lit screenshot minimax-ipo-counseling.pdf --target-pages "1-3" --dpi 150 -o ./screenshots

生成 3 张 PNG，每张 1240x1754 分辨率，8-bit RGBA。这个功能对需要多模态 LLM 处理文档的场景非常有用

批量解析：

$ lit batch-parse ./inputs ./outputs --format text --no-ocr --extension .pdf
[liteparse] found 1 files to process
[liteparse] batch complete: 1 succeeded, 0 failed

一个命令递归扫描目录，批量出结果

Agent Skill

LiteParse 可以直接装成编码 Agent 的 Skill，这是它的一个杀手级特性：

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

装完之后你的编码 Agent 就能直接解析 PDF、生成截图、提取文本了。Claude Code、Cursor、Qoder 这些 Agent 工具都支持。实测安装后 npx skills list 能看到 liteparse 已经注册成功

使用场景举例：

让 Agent 直接解析合同 PDF 抽取关键条款
批量截图文档页面给多模态 LLM 做理解
在 Agent 工作流里直接嵌入文档解析环节

OCR 配置

内置 Tesseract 零配置就能用，指定语言即可：

# 中文
lit parse document.pdf --ocr-language chi_sim

# 法语
lit parse document.pdf --ocr-language fra

# 关闭 OCR（纯文本 PDF）
lit parse document.pdf --no-ocr

需要更高精度？接个 HTTP OCR Server：

# 启动 PaddleOCR Server
cd liteparse/ocr/paddleocr && python server.py

# 指定 OCR Server 解析
lit parse document.pdf --ocr-server-url http://localhost:8828/ocr

OCR API 规范很简单：一个 POST /ocr 端点，接收图片返回 { results: [{ text, bbox, confidence }] }，自己写一个也不难