微信扫码
添加专属顾问
我要投稿
纯本地、无云依赖的文档解析神器,400页PDF仅需1秒,适合快速批量处理和隐私敏感场景。核心内容: 1. LiteParse的核心特性与适用场景 2. 安装方法与多语言支持 3. 实测性能与使用体验分析
大家好,我是 Ai 学习的老章
LlamaIndex 搞了个开源文档解析工具叫 LiteParse,Rust 写的,主打一个本地、轻量、飞快
拿 400 多页PDF试了一下,离谱的是,它仅需1秒钟
但我完整看过,感觉这也是它的唯一优点了,适用范围十分有限
我能想到的一个场景是:文字识别部分交给它,只让强大模型解决表格、图片等等,这样速度快、准确率、低成本可以兼得
LiteParse 是 LlamaIndex 团队出品的开源 PDF 解析库,定位是纯本地、无云依赖、无 LLM、无 API Key 的文档解析方案。核心用 Rust 写,通过 PDFium 做文本提取,内置 Tesseract OCR,解析速度快得离谱
下面这张图展示了 LiteParse 的完整工作流程:
核心特性:
三行命令选一个,全部装完都有统一的 lit CLI:
# Node.js(推荐,我实测走的这条)
npm i -g @llamaindex/liteparse
# Python
pip install liteparse
# Rust
cargo install liteparse
实测安装后验证:
$ lit --version
2.0.0
小插曲:npm registry 显示包版本是 2.0.4,但装出来 lit --version 显示 2.0.0,可能是版本号没同步到 binary 里,不影响使用
我拿了一份真实的 MiniMax IPO 辅导备案报告(3 页中文 PDF)来测试
文本解析(关闭 OCR):
$ lit parse minimax-ipo-counseling.pdf --no-ocr -o output.txt
[liteparse] extract: 949.4ms (3 pages)
[liteparse] ocr: 0.0ms
[liteparse] project: 3.6ms
[liteparse] total: 953.1ms
不到 1 秒搞定 3 页,抽取出了 113 行文本、5120 字节。正文标题、表格内容、公司基本情况全都有:
关于 MiniMax Group Inc.
首次公开发行股票并上市辅导备案报告
成立日期 2021 年 6 月 30 日
注册资本 50,000 美元
辅导协议签署时间 2026 年 5 月 29 日
JSON 格式输出(带 Bounding Box):
$ lit parse minimax-ipo-counseling.pdf --format json --no-ocr -o output.json
[liteparse] extract: 5.6ms (3 pages)
[liteparse] total: 6.0ms
第二次跑因为有缓存,6 毫秒就完事了。JSON 里每个文本块都带坐标信息,47KB 的结构化数据
默认 OCR 模式:
$ lit parse minimax-ipo-counseling.pdf --target-pages "1"
[liteparse] extract: 29.9ms (1 pages)
[liteparse] ocr render: 2.3ms (0 pages)
[liteparse] ocr: 0.0ms
[liteparse] total: 37.8ms
智能判断:这个 PDF 本身有可抽取文本,所以 OCR 模块直接跳过了(0 pages),没有做无用功
截图生成:
$ lit screenshot minimax-ipo-counseling.pdf --target-pages "1-3" --dpi 150 -o ./screenshots
生成 3 张 PNG,每张 1240x1754 分辨率,8-bit RGBA。这个功能对需要多模态 LLM 处理文档的场景非常有用
批量解析:
$ lit batch-parse ./inputs ./outputs --format text --no-ocr --extension .pdf
[liteparse] found 1 files to process
[liteparse] batch complete: 1 succeeded, 0 failed
一个命令递归扫描目录,批量出结果
LiteParse 可以直接装成编码 Agent 的 Skill,这是它的一个杀手级特性:
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
装完之后你的编码 Agent 就能直接解析 PDF、生成截图、提取文本了。Claude Code、Cursor、Qoder 这些 Agent 工具都支持。实测安装后 npx skills list 能看到 liteparse 已经注册成功
使用场景举例:
内置 Tesseract 零配置就能用,指定语言即可:
# 中文
lit parse document.pdf --ocr-language chi_sim
# 法语
lit parse document.pdf --ocr-language fra
# 关闭 OCR(纯文本 PDF)
lit parse document.pdf --no-ocr
需要更高精度?接个 HTTP OCR Server:
# 启动 PaddleOCR Server
cd liteparse/ocr/paddleocr && python server.py
# 指定 OCR Server 解析
lit parse document.pdf --ocr-server-url http://localhost:8828/ocr
OCR API 规范很简单:一个 POST /ocr 端点,接收图片返回 { results: [{ text, bbox, confidence }] },自己写一个也不难
优点:
局限:
--pages vs --target-pages),新项目迭代快可以理解LiteParse 的定位很清晰:轻量、本地、快速的文档解析底座。适合需要批量处理 PDF、对延迟敏感、注重数据隐私的场景。它不试图解决所有文档解析难题,但在它擅长的领域做得足够好
推荐给做 RAG 管线预处理、Agent 工具链搭建、离线文档处理的同学试试
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-08
用 LlamaIndex 让 AI 读懂你的 Excel:三种方案详解
2025-12-04
LlamaIndex 深度实战:用《长安的荔枝》学会构建智能问答系统
2025-09-29
LlamaIndex 开发多智能体 Agents 入门基础
2025-09-27
LlamaIndex 开发智能体 Agents 要点解析
2025-07-21
LlamaIndex 是什么?普通人也能用它构建 AI 应用?
2025-07-13
手把手教你用 LlamaIndex 构建专属AI问答系统(新手友好版)
2025-07-04
LlamaIndex 开发大模型 Agent Workflow攻略
2025-07-01
llamaindex发布Workflows1.0轻量级编排框架