AI“落地”系列-RAG前置文档解析

发布日期：2025-03-01 15:54:35 浏览次数： 2592

作者：菜菜讲AI

微信搜一搜，关注“菜菜讲AI”

为何需要对非结构化文档进行解析

RAG（Retrieval-Augmented Generation）时，对非结构化文档进行解析是至关重要的步骤，因为有多种优势。此图是整体的RAG流程，供参考，本文主要讲的是数据准备阶段。

提高检索准确性
**结构化信息提取：非结构化文档解析可以将文档中的文本、表格、图像等信息提取并转换为结构化数据。这使得RAG系统能够更准确地定位和检索相关信息。例如，将PDF文档中的表格数据提取为结构化的表格格式，可以方便地进行查询和分析。
保留文档结构：解析过程中保留文档的结构信息，如标题、段落、列表等，有助于RAG系统更好地理解文档的层次结构，从而提高检索的精度。
增强生成质量

上下文理解：结构化的文档信息为语言模型提供了更丰富的上下文，有助于生成更准确和相关的答案。例如，文档树结构可以清晰地表示文档的层次关系，帮助语言模型更好地理解上下文。
减少幻觉现象：解析准确的文档内容可以减少生成答案时的“幻觉”现象，即生成与原始文档不一致或偏离主题的回答。
提升系统性能

提高召回率：准确的文档解析可以确保在检索阶段能够更全面地召回相关文档部分，提高系统的召回率。
优化排序：解析后的结构化数据可以更方便地进行相关性排序，确保返回的文档片段是最相关的。
支持复杂查询

多部分信息整合：对于需要综合多个部分信息的复杂查询，结构化的文档信息可以更好地识别和整合来自文档不同部分的信息，生成综合的答案。
处理密集非结构化文本：在处理复杂的非结构化文档，如财务报告、法律文件和学术论文时，解析工具如LlamaParse和spRAG可以显著提升处理复杂查询的准确性。

前置文档解析

在Hugging Face中，有多种模型和工具可以用于非结构化文档解析，以下是一些推荐的模型和工具：

1.Unstructured

Unstructured是一个功能强大的Python库，提供了一系列开源组件，用于摄取和预处理各种非结构化文档，如PDF、HTML、Word文档等。其核心目标是将非结构化数据转换为结构化数据，以便后续处理。

Unstructured 会依赖NLTK（自然语言处理工具包），这个可能需要自己手动下载，可以参考

https://zhuanlan.zhihu.com/p/599003991

2.PaperMage

PaperMage是一个专门用于解析PDF文档的工具，特别适用于学术论文。它通过以下步骤进行文档解析：

纯文本提取
使用PDFPlumber提取PDF中的文字部分，得到words集合，并基于words位置关系检测文本行（lines）。
视觉标注
将PDF按页光栅化成位图，通过目标检测技术识别位图中的元素，得到blocks，每个block包括边界框（bounding box，bbox）和标签（如图片、表格等）信息。目标检测模型使用的是efficientdet系列模型：layoutparser/efficientdet。
字符级标注
使用I-VILA系列模型（allenai/ivila-block-layoutlm-finetuned-s2vl-v2）进行字符级标注，将前两步的结果作为输入，预测出每个word的标签。

3.RAGFlow DeepDoc

RAGFlow DeepDoc是一个支持多种文本切片模板的组件，适用于不同的业务场景。它可以帮助将非结构化文档解析为结构化数据，提升信息检索和文本生成的准确性和效率。

4.unstructured-inference

unstructured-inference是一个专注于非结构化数据预处理的Python库，其核心功能包括文档布局解析和光学字符识别（OCR）。它支持多种检测模型，如Detectron2和YOLOX，并可通过API与unstructured包集成。

5.LangChain

LangChain提供了一系列文档加载器，可以用于加载和解析各种格式的非结构化文档，如Word、PDF、Email、图片、Markdown和PPT等。以下是一些常用的加载器：

Word文档解析

from langchain.document_loaders import UnstructuredWordDocumentLoader
loader = UnstructuredWordDocumentLoader("example_data/fake.docx")
data = loader.load()
print(data)

PDF文档解析

基于unstructured库

from langchain.document_loaders import UnstructuredFileLoader
loader = UnstructuredFileLoader("./example_data/layout-parser-paper.pdf", mode="elements")
docs = loader.load()
print(docs[:5])

- **使用PyPDF工具**：

from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader("example_data/layout-parser-paper.pdf")
pages = loader.load_and_split()

- **在线读取工具**：

from langchain.document_loaders import OnlinePDFLoader
loader = OnlinePDFLoader("https://arxiv.org/pdf/2302.03803.pdf")
data = loader.load()
print(data)

- **使用PDFMiner库**：

from langchain.document_loaders import PDFMinerLoader
loader = PDFMinerLoader("example_data/layout-parser-paper.pdf")
data = loader.load()

Email邮件解析

from langchain.document_loaders import UnstructuredEmailLoader
loader = UnstructuredEmailLoader('example_data/fake-email.eml')
data = loader.load()

图片内容解析

from langchain.document_loaders.image import UnstructuredImageLoader
loader = UnstructuredImageLoader("layout-parser-paper-fast.jpg")
data = loader.load()

Markdown内容解析
基于unstructured库

loader = document_loaders.UnstructuredFileLoader(filepath, mode="elements", autodetect_encoding=True)
docs = loader.load()

PPT内容解析

from langchain.document_loaders import UnstructuredPowerPointLoader
loader = UnstructuredPowerPointLoader("example_data/fake-power-point.pptx")
data = loader.load()

文档解析面临的难点

待后续单独开一篇文章写一下这方面的问题和挑战，敬请期待...

文档解析后的-向量化（Embedding）

Hugging Face提供了多种高质量的Embedding模型，能够将文本转换为向量表示，用于计算文本之间的语义相似度，从而实现精准的信息检索。这些模型可以与Elasticsearch等向量存储系统结合使用，构建高效的检索增强生成（RAG）系统。Hugging Face上对中文比较友好的Embedding模型：

注意：如果下载过程遇到网络不通的问题，可以通过国内镜像https://hf-mirror.com/或者modelscope(https://www.modelscope.cn/models)下载