19-LlamaIndexRAG进阶-文档切分与重排序

发布日期：2025-05-27 11:54:50 浏览次数： 2640

作者：质量之巅

微信搜一搜，关注“质量之巅”

https://docs.llamaindex.ai/en/stable/examples/data_connectors/simple_directory_reader/

文档解析方案

什么是文档解析？

就像把不同文档做不同的处理：PDF文件 → 专用工具打开Word文档 → 文本处理，可能包含复杂的表格或者格式扫描件/图片 → ocr

分步详解：

1. 文件加载：找到文档存放位置，就像在电脑文件夹中定位文件常见问题：文件损坏 → 检查文件是否能正常打开2. 格式转换：统一转为纯文本，就像把不同货币兑换成美元示例：将PDF中的表格转为Markdown格式3. 元数据提取：获取文档信息标签，就像查看食品包装上的生产日期包括：作者、创建时间、文档类型等4. 结构化处理：整理内容层次，就像把食材分类放入保鲜盒建立标题层级：章节 > 段落 > 句子

技术难点解析：

处理扫描件：1. 使用OCR（光学字符识别）技术识别文字2. 校正识别错误（如将"3"识别为"B"）3. 保留原始版式信息

处理复杂表格：# 表格解析结果示例| 姓名 | 年龄 | 职业 ||--------|------|------------|| 张三 | 28 | 工程师 || 李四 | 35 | 设计师 |

#解析htmlfrom llama_index.readers.file import HTMLTagReader
reader = HTMLTagReader(tag="section", ignore_no_id=True)docs = reader.load_data("/home/cw/projects/demo_20/V8W9yJZ/index.html")
for doc in docs:print(doc.metadata)
print(docs)

llama-index解析器只适用于简单的文本解析，如果有复杂格式或者表格或者图片等格式，使用第三方库解析

from llama_index.core import SimpleDirectoryReader
reader = SimpleDirectoryReader(    input_files=["/home/cw/projects/demo_17/data/README_zh-CN.md"])
# reader = SimpleDirectoryReader(#     "/home/cw/projects/demo_20/data"# )docs = reader.load_data()print(f"Loaded {len(docs)} docs")print(docs)
# # 案例2：高级解析# import pdfplumber
# with pdfplumber.open("/home/cw/projects/demo_20/data/report_with_table.pdf") as pdf:#     # 提取所有文本#     text = ""#     for page in pdf.pages:#         text += page.extract_text()#     print(text[:200])  # 打印前200字符
#     # 提取表格（自动检测）#     for page in pdf.pages:#         tables = page.extract_tables()#         for table in tables:#             print("\n表格内容：")#             for row in table:#                 print(row)

文本切分方案

为什么需要分块？

就像用收纳盒整理衣物：太大 → 找衣服时要把整个箱子倒出来太小 → 需要开太多盒子才能凑齐一套

分块三要素：

分块策略对比表：

分块常见问题：

问题1：如何确定最佳块大小？

→ 测试不同尺寸查看检索效果

# 测试块大小对召回率的影响sizes = [128, 256, 512]for size in sizes:test_recall = evaluate_chunk_size(size)print(f"块大小{size} → 召回率{test_recall:.2f}%")

问题2：分块重叠是否越多越好？

→ 适当重叠（10-20%）可防止信息断裂，但过多会导致冗余

# 案例1：固定分块from llama_index.core.node_parser import TokenTextSplitterfixed_splitter = TokenTextSplitter(chunk_size=200, chunk_overlap=20)fixed_nodes = fixed_splitter.get_nodes_from_documents(docs)print("固定分块示例：", [len(n.text) for n in fixed_nodes[:3]]) # 输出：[200, 200,200]# 案例2：语义分块from llama_index.core.node_parser import SemanticSplitterNodeParserfrom llama_index.embeddings.huggingface import HuggingFaceEmbeddingsemantic_splitter = SemanticSplitterNodeParser(buffer_size=1,embed_model=HuggingFaceEmbedding("BAAI/bge-small"))semantic_nodes = semantic_splitter.get_nodes_from_documents(docs)print("语义分块示例：", [len(n.text) for n in semantic_nodes[:3]]) # 输出：[183,217, 195]

chunk_size：指token的数量实际项目中：按业务逻辑分，代码能划分使用代码分，如果代码分不了，只能人工标记

检索效果对比（相同查询）

召回率提升方案

什么是召回率？检索结果的评估，涉及文档查询阶段

就像捕鱼网的网眼大小：网眼太大 → 漏掉小鱼（低召回率）网眼太小 → 捞到垃圾（低准确率）

提升召回率的三大策略：

1. 查询扩展：给问题加"修饰词"

原始问题："如何做番茄炒蛋"扩展后："家常番茄炒蛋做法步骤 厨房新手教程 简单易学"

2. 混合检索：结合两种搜索方式

会增加检索时间

用户问题关键词搜索语义搜索初步结果合并去重

3. 向量优化：让AI更懂专业术语

微调前："Transformer" → 理解为"变形金刚"微调后："Transformer" → 识别为"深度学习模型"

效果验证方法：

1. 准备测试问题集（至少50个典型问题）2. 记录基础方案召回率3. 应用优化策略后再次测试4. 对比提升幅度

# 案例1：向量检索from llama_index.core import VectorStoreIndexvector_index = VectorStoreIndex(nodes)vector_retriever = vector_index.as_retriever(similarity_top_k=3)print("向量检索结果：", [node.text[:30] for node invector_retriever.retrieve(query)])# 案例2：混合检索from llama_index.core import KeywordTableIndexkeyword_retriever = KeywordTableIndex(nodes).as_retriever(retriever_mode="bm25",similarity_top_k=3)from llama_index.core.retrievers import QueryFusionRetrieverfusion_retriever = QueryFusionRetriever([vector_retriever, keyword_retriever])print("混合检索结果：", [node.text[:30] for node infusion_retriever.retrieve(query)])

检索结果重排序

为什么要重排序？

就像面试筛选简历：1. 初筛：快速浏览100份简历（初步检索）2. 精筛：详细评估前20份（重排序）3. 终选：确定3位候选人（最终结果）

重排序工作流程：

常见排序模型对比：

无排序 vs Cohere Reranker

# 初始检索结果（按相似度排序）：results = ["模型正则化方法简述", # 相关度0.7"硬件加速技术进展", # 相关度0.65"过拟合解决方案详解", # 相关度0.92 ← 正确答案"数据集清洗方法"]# 应用重排序from llama_index.postprocessor.cohere_rerank import CohereRerankreranker = CohereRerank(api_key="YOUR_KEY", top_n=2)reranked_results = reranker.postprocess_nodes(results, query_str=query)print("重排序后结果：", [res.text for res in reranked_results])

排序变化对比：

原始排序：1. 模型正则化方法简述（相关度0.7）2. 硬件加速技术进展（相关度0.65）3. 过拟合解决方案详解（相关度0.92）← 正确答案4. 数据集清洗方法重排序后：1. 过拟合解决方案详解（评分0.95）← 正确答案2. 模型正则化方法简述（评分0.88）

索引阶段：解析、切分检索阶段：召回率、重排序

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业