将大型文档拆分为较小的部分是影响检索增强生成 (RAG) 系统性能的一个基本但关键的因素

发布日期：2024-06-15 12:07:53 浏览次数： 3477

作者：知觉之门

微信搜一搜，关注“知觉之门”

将大型文档拆分为较小的部分是影响检索增强生成 (RAG) 系统性能的一个基本但关键的因素。用于开发 RAG 系统的框架通常提供多种选项可供选择。在本文中，我想介绍一种新的选项，该选项尝试借助句子嵌入来识别主题的变化，以便在这些点进行细分。这为 RAG 系统的嵌入步骤奠定了基础，可以为编码主题而不是多个主题混合的文本部分找到向量。我们在主题建模的背景下的一篇论文中介绍了这种方法，但它也适用于 RAG 系统。

RAG 系统

检索增强生成 (RAG) 系统是一种机器学习模型，它结合了基于检索的方法和基于生成的方法，以提高其输出的质量和相关性。它首先根据输入查询从大型数据集中检索相关文档或信息。然后，它使用生成模型（例如基于 Transformer 的语言模型）来使用检索到的信息生成连贯且上下文合适的响应或内容。这种混合方法增强了模型提供准确和信息丰富的响应的能力，尤其是在复杂或知识密集型任务中。

其他拆分选项

在我们更详细地研究该过程之前，我想介绍一些用于文档拆分的其他标准选项。我将使用广泛使用的 Langchain 框架来展示示例。

LangChain 是一个强大的框架，旨在协助完成各种自然语言处理 (NLP) 任务，主要侧重于应用大型语言模型。其基本功能之一是文档拆分，它使用户能够将大型文档分解为更小、更易于管理的块。以下是 LangChain 中文档拆分的关键功能和示例：

LangChain 中文档拆分的关键功能

递归字符文本拆分器：此方法通过基于字符递归划分文本来拆分文档，确保每个块都低于指定的长度。这对于具有自然段落或句子中断的文档特别有用。
标记拆分器：此方法使用标记拆分文档。在处理具有标记限制的语言模型时，这很有用，可确保每个块都符合模型的约束。
句子拆分器：此方法在句子边界处拆分文档。它非常适合维护文本的上下文完整性，因为句子通常代表完整的思想。
正则表达式拆分器：此方法使用正则表达式来定义自定义拆分点。它提供了最高的灵活性，允许用户根据特定于其用例的模式拆分文档。
Markdown 拆分器：此方法专为 Markdown 文档量身定制。它根据 Markdown 特定的元素（如标题、列表和代码块）拆分文本。

LangChain 中文档拆分的示例

1. 递归字符文本拆分器

 
from langchain.text_splitter import RecursiveCharacterTextSplitter

text = "Your long document text goes here..."
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)

2. 标记拆分器

 
from langchain.text_splitter import TokenSplitter

text = "Your long document text goes here..."
splitter = TokenSplitter(max_tokens=512)
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)

3. 句子拆分器

 
from langchain.text_splitter import SentenceSplitter

text = "Your long document text goes here..."
splitter = SentenceSplitter(max_length=5)
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)

4. 正则表达式拆分器

 
from langchain.text_splitter import RegexSplitter

text = "Your long document text goes here..."
splitter = RegexSplitter(pattern=r'\n\n+')
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)

5. Markdown 拆分器

 
from langchain.text_splitter import MarkdownSplitter

text = "Your long markdown document goes here..."
splitter = MarkdownSplitter()
chunks = splitter.split_text(text)
for chunk in chunks:
print(chunk)