深入解析LangChain Document Transformers：文本分割器的应用与实战

发布日期：2024-07-18 12:12:56 浏览次数： 3540

在处理自然语言处理 (NLP) 项目时，文档转换是一个关键步骤。加载文档后，通常需要对其进行转换以更好地适应您的应用程序需求。本文将介绍 LangChain 中的核心模块之一：Data Connection 的 Document Transformers，重点是如何使用文本分割器将长文档拆分为适合处理的小块。

一、Text Splitters 文本分割器

在处理长篇文本时，有必要将文本分成块。虽然听起来很简单，但这里存在潜在的复杂性。理想情况下，你希望将语义相关的文本片段放在一起。"语义相关"的含义可能取决于文本类型。LangChain 提供了多种内置的文本分割器，使得这一任务变得简单而高效。

文本分割器的基本工作原理：

将文本分成小而有意义的块（通常是句子）。
开始将这些小块组合成较大的块，直到达到某个大小（通过某个函数进行测量）。
一旦达到该大小，使该块成为独立的一部分，并开始创建一个具有一定重叠（以保持上下文关系）的新文本块。

定制文本分割器的两个主要轴向：

如何拆分文字
如何测量块大小

二、使用文本分割器RecursiveCharacterTextSplitter

RecursiveCharacterTextSplitter 是一种非常灵活和强大的文本分割器，它接受一个字符列表作为参数，根据第一个字符进行切块，但如果任何切块太大，则会继续移动到下一个字符，并以此类推。默认情况下，它尝试进行切割的字符包括 ["\n\n", "\n", " ", ""]。

主要参数和功能：

length_function：用于计算切块长度的方法。默认只计算字符数，但通常可以传递一个令牌计数器。
chunk_size：切块的最大大小（由长度函数测量）。
chunk_overlap：切块之间的最大重叠部分。保持一定程度的重叠可以使得各个切块之间保持连贯性（例如滑动窗口）。
add_start_index：是否在元数据中包含每个切块在原始文档中的起始位置。

def transformer_doc():# 加载待分割长文本    with open('sys_boss.txt',encoding='UTF-8') as f:state_of_the_union = f.read()text_splitter = RecursiveCharacterTextSplitter(chunk_size = 100,chunk_overlap= 20,length_function = len,add_start_index = True,)docs = text_splitter.create_documents([state_of_the_union])print(docs[0])print(docs[1])metadatas = [{"document": 1}, {"document": 2}]documents = text_splitter.create_documents([state_of_the_union, state_of_the_union], metadatas=metadatas)print(documents[0])

三、代码分隔器

下面是一个使用 RecursiveCharacterTextSplitter 的代码示例，展示了如何将文本分割成小块：

def spit_code():print([e.value for e in Language])html_text = """<!DOCTYPE html><html><head><title>?️? LangChain</title><style>body {font-family: Arial, sans-serif;}h1 {color: darkblue;}</style></head><body><div><h1>?️? LangChain</h1><p>⚡ Building applications with LLMs through composability ⚡</p></div><div>As an open source project in a rapidly developing field, we are extremely open to contributions.</div></body></html>"""html_splitter = RecursiveCharacterTextSplitter.from_language(language=Language.HTML, chunk_size=60, chunk_overlap=0)html_docs = html_splitter.create_documents([html_text])print(html_docs)

四、业务场景应用

假设您正在开发一个文档检索系统，用户需要从大量长篇文档中快速获取相关信息。通过将长文档拆分为小块，并在这些小块上运行搜索和匹配算法，可以显著提高系统的响应速度和准确性。

例如，在法律文档检索系统中，每个法律条款可能包含多段文字。通过将每个条款拆分为独立的块，用户可以快速定位到相关的法律条款，提高法律研究的效率。

总结

文本分割是文档处理中的关键步骤，使用 LangChain 提供的 RecursiveCharacterTextSplitter 可以简化这一过程。通过灵活设置切块大小和重叠部分，您可以确保文本块的语义连贯性，从而更好地满足您的应用需求。无论是开发文档检索系统还是处理其他类型的长文本，LangChain 的文本分割器都能为您提供强大的支持。

通过上述内容，希望能帮助您更好地理解和应用 LangChain 的核心模块，为您的 NLP 项目提供有力支持。如果您有任何问题或建议，欢迎在评论区留言，我们将及时回复。