AI 知识构建：最佳文本分块方法&代码

发布日期：2024-08-14 08:44:55 浏览次数： 3514

作者：颠覆式创新

微信搜一搜，关注“颠覆式创新”

导言

RAG系统跟传统的搜索引擎在构建的时候有非常多的相似性，传统的搜索引擎为了让在线的查询更准，效率更高，所以在离线做了非常多的数据处理和信息的理解，以便构建更高效的索引

而RAG系统中，为了让整体大模型获取到的知识更加准确，我们也需要对信息进行加工，让它变成知识，甚至甚至，这些知识之间要构建对你的联系 P.S GraphRAG其实就在干这个工作

而最基础的知识构建方式，就是如何进行分块，下文将对分块的方式进行详细介绍

通过阅读本文，你能够获得：

RAG中分块的重要性和原理
分块的方法
开源分块工具获取

关注公众号，复制"开源分块工具 "并后台发送，获取开源分块工具源代码

什么是分块技术

分块或文本分割是一种将大段文本分解为较小块的方法。

例如，可以将一篇文章分成多个段落，一个段落分成多个句子，甚至将单词分成多个字符。

从人类角度来看，这种技术使得处理和记忆信息变得更容易，无论是在学习新知识、组织数据，还是尝试理解复杂概念。

例如，在教育领域，教师使用分块来帮助学生吸收和记住复杂信息，通过将课程分成片段。

从编程角度来看，分块有助于从事文本分析、人工智能、软件开发、RAG等工作的程序员。

例如，在人工智能领域，特别是在检索辅助生成（RAG）中，分块对处理大型数据集至关重要。它使得人工智能能够快速检索特定信息，从而实现更快速和更准确的结果。

为什么需要分块的技术

像ChatGPT和Gemini这样的生成式AI模型的一个主要限制是幻觉。当你问它问题时，它会回答错误或不相关的内容。例如：

你可以看到，它对问题的回答是错误的，尽管显然它并不包含任何'm'。然后，当我问它是否确定时，它意识到自己回答错误了，并进行了修正。

如果你使用GPT-4而不是GPT-3.5，它会对这个问题做出正确的回答。

然而，这并不意味着它不会对其他复杂问题产生幻觉的答案。

这就是检索辅助生成（RAG）的用途，它是一种通过从外部来源获取事实来增强生成式AI模型的准确性和可靠性的技术。

你可以通过给AI模型提供一个外部资源，比如一篇文章，然后问与之相关的问题来实现这一点。

AI模型会分析这段文本，如果在文本中找不到问题的答案，它会告诉你它没有答案，而不是产生幻觉并给出错误的回答。

为了有效地实现这一点，RAG将外部文本分块成一个更小的块的数据库，这样可以改善相关信息的搜索，并将其包含在其回答中。

这不仅提高了生成内容的准确性，还使AI在获取必要数据时更加高效和快速。

这是分块非常重要的一个用例的例子。分块方法越好，RAG程序的响应和工作流程就越好。

分块方法

分块可以根据程序任务的不同方式进行应用。以下是不同分块方法的概述：

按字符分块：将文本分解为单个字符，对于需要深入和细粒度的文本分析任务非常有用。
按字符 + SimplerLLM：除了保留句子结构外，通过字符分块文本，获得更好和更有意义的段落。（在 SimplerLLM 库中可用）
按标记分块：将文本分割为标记，例如单词或子词，通常用于自然语言处理中分析文本。
按段落分块：顾名思义，按段落分块文本，有助于保持文本结构。
递归分块：它涉及将数据重复分解为较小的块，通常用于分层数据结构中。
语义分块：它根据含义而不是结构元素对文本进行分组，对于需要理解数据上下文的任务至关重要。
代理分块：这种类型侧重于识别和根据涉及的代理（如人员或组织）对文本进行分组，对信息提取非常有用。

语义分块是如何工作的？

语义分块的主要思想是根据块的含义相似程度来分割给定的文本。

这种相似性是通过将给定的文本分成句子，然后将所有这些基于文本的块转换为向量嵌入并计算这些块之间的余弦相似度来计算的。

之后，我们初始化一个阈值，例如，0.8，每当连续两个段落之间的余弦相似度大于该阈值时，就在那里进行分割。因此，这个分割之前的所有内容将成为一个块，之后的内容将成为另一个块，依此类推，直到我们得到所有的块。

示例：

正如您在上面所看到的，假设我们将句子1和2转换为向量，检查它们之间的余弦相似度，发现为0.85。由于我们的阈值为0.8，小于我们得到的结果，所以我们进行分块。如果我们选择阈值为0.9，就不会进行分块。

现在，假设我们将句子2和3转换为向量，检查它们的余弦相似度，发现为0.3。因此，在那里不会进行分块，因为我们的阈值为0.8，大于我们得到的结果。

请记住，上面的示例仅是为了使概念更简单而进行的理论说明。

这里需要注意，此处的阈值需要根据内容进行动态调整。

原型代码

我基于上面我解释的算法开发了一个语义块分割器，稍微调整了一下。

不是计算相邻句子之间的余弦相似度，而是将每个句子与其前面的句子和后面的句子结合起来。然后，我计算了组合句子的余弦相似度。

所以，现在不是计算句子2和3之间的相似度，而是计算它们之间的组合句子1,2,3和2,3,4的相似度。

为什么这样做？当仅按句子分块时，你可能会得到两个句子，比如“这并不像看起来那么容易。”和“你知道吗？”。

当你将这些句子转换成向量时，它们之间的余弦相似度不会很接近；然而，在句子结构和含义上，它们非常接近。

因此，当将它们分组并与其他组进行比较时，通过将它们全部转换为一个向量，从而获得更好的结果，因此如果被比较的组在含义上非常接近，它们之间的余弦相似度会很低。

import reimport openaiimport numpy as npfrom sklearn.metrics.pairwise import cosine_similarity
def chunk_text(text):# 将输入文本拆分为单独的句子。single_sentences_list = _split_sentences(text)# 将相邻句子组合在一起，形成每个句子周围的上下文窗口。combined_sentences = _combine_sentences(single_sentences_list) 
# 使用神经网络模型将组合句子转换为向量表示。embeddings = convert_to_vector(combined_sentences)
# 计算连续组合句子嵌入之间的余弦距离以衡量相似性。distances = _calculate_cosine_distances(embeddings)
# 根据所有距离的第80百分位数确定识别断点的阈值距离。breakpoint_percentile_threshold = 80breakpoint_distance_threshold = np.percentile(distances, breakpoint_percentile_threshold)# 找到所有距离超过计算阈值的潜在分块断点的索引。indices_above_thresh = [i for i, distance inenumerate(distances) if distance > breakpoint_distance_threshold]# 初始化分块列表和跟踪下一个分块开始的变量。chunks = []start_index = 0# 遍历识别的断点并相应地创建分块。for index in indices_above_thresh:chunk = ' '.join(single_sentences_list[start_index:index+1]) chunks.append(chunk)start_index = index + 1
# 如果在最后一个断点之后还有句子，将它们添加为最终分块。if start_index < len(single_sentences_list):chunk = ' '.join(single_sentences_list[start_index:])chunks.append(chunk)
# 返回文本分块列表。return chunks
def _split_sentences(text):# 使用正则表达式根据标点符号后面的空格将文本拆分为句子。sentences = re.split(r'(?<=[.?!])\s+', text)return sentences
def _combine_sentences(sentences):# 创建一个缓冲区，将每个句子与其前一个句子和下一个句子结合起来，以提供更广泛的上下文。combined_sentences = []for i inrange(len(sentences)):combined_sentence = sentences[i]if i > 0:combined_sentence = sentences[i-1] + ' ' + combined_sentenceif i < len(sentences) - 1:combined_sentence += ' ' + sentences[i+1]combined_sentences.append(combined_sentence)return combined_sentencesdef convert_to_vector(texts):


# 尝试使用预训练模型为文本列表生成嵌入，并处理任何异常。try:response = openai.embeddings.create(input=texts,model="text-embedding-3-small")embeddings = np.array([item.embedding for item in response.data])return embeddingsexceptException as e:print("An error occurred:", e)return np.array([])# 在出现错误时返回一个空数组


def _calculate_cosine_distances(embeddings):# 计算连续嵌入之间的余弦距离（1-余弦相似度）。distances = []for i inrange(len(embeddings) - 1):similarity = cosine_similarity([embeddings[i]], [embeddings[i + 1]])[0][0]distance = 1 - similaritydistances.append(distance)return distances# 主要部分text = """Your_Input_Text"""chunks = chunk_text(text)print("Chunks:", chunks)

这段代码非常简单，它按照我上面提到的所有步骤进行操作。

在主要部分，你调用了 chunk_text 函数，它接受你的输入文本，然后从中调用所有其他相应的函数。

首先它调用了 _split_senteces 函数将输入文本分割成句子，然后 _combine_sentences 生成了3个句子一组，也就是每个句子与其相邻句子；

之后，所有这些分组的句子都被转换成向量嵌入，使用了 OpenAI 的嵌入模型，然后计算了相邻句子之间的余弦相似度，最后，每当余弦相似度大于我初始化为95的百分位阈值时，就完成了一个块。

尝试通过改变百分位阈值来改变代码，看看块的不同之处。你会意识到，阈值越低，你得到的块就越多。但为什么呢？

当阈值低时，两段文本必须非常相似，才能达到低余弦距离（或高余弦相似度）来通过与阈值的比较而不被分块。

否则，文本将不会被分块，因为当然，并不是所有的文本都非常相似。

具有语义分块器的库

如果你不喜欢自己做这些细节工作，而是更喜欢使用现成的工具和函数，你可以随时使用集成了语义分块器的知名库；以下是一些例子：

LangChain：LangChain 是一个开源库，旨在促进语言模型应用的构建。它提供语义分块功能，增强自然语言理解。

Llama Index：Llama Index 是一个专门的库，为大规模语言模型提供高效的索引和检索能力。它集成了语义分块以提高搜索精度和相关性。

SimplerLLM：即将推出... 我将很快为 SimplerLLM 添加更多的分块功能。敬请关注！

这些库在方法和允许的定制程度上有所不同，因此选择使用哪个可能取决于您项目的具体要求。

最好的方法是拿上面的原型，然后根据自己的喜好进行编辑

正如你所看到的，我正在从网站加载一篇博客文章，计算余弦相似度，并绘制结果：