[RAG] Late Chunking：使用长上下文嵌入模型的上下文化块嵌入

发布日期：2024-12-15 05:36:27 浏览次数： 2954

作者：简单的机器学习

微信搜一搜，关注“简单的机器学习”

本文介绍一下最近比较火的Late Chunking(延迟分块) ，它用于改进文本嵌入的质量。该方法利用长上下文嵌入模型，在变换器模型之后和均值池化之前进行分块，从而捕获完整的上下文信息。与传统的朴素分块方法相比，延迟分块在各种检索任务中表现更优，且无需额外训练。此外，本文还提出了长延迟分块方法，用于处理超过模型上下文长度的长文档，并介绍了一种基于跨度池化的训练方法，以进一步提高检索准确性。

延迟分块（Late Chunking）

延迟分块是一种利用最近嵌入模型的长上下文输入窗口与大多数应用程序的最佳文本块相对较小的大小之间的差异的策略。这些模型支持更长的输入文本，例如jina-embeddings-v2-small支持8192个标记——大约十页标准文本——而最佳块大小通常要小得多，例如段落的大小。

算法流程如下：

输入

文本：待处理的文本。
分块策略 ：用于确定分块边界的策略（如固定大小边界、句子边界或语义句子边界）。

输出

块嵌入 ：由每个块的嵌入向量组成的序列。

具体步骤如下：

分块：使用分块策略将文本分块，得到分块序列。
标记化：
- 将文本标记化为一系列标记（tokens），得到标记ID序列和每个标记的字符长度序列。
嵌入生成：
- 使用嵌入模型对标记ID序列进行编码，生成每个标记的嵌入向量序列。
确定分块边界：
- 计算分块的起始和结束字符位置和。
- 初始化和为0。
- 遍历标记序列：
- 将添加到列表中。
- 如果当前标记的字符长度加上之前的字符长度总和等于，则设置为。
- 如果当前标记的字符长度加上之前的字符长度总和等于，则设置为。
- 初始化一个空列表用于存储分块边界。
- 对于每个分块：
均值池化：
- 对标记嵌入序列进行均值池化，生成该块的嵌入向量。
- 将添加到列表中。
- 初始化一个空列表用于存储块嵌入。
- 对于每个分块边界：
返回块嵌入：
- 返回块嵌入序列。

长延迟分块（Long Late Chunking）

对于超过模型上下文长度的长文档，论文中提出了长延迟分块方法。

目标：

输入:

文本：待处理的文本。
分块策略 ：用于确定分块边界的策略（如固定大小边界、句子边界或语义句子边界）。
最大标记长度 ：每个宏块的最大标记数量。
重叠长度 ：宏块之间的重叠标记数量。

输出:

块嵌入 ：由每个块的嵌入向量组成的序列。

具体详细步骤：

分块：使用分块策略将文本分块，得到分块序列。
标记化：将文本标记化为一系列标记（tokens），得到标记ID序列和每个标记的字符长度序列。
检查标记数量：如果标记数量小于等于最大标记长度，则直接使用延迟分块方法处理。
初始化变量：初始化变量为，为 1，以及一个空列表用于存储块嵌入。
处理宏块：
- 使用嵌入模型对标记ID序列进行编码，生成每个标记的嵌入向量序列。
- 如果为 1，则将所有标记嵌入添加到列表中。
- 否则，将重叠部分的标记嵌入添加到列表中。
- 更新标记位置：更新为，更新为。
- 当小于标记总数时，执行以下步骤：
返回块嵌入：
- 返回块嵌入序列。