我要投稿

别让大模型在“垃圾堆”里找金子：深度解析 RAG 的上下文压缩技术

发布日期：2025-12-22 08:19:03 浏览次数： 1760

作者：彭俊旗的AI工具箱

微信搜一搜，关注“彭俊旗的AI工具箱”

在 RAG（检索增强生成）的工程实践中，我们常常陷入一种“囤积癖”式的误区：

为了防止漏掉关键信息，我们恨不得把检索到的 Top 20 文档，连同文件名、页码甚至页眉页脚，一股脑塞进大模型（LLM）的 Prompt 里。毕竟，现在的 GPT-4 Turbo 和 Claude 3 都支持 128k 甚至 200k 的上下文，不用白不用，对吧？

但这恰恰是导致 RAG 系统“慢”、“贵”、“笨”的元凶。

如果你曾发现你的 Agent 在回答简单问题时吞吞吐吐，或者面对长文档时开始胡编乱造，那么你遇到的可能不是模型能力瓶颈，而是“信息信噪比”太低。

今天，我们不谈虚的，深入聊聊 RAG 系统的核心瘦身术——上下文压缩（Context Compression）。看看如何在不牺牲信息精度的前提下，把 Prompt 压缩 80%，让模型重新找回“智商”。

01. 悖论：为什么给的越多，错的越多？

在信息论中，有一个概念叫信噪比（Signal-to-Noise Ratio）。

当我们把 10 篇检索到的文档喂给 LLM 时，真正包含答案的可能只有其中两句话（Signal），剩下的 99% 都是铺垫、废话或者不相关的噪音（Noise）。

斯坦福大学关于 "Lost in the Middle"（迷失中间） 的研究揭示了一个残酷的真相：当有效信息被埋藏在大量噪音文本中间时，Transformer 架构的注意力机制（Attention Mechanism）会失效。 模型会倾向于关注开头和结尾，而忽略中间的关键细节。

所以，上下文压缩的本质，不是为了省钱（虽然确实省钱），而是为了“提纯”。 我们要帮模型把沙子筛掉，只留下金子。

02. 深度拆解：从“粗筛”到“精炼”的三层境界

上下文压缩并不是简单地“切掉后半段”。在工业界落地时，它通常被设计成一个多级漏斗系统。

第一层境界：基于语义的“过滤器” (The Filter)

这是最基础的防线。
通常我们用向量检索（Vector Search）召回 Top-K 个片段。但向量检索是模糊的，有时候会召回一些“看起来相关但实际无关”的内容。

做法：
在检索后，立即计算 Query 与 Document 的相似度得分。设定一个阈值（比如 0.75），低于这个分数的切片，甚至不需要进入大模型，直接丢弃。

•

局限性： 这是一把“大砍刀”，只能砍掉整个文档块，无法剔除文档内部的废话。

第二层境界：基于 LLM 的“萃取器” (The Extractor)

这是 LangChain 等框架中 LLMChainExtractor 的核心逻辑，也是目前效果最好的方案之一。

它的思路是：让一个小一点的模型（比如 Haiku 或 Llama-3-8B）先读一遍文档，把与问题无关的句子“抠”掉。

Prompt 思路：

“这里有一段文本和用户的一个问题。请你像一个高亮笔一样，只摘录出文本中能回答问题的句子。如果整段文本都无关，请输出空。”

真实案例中的坑：
我曾在处理法律合同时使用这个方案。原合同中有大量“定义条款”（如：甲方是指...）。
如果不压缩，GPT-4 容易被这些定义绕晕。
使用萃取器后，我们将 2000 Token 的合同原文，压缩成了仅含“违约责任条款”的 150 Token 摘要。
结果： 幻觉率下降了 40%，且回答更加直击要害。