我要投稿

RAG关键技术：向量+标量混合检索

发布日期：2025-08-23 19:04:44 浏览次数： 2375

作者：AI何哥

微信搜一搜，关注“AI何哥”

前言：RAG（Retrieval Augmented Generation，检索增强生成）是一种结合了信息检索和生成式模型的技术，能够在大模型生成答案时利用外部知识库中的相关信息。它的工作流程可以分为几个关键步骤：解析与切片、向量存储、检索召回、生成答案等。

RAG 工作原理

1. 什么是向量+标量混合检索？

混合检索（Hybrid Search），特别是向量+标量混合检索，是一种结合了语义相似度检索（向量检索）和精确/结构化条件过滤（标量检索）的先进信息检索技术。它旨在融合两种检索方式的优势，以提升搜索结果的准确性、召回率和整体相关性。

向量检索 (Vector Search):

将文本、图像、音频等非结构化数据通过深度学习模型（如BERT）转换为高维向量（Embedding）。
通过计算查询向量与候选向量之间的相似度（如余弦相似度、欧氏距离），找到语义上最相近的结果。
优势：
擅长语义理解、处理模糊查询、同义词扩展、多模态检索。
劣势：
难以进行精确匹配（如特定ID、日期范围），结果可解释性差。

标量检索 (Scalar Search):

对结构化数据（如数据库中的字段）进行精确查询或范围查询。
常见操作包括：等值匹配（status = "active"）、范围查询（price < 100, created_time > "2023-01-01"）、地理位置查询（distance < 5km）。
优势：
精确、高效、可解释性强。
劣势：
无法理解语义，对同义词、近义表达不敏感。

混合检索 (Hybrid Search):

“意大利餐厅” -> 向量检索（理解“意大利菜”、“意式料理”等语义）
“附近5公里内”、“评分4.5以上”、“价格适中” -> 标量检索（精确的地理位置、评分、价格范围过滤）

将上述两种方式结合起来。例如，用户查询“附近5公里内，评分4.5以上，价格适中的意大利餐厅”。
最终结果是同时满足语义相关性和结构化条件的交集。

2. 为什么需要混合检索？

单一的检索方式难以应对复杂的现实需求：

仅用向量检索：
可能召回很多语义相关但不符合业务规则的结果（如距离太远、已关闭的商家）。
仅用标量检索：
可能遗漏语义相关但关键词不完全匹配的结果（如用户搜“pizza”但商家描述是“意大利薄饼”）。
混合检索：
兼顾“找得准”（标量过滤）和“找得全”（向量语义），提供更精准、更符合用户意图的结果。

3. 混合检索的实现策略（先查谁？）

这是混合检索的核心挑战：是先过滤标量条件，还是先进行向量检索？ 不同的策略在性能和召回率上各有优劣。

(1) 前置过滤 (Pre-filtering / 先查标量)

流程：
先根据标量条件（如时间、状态、地理位置）从全量数据中筛选出一个候选集，然后在这个较小的候选集上进行向量相似度检索。
优点：

如果标量过滤率很高（如过滤掉99%的数据），能极大减少向量检索的计算量，性能优异。
逻辑清晰，易于理解。

缺点：

如果标量过滤率低（候选集仍然很大），则向量检索的开销依然巨大。
可能因过早过滤而丢失潜在的高相关性结果（尤其是在ANN近似检索中）。

适用场景：
标量条件过滤性强（高过滤率），且候选集规模可控。

(2) 后置过滤 (Post-filtering / 先查向量)

流程：
先进行向量检索，召回一个较大的候选集（TopK*N，N为扩召回倍数），然后对这个候选集应用标量条件进行过滤，得到最终结果。
优点：

能最大程度保证向量检索的召回率，不易遗漏高相关性结果。
可以复用成熟的向量检索引擎（如Faiss, Milvus）。

缺点：

如果向量检索召回的候选集很大，而后置过滤条件又很严格，可能导致最终结果不足K个，需要反复扩大N值，影响性能和延迟。
计算资源浪费在对大量不符合标量条件的数据进行向量计算。

适用场景：
标量条件过滤性一般，且对召回率要求极高。

(3) 迭代式过滤 (Iterative-ANN)

流程：
这是一种更智能的动态策略。系统先进行一轮向量检索，得到一批结果，然后进行标量过滤。如果过滤后结果不足，则利用上一轮的搜索上下文，继续搜索下一批向量结果，再过滤，如此迭代，直到满足数量要求。
优点：

在过滤率中等或较低时，性能通常优于前两种方案，因为它避免了全量或大规模的计算。
能平衡召回率和性能。

缺点：
实现复杂度高。
适用场景：
过滤率不确定或中等偏低，追求性能与召回的平衡。

(4) 自适应混合检索

理念：
不固定采用某一种策略，而是由系统根据标量条件的过滤率、复杂度、数据分布等信息，自动选择最优的执行路径。
示例：
如OceanBase数据库所采用的策略：

过滤率低（1%-50%） -> 采用迭代式过滤。
过滤率中等（50%-90%） -> 采用In-filtering（在向量查询过程中直接检查标量条件）。
过滤率高（>90%） -> 采用前置过滤。
过滤率极高（>99%） -> 可能直接进行暴力计算（Flat Search）反而更快。

优点：
智能、高效、通用性强，能应对各种业务场景。

4. 技术挑战与发展趋势

挑战：

性能优化：
在保证高召回率的同时，将检索延迟控制在毫秒级（如美团外卖目标Tp99 < 20ms）。
高过滤比处理：
当过滤后候选集仍然很大（如百万级）时，如何高效检索。
GPU加速：
利用GPU的并行计算能力加速向量相似度计算，是提升性能的重要方向（如美团外卖的实践）。
索引优化：
结合HNSW、IVF-PQ等高效ANN算法，并与标量索引（如B+树、倒排索引）协同工作。

趋势：

多模态融合：
不仅是向量+标量，还包括向量+全文检索（如百度智能云、OceanBase提到的场景），实现语义与关键词的互补。
RAG (Retrieval-Augmented Generation)：
混合检索是RAG系统的核心组件，用于从知识库中精准检索上下文信息供大模型生成答案。
一体化数据库：
如OceanBase，将向量、标量、全文等能力集成在单一数据库引擎中，简化架构，提升效率。

总结

向量+标量混合检索是现代搜索、推荐和AI应用（尤其是RAG）的关键技术。它通过结合语义理解与精确过滤，解决了单一检索模式的局限性。选择哪种实现策略（前置、后置、迭代、自适应）取决于具体的业务场景、数据特征和性能要求。未来，随着多模态数据和大模型应用的普及，混合检索将变得更加智能和高效。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-21

使用 LangSmith 进行 RAG 评估：构建生产级 RAG 系统的 AI 开发者指南

2026-06-20

RAG 投毒的六个影响因素与防御框架

2026-06-20

RAG 性能暴涨 5.9 倍！微软新框架让 LLM 自主检索，无需训练直接部署

2026-06-19

RAGular：适合知识库体质的 OCR 助手

2026-06-18

阿里扔出「向量版 SQLite」！十亿级向量毫秒检索，一行 pip install 搞定，本地 RAG 的游戏规则变了

2026-06-18

一个月拿下1500star，只因我们比MinerU多做了这件事

2026-06-18

为 1000 万+ 文档构建近零幻觉的 RAG Pipeline

2026-06-17

微软推出企业级 AgenticRAG！四个工具助力RAG新范式落地

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

知识基座：让“AI 越用越懂业务”的团队经验实践【天猫AI Coding实践系列】

2026-03-23

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-02

OpenDataLoader：PDF文档提取的一站式方案

2026-03-31

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

大家都在问

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

1G内存检索2500万向量，Milvus中如何用FLAT在强标量过滤场景搞定毫秒响应？

2026-05-07

多Agent场景，子agent 之间数据读写不同步，如何解决？

2026-05-06

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部