微信扫码
添加专属顾问
大语言模型兴起之前的很长时间里,在信息检索领域,用的比较多的其实是TF-IDF、BM25这类检索方法,这些方法也经历住了时间的考验。在大模型时代,将BM25这类稀疏检索与向量检索相结合,通常能取长补短,大幅提升检索效果。
之所以将BM25称为稀疏检索算法,是因为文档和Query是使用稀疏向量表示的,向量维度通常等于所有文档中唯一词(词表)的数量,其中大部分值都是0,所以称为稀疏向量,与之相对的是稠密向量,也就是深度学习火了之后,Word Embedding以及向量模型所产出的向量,它的维度通常只有几百维,多的也只不过几千,其中几乎所有维度都有非0值,跟TF-IDF、BM25这种动辄上万维的向量相比算是维度很低了,这也是为什么在最开始Word Embedding概念出现时,被称为低维向量。
值得注意的是,在中文中,使用Langchain默认的BM25检索器参数,效果非常差,本人踩过的坑是,在一次项目中没有单独检查稀疏检索的效果,直接进行混合检索,通过调整两者配比最终效果比纯向量检索略好就结束了,以为语义检索效果比稀疏检索会有压倒性地优势,二者混合只略微涨点是合理的,但事后分析才发现,在中文中,使用默认参数设置,BM25检索效果不可能好。本文在核心代码的部分也会解释为什么会这样。
这部分公式比较多,不喜欢的朋友可以跳过直接看代码,也不影响使用。
注意:下面说到的文档,对应到我们的场景,就是知识片段,语料库对应的是所有文档片段
BM25是一个给定query来计算文档相关性的重要的函数,BM指的是best matching。
BM25的评分函数可以用以下公式表示:
其中:
是文档 对查询的评分
是问题中的词数
是问题中的第个词
是词 的逆文档频率(Inverse Document Frequency),计算公式为:
其中:
是文档总数
是包含词的文档数量
是词在文档中的词频(Term Frequency),不要被“频”这个词误解,这是个次数,不是占比
是文档的长度(词数)
是语料库中文档的平均长度(平均词数)
和是参数,通常在1.2 到 2.0 之间,在 0.5 到 0.75 之间
这里顺带介绍一下TF-IDF的计算公式,因为BM25是对TF-IDF的改进:
其中 是问题Q中的第个词,跟BM25中的不同,它代表词在文档中的占比,例如在文档中共20个词,出现了30次,则为3/20。
的计算公式为:
表示文档总数,表示包含的文档的数量。
简单解释一下这个公式在干嘛,其实衡量的是一个词在某个文档中的重要性,聪明的读者应该能一眼看出来,如果只考虑,那分数高的,肯定是“的”、“了”这类没什么用的词,因此引入用来平衡这种高频词的影响,这样两者一综合,反而会使得“的”、“了”这类词的TF-IDF得分不高,而真正在一个文档中独有(说明这个词不是类似“的”这种每篇文档都在用的通用词)却高频(说明这篇文档重点讲这个词相关的话题)的那些词凸显出来。
相比TF-IDF,BM25的改进主要在以下3点:
词频(TF)调整
BM25考虑了词频的饱和效应,即随着词频的增加,增加的相关性会逐渐减少。这是通过使用一个非线性函数来调整词频的影响。主要体现在下面这部分:
当词频比较小时,主导这个公式值的,是除之外的部分,那可以认为,这部分公式,会随着词频的增长而增长,而当词频增大到一定程度时,主导这个公式值的,就变成词频了,综合分子分母可以发现,越到后面,分子上涨的部分,被分母抵消掉了。
为了便于大家理解,我做这样一个实验,假设= 2.0,= 0.75,为20,文档中一共5个词,出现了1词,之后每次向中增加一个与相同的词,则整个增长过程如下所示,其中TF就是,TF_adj是上面这个公式,大家可以观察diff,它表示随着TF的增长,TF_adj增量:
| TF | TF_adj | diff |
|---|---|---|
| 1 | 1.600000 | |
| 2 | 2.033898 | 0.433898 |
| 3 | 2.236025 | 0.202127 |
| 4 | 2.352941 | 0.116916 |
| 5 | 2.429150 | 0.076209 |
| 6 | 2.482759 | 0.053609 |
| 7 | 2.522523 | 0.039764 |
| 8 | 2.553191 | 0.030669 |
| 9 | 2.577566 | 0.024374 |
| 10 | 2.597403 | 0.019837 |
可以看到,随着TF的增大,diff越来越小,越到后面,越“涨不动”了,也就说明了词频是有饱和效应的
文档长度标准化
TF-IDF未考虑文档长度的影响,而BM25通过引入文档长度标准化因子,长文档通常会包含更多的词,因此需要对词频进行标准化,以避免长文档得到不成比例的高分。这个标准化是通过参数控制的。主要体现在下面这部分:
因为在BM25中,词频表示的词在文档中出现的次数,那对于越长的文档,相对来说它里面的词的就会越大,因此引入文档长度标准化:
当文档比较长时,较大,从而使分母较大,降低词频的影响。
当文档较短时,较小,从而使分母较小,扩大词频的影响。
引入额外的调节参数
BM25中引入的参数和提供了额外的调节手段,使得模型可以更好地适应不同的应用场景,而TF-IDF则没有这样的灵活性。
混合检索的流程如下图,会分两路分别使用稠密向量和稀疏检索(BM25)方式检索知识片段,然后将检索结果使用使用RAG技术构建企业级文档问答系统:检索优化(3)RAG Fusion中介绍的RRF算法进行排序,截断Top N的知识片段送入大模型,然后由大模型结合用户问题和知识片组生成答案。
从下表可以看出,使用BM25检索和混合检索(Embedding微调+BM25)的方法,检索的命中率超过了之前的所有方法,混合检索的全流程问答准确率也达到了目前最好成绩。
核心代码
本文对应的代码已开源,地址在:https://github.com/Steven-Luo/MasteringRAG/blob/main/retrieval/04_bm25_hybrid.ipynb
使用Langchain实现非常简单,传入切分好的知识库列表splitted_docs即可构建好检索器
但这种方式,效果会非常差,对于本系列构建的测试集,Top1~8的命中率如下:
| retriever | top_k | hit_rate |
|---|---|---|
| vanilla_bm25 | 1 | 0.000000 |
| vanilla_bm25 | 2 | 0.000000 |
| vanilla_bm25 | 3 | 0.032258 |
| vanilla_bm25 | 4 | 0.064516 |
| vanilla_bm25 | 5 | 0.064516 |
| vanilla_bm25 | 6 | 0.064516 |
| vanilla_bm25 | 7 | 0.064516 |
| vanilla_bm25 | 8 | 0.064516 |
为什么会出现这种情况?查看Langchain源代码,https://github.com/langchain-ai/langchain/blob/master/libs/community/langchain_community/retrievers/bm25.py会发现,在创建BM25检索器时,会使用preprocess_func处理文档列表,而preprocess_func参数如果不指定,默认使用的是default_preprocessing_func,也就是按空格切分,这对中文来说,肯定是没法正常工作的。
下面对这段代码进行修改,增加中文分词器:
从下面的Top1~8的召回命中率来看,结果正常多了
| retriever | top_k | hit_rate |
|---|---|---|
| jieba_cut_bm25 | 1 | 0.666667 |
| jieba_cut_bm25 | 2 | 0.784946 |
| jieba_cut_bm25 | 3 | 0.838710 |
| jieba_cut_bm25 | 4 | 0.870968 |
| jieba_cut_bm25 | 5 | 0.870968 |
| jieba_cut_bm25 | 6 | 0.870968 |
| jieba_cut_bm25 | 7 | 0.870968 |
| jieba_cut_bm25 | 8 | 0.870968 |
可以使用如下方式创建混合检索器:
在这里有一个超参数:稀疏检索和向量检索的权重,针对这个系列的数据,本文对不同权重配比进行了实验,不同权重的检索性能对比如下图:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-04
大模型支持的上下文已超 1M, RAG 是不是没有意义了?
2026-07-03
RAG 检索优化策略:从命中率到答案质量的一套工程打法
2026-07-03
RAG 落地总翻车?全球赛事冠军架构,改造适配企业级生产
2026-07-01
提升 RAG 准确率全攻略 让你的 AI 知识库 真正靠谱起来!
2026-06-30
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题
2026-06-30
知识库不是文件堆——我把RAG准确率从60%调到了92%
2026-06-30
本体论语义建设新思路,另类RAG来解决检索问题
2026-06-30
别把RAG当架构:Ontology(本体)才是Agent的业务世界
2026-04-06
2026-04-27
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-05-14
2026-04-30
2026-07-04
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。