微信扫码
添加专属顾问
什么是RAG?
Retrieval Augmented Generation (RAG)是通过整合外部知识源增强大型语言模型(LLM)的过程。这使得LLM能够生成更准确和上下文感知的答案,同时减少虚构内容。
在回答问题或生成文本时,首先从现有的知识库或大量文档中检索相关信息。然后使用LLM生成答案,通过整合这些检索到的信息来提升响应的质量,而不是完全依赖LLM自行生成答案。
典型的RAG工作流程如上图所示。其中包含了RAG的三个主要步骤:
索引化:索引化过程是一个重要的初始步骤,它从清理和提取原始数据开始,将各种文件格式如PDF、HTML和Word转换为标准化的纯文本。为了适应语言模型的上下文约束,这些文本被划分为更小和更易管理的块,这个过程称为分块。然后,利用嵌入模型将这些块转换为向量表示。最后,创建一个索引来存储这些文本块及其向量嵌入作为键值对,实现高效且可扩展的搜索能力。
检索:用户查询用于从外部知识源检索相关上下文。为了实现这一目标,用户查询首先通过编码模型进行处理,生成语义相关的嵌入。然后,在向量数据库上进行相似性搜索,以检索最接近的相关数据对象。
生成:用户查询和从检索步骤中检索到的额外上下文填入提示模板中。将来自检索步骤的增强提示输入到LLM中,从而得到LLM的回复。
最终大模型生成的效果取决于各个环节,每个环节都有自己的挑战,针对性优化和解决问题,有效提升AI应答效果。
本文讲RAG系统中检索模块的关键技术之一。
一、文本向量化
文本向量化是将文本数据转换为数值向量,便于计算机进行信息检索。
针对上图,可知Documents和Query都要进行向量化,因此向量的质量直接影响到检索效果。
二、挑战与问题
我们在大量应用落地的过程中,发现和解决了非常多RAG系统中的检索问题,这些问题会影响系统的性能和最终生成的答案质量。虽然部分问题可以通过数据清洗或系统设计来解决,但以下三个问题仍非常棘手,难以根治:
1. 语义鸿沟
用户提问的方式与知识中的表达方式存在差异,导致检索系统无法精准匹配到相关知识。主要表现有:
①用户提问口语化而知识采用书面语或专业术语;如用户提问(口语化):"校园卡丢了怎么办",知识库中的表达(专业术语):"校园卡补办需要携带身份证到指定地点办理"
②用户可能用不同词汇、短语描述同一个概念,而知识库使用特定术语;
比如校园用户会用“校卡”、“饭卡”,“学生卡”来指代知识库中的“校园卡”。
③用户问题涉及多个知识点,但分散在知识库中的不同文档中。
2. 语言多样性和复杂性
用户的问题可能涉及语言的多样性和复杂性,如同义词(国家奖学金,国奖)、多义词(包袱,水分)、语法结构(如陈述句,倒装句)等,使得检索难以准确匹配。
3. 长尾问题
指的是某些问题或知识点出现频率极低,但仍需要被准确检索到。这种情况在垂直场景知识库中尤为常见。比如“双一流”,“三位一体”等,这些词汇只有在特定场景中才会用到,但是一旦提到就要求能检索到。
三、解决方案
针对上述挑战,星火科技进行了深入研究,并取得了突破性进展,应用到实际场景中。星火科技在向量方面,融合了稠密向量、低维向量和稀疏向量三种向量表示,分别从不同角度优化信息检索和生成的效果。
1. 稠密向量
定义:稠密向量是通过深度学习模型训练得到的,能够捕捉文本的深层语义信息。
局限性: 现有的向量模型一般都是在通用语料库上训练得到,会有以下局限性:
①缺少区分度:两个语义相同的句子由稠密向量计算相似度可能是0.95,而语义相似但不相同的句子也可能大于0.9。这就给检索结果的筛选带来了很大困扰。
②缺少相关性:现有向量模型的训练目的是找句子相似性,而现实中需求却是相关性。如用户提到“考试挂科了怎么办”时,真正希望AI给出的建议是“补考的申请方法”,而不是找到相似的“考试没有通过怎么办”。
星火实践:在我们的实践中,提升向量区分度和检索的精准度是同步进行的。
①利用多年积累的行业数据进行场景化训练,提升向量区分度。
②通过大量语料分析,理解用户检索意图,对数据进行再加工,提升检索精准度。
③选定区分度更高、更符合用户需求的向量模型,为后续的二次检索和兜底处理提供依据。
2. 稀疏向量
定义:稀疏向量是高维向量(30K+),其中大多数元素都是零,只有少数元素为非零。通常用于高维数据的处理,常用的算法有TF-IDF/BM25等。
局限性:
①缺乏泛化能力,稀疏嵌入方法主要基于词频统计,缺乏对词语之间语义关系的理解。这样一来,语义相近的词(如“留学”和“出国”)在稀疏嵌入中会有不同的表示,限制了模型的泛化能力。
②缺乏上下文能力,稀疏嵌入方法无法捕捉词语在不同上下文中的不同含义。比如,"苹果" 在不同的上下文中可能指代“苹果手机”或“吃的苹果”,但稀疏嵌入无法区分这些不同的指代。
星火实践:和稠密向量不同的是,稀疏向量不依赖模型,必须通过搜索语料,从0开始建设,上述问题体现了语料的大小和质量对稀疏向量至关重要,因此星火的主要工作在语料库建设上。
①平行语料库建设,在不同场景下建立场景同义词库,提升泛化能力。
②垂直语料库建设,通过NLP工具,对文档做POS/NER处理,建立针对词性和实体的权重分布,加强对上下文的理解。
③结合①和②建立分场景、分词性的稀疏向量,在应用上,利用稀疏向量进行兜底处理,有效解决长尾问题。
3. 低维向量
定义:低维向量通过降维技术(如PCA/t-SNE/UMAP等)从高维向量中提取数据的主要特征,将高维稠密向量(如768维)降低到低维(如3维),降低计算复杂度,方便可视化,剔除离群点。
星火实践:在向量训练过程中,总会遇到一些数据存在于模糊区间中,就算人工也无法识别应该所属的分类。
①利用低维向量进行可视化,快速识别和修正错误数据,持续提升语料库质量,用于训练向量模型。
②对高维分布集中的数据进行降维后,保留关键特征,进一步增加区分度,进行二次检索。
四、实践成果
经过不断地实践,向量检索的效果得到有效提升。f1值为通过精确率及召回率共同计算的结果,f1值越高,整体效果更优,可以看到训练后提升了12个百分点。
小 结
融合稠密向量、稀疏向量和低维向量三种向量表示,星火科技构建的RAG系统通过高维稠密向量捕捉复杂语义,通过低维向量进行二次筛选,通过稀疏向量处理长尾问题,从不同角度优化信息检索和生成的效果,实现了全面且高效的检索能力。在这个过程中,不断积累和优化的场景语料是我们的向量质量持续提升的关键。这也是我们行业竞争优势的来源。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
AI 知识库为什么总答不准?不是模型笨,是资料没整理好
2026-07-05
AI知识库RAG演进:上一代解决「找得到」,下一代解决「记得住、连得起、信得过」
2026-07-04
大模型支持的上下文已超 1M, RAG 是不是没有意义了?
2026-07-03
RAG 检索优化策略:从命中率到答案质量的一套工程打法
2026-07-03
RAG 落地总翻车?全球赛事冠军架构,改造适配企业级生产
2026-07-01
提升 RAG 准确率全攻略 让你的 AI 知识库 真正靠谱起来!
2026-06-30
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题
2026-06-30
知识库不是文件堆——我把RAG准确率从60%调到了92%
2026-04-27
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-05-14
2026-04-30
2026-04-27
2026-07-04
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。