2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

LinkAI RAG 知识库优化之路

发布日期:2024-09-02 12:01:49 浏览次数: 4119
作者:LinkAI平台

微信搜一搜,关注“LinkAI平台”

RAG(Retrieval-Augmented Generation,检索增强生成)作为当下主流的AI智能体应用技术之一,为解决大语言模型在问答交互场景下存在的不足(知识的局限性、滞后性以及幻觉等问题)提供了解决方案,也让AI大模型在专业领域(尤其是企业应用场景)的落地应用、满足真实的生产需求和业务场景成为可能。

经过持续的迭代优化工作,LinkAI知识库能力在检索前、检索中和检索后等方面均得到显著提升。

知识库导入

检索前的重要步骤之一便是知识库的内容导入,这包括文件的上传、解析、内容切分和向量化存储。将各种私有知识有序、合理地导入知识库,是后续获得知识库问答良好效果的重要前提。

多种内容格式

LinkAI知识库现支持导入:

  • 无结构文档

  • Q&A问答对

  • 多列表格 

  • 网站内容

在导入文档时,支持导入PDF、docx、txt、md等格式的文件,自动解析分段,使用方便;导入问答对时,可将一问一答格式的CSV进行导入,问答时的精准度更高,后续也更易于维护;导入表格时,则可将多列的Excel或csv表格直接导入,并支持按列检索,非常适合导入多属性的列表型产品信息。

内容分段及预览

当我们导入无结构的内容(文档、网站)时,为了避免文档过长给知识检索带来的影响(索引混淆,核心知识在信息中占比较小,导致按索引检索时无法命中关键数据;大模型token过长截断导致语义不完整等),我们需要将无结构的文档内容进行切分。

在切分时,针对不同类型文档的特性我们定义了不同的分割器,并按照分割符和分块长度进行切分。再设置冗余字符和相邻段落衔接句字重复的策略,来避免句子被截断的问题,使一个完整的句子保留在同一个段落中。

另外,在默认分段字符长度(600token)的基础上,用户可根据文档特点和需求手动调整分段长度并再次预览分段,从而调整至相对最佳状态。整个分段过程实时预览,清晰可见

文档内容分段预览

增强解析

需要导入的PDF、docx文件时一般都是无结构的文档,除了排版不规范外,常常还会在文件中带有图片和表格。

增强解析功能为加强对无结构文档的解析能力而推出,针对PDF、docx和md文件,除文字以外,可对图片和表格自动提取解析,并可在分段中直接预览后导入。

导入后文档中的图片可作为附加素材直接参与到答案生成中(可参考「素材发送」部分),而表格则以Markdown格式存储可支持行列检索(可参考「表格导入」部分)

自动解析文件中的图片和表格

(←左右滑动查看→)

表格导入

结构化的多列表格是使用场景中(例如多sku多属性值的产品信息表)非常常见的内容格式。支持表格导入是RAG应用承载更多业务场景的重要前提。

表格型知识库使用多列索引+单行检索的模式,在表格导入时,默认会将表格中所有的列作为索引列(即参与检索的列,指的是用户提问时会将用户问题和该列的内容进行匹配),也可手动调整为非索引。另外可编辑修改列的名称,列名会在大模型答案生成的过程中起到重要的“语义解释”作用,设置一个含义清晰的列名能够让AI更好的理解该列的内容。而在检索时,则通过列中数据检索得到整行数据。

导入多列表格后预览及调整索引和列名

以上图场景举例:导入QS大学排名表格后,设置“学校英文名”一列为非检索列,其余三列均为检索列,当用户提问中涉及“牛津大学”时,会将用户问题与“排名”、“学校名称”、“类型”三列的内容进行检索匹配,则可检索到第三行数据“2,牛津大学,University of Oxford,QS200”,那么在AI回复用户时,这一整行数据都会用于回复的生成。

同时,多列索引+单行检索模式可支持跨列检索,即提问“排名为第1名的学校中文名”和“排名为第1名的学校英文名”,可分别得到答案“麻省理工学院”和“University of Oxford”。在实际应用场景中举例,假设用户提问“推荐一款红色的衣服”和“推荐一款M码的衣服”,都能够命中“颜色:红色;尺码:M码...”这条知识库中的商品信息。

网站导入

网站导入功能支持很方便地将企业官网、产品介绍、博客、公众号文章等静态网页资源快速导入知识库中,搭建知识库问答智能体。支持将批量独立网址链接粘贴后一键导入知识库,还支持直接输入网站地图URL一键自动获取网站下所有页面的内容并导入知识库。

与导入文档类似,系统会自动结合分段长度和标点符号、语义将长文本拆分成多个段落,方便建立索引进行检索,在右侧可以看到解析得到的每个网页名称,以及网页中内容拆分效果的预览。


网站内容导入知识库

对于定期会更新的网站,我们即将支持设置定时获取网站内容以更新知识库的能力。

知识库的导入非常重要,是RAG有效应用关键的第一步。基于我们过去的工作,使得LinkAI在多格式、多来源知识文档的解析,后续检索环节的前置准备等方面不断优化提升,很好地满足了客户及用户的业务需求。


知识库检索

语义向量检索

导入知识库内容后,在实际问答场景中的RAG检索主要基于语义向量检索实现,即使用模型对导入的每段文本建立索引的向量,再使用同一模型将用户的每次提问进行向量化,从而进行向量之间的匹配,得出吻合度相对最高的结果。

绝大多数问答场景下,基于向量检索都可以得到比较好的检索结果,从而生成高质量的回复,在一些特殊场景下则需依赖增强检索模式。

混合增强检索

为提升知识库问答的效果,我们上线了增强检索模式。增强检索是将语义检索与全文关键词检索混合增强的模式,能够大幅提升一些特殊场景下(如对姓名、字母、数字、型号等文本的提问)的检索和回复效果。

提问及答案中包含例如姓名、字母、数字内容时,使用关键词匹配往往会有比向量匹配更好的效果(对于部分短词、符号,其向量往往无法反映真实的语义)故将向量检索与关键词匹配结合起来使用,可较为完美地覆盖常规提问和特殊提问的需求。

开启增强检索模式

当然,经典的关键词检索方式也有弊端,即文本间的强匹配可能会给大模型生成回复带来噪音例如用户提问中的无实义常用语匹配到同样包含这些词汇的知识库内容,造成错误回复)。为解决这一问题,LinkAI设置了过滤词库机制,将此类词汇从关键词检索范围中剔除。

提问检索测试

知识库导入后,检索时的工作过程往往是“黑盒”的(向量匹配相似度的不确定性以及大模型生成回复的不确定性)为了将这一过程尽可能的白盒化,我们可以通过模拟用户提问的方式来观察检索过程。

检索测试可通过模拟用户提问查看问题在知识库中的检索结果,支持按 语义检索 和 增强检索 两种模式进行测试,可查看不同提问检索到的前20条(语义检索、关键词检索各10条)知识库语料以及对应相似度。

知识库检索测试结果

基于检索测试可以在回答不符合预期时查看该提问与预期的知识库语料之间的向量匹配相似度,也便于为用户提供配置知识库语义检索相似度阈值的参考依据。

当然,RAG检索在实践中还有很多范式的变种,例如模块化并行检索,加入记忆模块参与检索,加入搜索引擎内容参与检索等等。同时,LinKAI在自研的AI搜索、内容总结、拟人对话等功能和场景中广泛使用和进行了RAG相关的多种技术优化实践,因不涉及知识库功能便不展开阐述。


知识库答案生成

对于一次对话而言,知识库检索完成后便进入答案生成的环节,该环节是将检索结果、用户提问等内容结合LLM大语言模型能力进行智能生成的过程,也是用户接收到答案前的最后一道工序,对于最终回答的生成至关重要。

检索结果加工

在前序环节中,取决于检索策略配置(语义相似度阈值、检索模式、检索条数等)会得到多条检索结果,其中可能包含重复的知识库语料(分别通过语义检索和关建词匹配检索得到,或同一语料重复录入),便需要进行去重加工。另外,多条知识库语料给到大语言模型的顺序也至关重要,包含了同样是语义检索、但向量匹配相似度不同的语料之间的排序;以及关建词检索结果与语义检索结果之间的排序。不同的排序方式对于大语言模型的理解和生成都可能会带来不同的影响,故需引入重排策略进行调控。


降噪及严谨性控制

当通过上述手段确定可以使用的检索结果后,依然还可能会面临“可用性”问题。那就是检索结果可能与用户提问之间并无关系(部分短词、符号,其向量往往无法反映真实的语义,但增强检索又只能检索到文本极其相似但实际含义完全不同的内容,如型号、标号相近的产品信息),这时候如果直接将检索结果提供给模型,相当于引入噪声,从而干扰问题的准确回复。

所以在此之前还需要对检索结果进行最终降噪,实现方法是使用大语言模型对检索结果和用户提问进行前置比对,即借助LLM出色的自然语言理解及推理能力来判断检索得到的知识库语料与用户提问是否有足够的相关性。当确认两者相关时才将其进一步给到大语言模型进行最终的答案生成。

对于知识库中没有的内容,部分企业场景则需要AI“有分寸感”的避而不答。LinkAI支持当知识库检索结果为空时(知识库中没有满足语义检索向量相似度阈值的语料)输出固定回复或不回复,从而满足严谨性控制的需求。

答案来源标注

大模型最终生成的回复,对于终端用户来说仍然是“黑盒”的,即用户无法准确分辨该答案到底是基于确有其文的资料回复的,还是基于大模型自身的知识能力回复的。特别是在部分企业场景中,对于机器人的回答有严谨性和可追溯的要求。故可在最终回复生成时,由大模型补充知识库导入时的文件或网站名称作为内容来源进行标注说明,以提升答案的可信度和可溯源性。

在回复中标注答案内容来源

素材发送

知识库内容除了文字以外,还会有图片、视频和独立文件,在知识库智能体对话场景中,除了需要以文字回复用户外,也有回复用户图片、视频和文件的需求。

例如AI销售的场景中,需根据顾客的需求发送合适的服装搭配方案,除了文字介绍外还需发送衣服的图片、视频作为补充。再例如企业内部员工问答bot的场景,当员工需要获取一个文件模板时,智能体需要将整个文件原封不动发出,而不是发送文件里的具体内容。

知识库除导入用于RAG的文字语料外,还支持上传图片、视频、文件等素材,上传后的素材将以URL的格式作为附件一并存储于知识库内,当用户提问命中该条知识库语料时,附件可以一同发出

将知识库中的图片/视频/pdf、docx、exce文件直接发出

(←左右滑动查看→)

知识库素材发送能力,不仅在网页端使用时支持,LinkAI的应用接入渠道(网站嵌入、钉钉、飞书、企业微信等)均可兼容。


知识库回答反馈优化

使用记录定位溯源

经过上述一系列动作后,一次基于RAG知识库的对话便完成了。但即便使用了多种AI和工程能力的调控优化手段,也无法保证最终回答达到100%的准确率,偶尔还是会出现不符合预期的情况。

借助LinkAI的使用记录功能,可查看每一次AI智能体问答的详情,其中包含了知识库应用的RAG检索结果以及工作流中知识库节点的RAG检索结果。

在使用记录中查看应用或工作流节点中知识库检索命中详情

(←左右滑动查看→)

通过使用记录中的知识库命中详情,可溯源大语言模型在生成智能回复时具体使用的知识库参考信息,还可一键跳转到该条知识库语料的编辑页面,进行调整和优化。

未命中知识库数据看板

在企业应用场景中,对于知识库型智能体,用户提问如果未命中知识库,往往是不符合预期的。一般来说代表着知识库内容还没有完全覆盖用户可能会提问的全部问题。故实时洞察未命中知识库的用户问题对于知识库的不断改善和优化也十分重要。

基于数据驾驶舱功能的「未命中知识库」图表,企业管理员可实时查看任意周期内未命中知识库内容的用户提问统计数据,并可下钻查看明细,根据用户当时的具体问题,判断是否需要补充新的知识库内容。这样一来,智能体应用的Feedback模式将从用户反馈变为数据驱动,以此帮助企业不断优化改善知识库型智能体的应用表现。

可视化看板呈现未命中知识库的提问数据

RAG知识库的运营型迭代优化是一个复利工程。受益于AI chatbot 1vN 服务的规模效应,当我们改善一个知识库的问题时,对于服务效果的提升、人力的节省,都将带来巨大的规模性收益。通过持续不断的反馈优化,能够最大程度释放AI应用在企业场景落地的价值!


总结

RAG工程的每个步骤和环节都有可能对最终效果产生影响,在不同的使用场景中又会有不同的目标及侧重。一套功能强大且场景覆盖全面,并能兼容各种corner case的RAG知识库系统是知识库型AI智能体在企业场景落地应用的基础。

LinkAI自23年6月发布以来,不断在RAG知识库产品方面进行探索和优化,逐步达成功能通用、产品易用、多场景可用的目标。将继续通过优秀的产品能力解决好大模型企业级应用中知识依赖和知识更新的问题。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅