搭建大模型知识库流程，以及基于langchain实现大模型知识库案例

发布日期：2024-09-05 11:44:54 浏览次数： 3221

作者：AI探索时代

微信搜一搜，关注“AI探索时代”

“ RAG检索增强生成是为了解决大模型知识不足的问题 ”

大模型主要面临三个问题：

垂直领域内的知识不足‍‍‍‍‍

大模型知识有时间限制‍

大模型幻觉问题

第一个问题产生的原因是因为，没有经过垂直领域数据训练的大模型普遍表现不好；其次是目前的大模型采用的是预训练模式，也就是说需要先收集训练数据进行训练，但只能收集之前的数据，不能收集当前和以后的数据；最后就是大模型幻觉问题，幻觉问题产生的原因就是知识不足，导致在一些领域问题中一本正经的胡说八道。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

因此，说到底大模型产生以上三个问题的主要原因就是知识不足，因此RAG——检索增强生成技术就出现了。‍‍‍‍‍‍‍‍‍‍‍

RAG技术配合知识库技术，就能够补充大模型知识不足的问题，知识库的作用就相当于给大模型配置一个资料室，遇到不懂的就去资料室里查。

今天，我们就来讨论一下本地知识库的实现步骤，以及代码。‍‍‍‍‍‍‍‍‍‍‍

知识库的实现步骤及代码‍‍‍‍‍‍‍‍‍

严格来说，解决大模型知识不足问题的技术是RAG——检索增强生成，而不是知识库技术。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

知识库技术在大模型之前就已经出现了，简单来说就是公司内部的文档系统，里面记录了企业内部的资料，文档等，形式可以是一个web系统，甚至就是一个文件夹。‍‍

而我们今天说的大模型知识库是基于RAG技术，结合知识库技术产生的一个变种，主要区别就是数据格式问题。

RAG文档检索生成，就是通过把资料向量化，并为了提升查询效率需要把向量化的文档存入到向量数据库，然后每次在问大模型之前，先去向量数据库中查询与问题相关的内容，通过提示词的方式一并传入到大模型中，这样就可以解决大模型知识不足的问题。

之所以要把资料向量化的原因是，在传统的查询搜索过程中，使用的主要是基于字符匹配的方式进行查询，比如说你想查询西红柿炒蛋的做法，查询的内容中就必须包含西红柿和炒蛋这几个字。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

而有了大模型技术，把资料向量化之后，就可以通过语义进行查询，大模型会根据语义分析，知道西红柿和番茄是一个东西。‍‍‍

大模型知识库的原理就是给大模型外挂一个资料库，但大模型毕竟不是人，需要把资料，文档等转化为大模型能够识别的格式，就是文档向量化。

搭建大模型知识库，需要经过以下几个步骤：

文档加载

在当今互联网时代，知识的形式多种多样，比如文本格式的就是txt，word，pdf等；还有其它格式如图片，结构化数据以及非结构化数据等。‍‍‍‍‍‍‍‍‍‍‍

因此，打造一个知识库需要支持多种文档，以及不同文档的加载路径，如本地加载，网络加载等；而这就是文档加载需要解决的问题。‍

文档分割

在大模型应用中，长文本处理是一个问题，并且大模型窗口都有上下文长度限制；并且，文档还需要处理成大模型能够识别的向量格式，因此对一些长文本文档需要进行文本分割，解决文档过长而导致的问题。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档分割根据不同的任务场景，需要进行不同的处理，比如文档分割的长度，分割形式(比如，段落，标点符号等)，重叠长度等。‍‍‍‍‍

词嵌入

在传统的知识库系统中，文档是以文本，图片，视频等格式存在的，使用者主要是人，因此只需要能够通过网络加载文档即可。

但在大模型应用中，大模型不认识字，它能够处理的格式只有向量。而且，还需要进行语义分析，因此需要通过词嵌入的方式，把文档转化为大模型能够处理的，且语义连贯的形式，也就是向量格式，而这个技术就叫做词嵌入。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

词嵌入工具本质上也是一个大模型，只不过是专门训练用来完成语义理解和向量转化的模型。‍

Sentence-transformer 词嵌入python 库可以支持多种嵌入模型或者可以使用第三方提供的转化工具，比如openAI，通义千问等。

文档处理整体流程入下图所示：‍‍‍‍‍

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档存储

文档存储的功能就是需要把通过词嵌入转化的大模型能够识别的向量格式存储起来，一般使用的是向量数据库。‍‍‍‍

当大模型需要使用的时候，再通过检索的形式从向量数据库中获取。‍‍‍‍‍‍‍

文档存储的作用是为了解决查询效率的问题，但也并不是必须的；比如说，当你知识库的内容很少的时候，你也可以选择每次提问的时候，重新加载文档并向量化，这样之前向量化过的文档就存储在向量数据库中，下次使用的时候就可以直接从数据库中查询。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

就类似于在web开发中，你也可以把用户数据通过｜或某种符合间隔起来并保存到txt文件中，每次查询的时候需要读取文件并解析数据，这样就会非常的麻烦；而如果把用户信息存储到数据库中，就会方便的多。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档检索

从向量数据库中，通过语义对数据进行检索，然后把检索结果带入到大模型中，供大模型使用。技术实现是通过数学计算，根据向量计算相对位置，位置越近语义相关度越高；比如欧式距离，cos值等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

RAG的难点和重点是数据的质量和检索质量，也就是说本地知识库的好坏和使用的模型(用来回答问题的模型，不是词嵌入的模型)没有什么关系，只是和你检索的效果有关。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

简单来说就是，你的知识库数据质量和向量数据库的质量越好，RAG的效果才越好。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-04

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-03

RAG 检索优化策略：从命中率到答案质量的一套工程打法

2026-07-03

RAG 落地总翻车？全球赛事冠军架构，改造适配企业级生产

2026-07-01

提升 RAG 准确率全攻略让你的 AI 知识库真正靠谱起来！

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

2026-06-30

本体论语义建设新思路，另类RAG来解决检索问题

2026-06-30

别把RAG当架构：Ontology（本体）才是Agent的业务世界

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw