我要投稿

从零开始做一个语义搜索引擎：基于LangChain与Qdrant的实战指南

发布日期：2025-08-23 22:25:14 浏览次数： 1753

作者：PyTorch研习社

微信搜一搜，关注“PyTorch研习社”

在 AI 应用中，检索增强生成（RAG） 已成为提升大模型能力的核心手段。

在进入 RAG 正式搭建之前，我们先来学一个基础但超有用的技能：语义搜索。

与传统的关键词匹配不同，语义搜索会根据“意思”而不是“字面”去检索文档。这样，即使你的查询语言不同（比如用中文搜英文文档），也能找到相关内容。

本文带你一步步构建一个针对 PDF 文档的语义搜索引擎，核心流程如下：

1️⃣ 文档加载：让 PDF 进入 AI 世界

LangChain 提供了 Document Loader 抽象接口，可以轻松把各种数据源导入 AI 应用。
我们用 PyMuPDF4LLMLoader 来加载 PDF：

每页会变成一个 Document 对象
metadata 会记录文件名、页码等信息

安装方法：

pip install langchain-pymupdf4llm

2️⃣ 文本切分：让语义更精准

一页的内容通常太多，不利于精准匹配。
我们用 RecursiveCharacterTextSplitter 把文档切成：

每段 1000 字符
段与段之间 200 字符重叠
保留原始位置索引（方便溯源）

这样能避免切断重要上下文，提高检索效果。

3️⃣ 生成向量：把文字变成“数学坐标”

语义搜索的核心思想是：

把文本转换为向量（Embedding），再通过向量相似度进行匹配。

这里我们使用 阿里云 DashScope 的 text-embedding-v4 模型：

生成后的向量可以直接进行相似度比较（如余弦相似度）。

4️⃣ 向量存储：用 Qdrant 管理语义信息

有了向量，就需要一个“语义数据库”来存放它们。
我们选择 Qdrant：

高效存储
支持相似度搜索
可视化 UI

创建集合、批量写入向量后，就能通过 Qdrant 的搜索功能快速找到相关内容。

5️⃣ 检索器（Retriever）：让搜索更智能

LangChain 提供统一的 Retriever 接口，把底层的向量数据库封装成可直接调用的检索工具。

支持多种模式：

similarity：相似度最高的结果
mmr：兼顾相关性和多样性
similarity_score_threshold：设定相似度门槛

这样，你就能轻松将它与 RAG 应用结合，实现“先检索，再生成”的强大功能。

🔚 总结

通过以上 5 步，我们就能从零搭建一个PDF 语义搜索引擎，实现跨语言、高语义精度的文档查询。

下一步，把它和 LLM 结合起来，你就能做出一个智能问答系统——比如，直接用中文问“耐克在美国有多少配送中心？”，系统就能帮你从英文财报中找答案。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-30

Cursor 2.0的一些有趣的新特性

2025-10-30

Anthropic 发布最新研究：LLM 展现初步自省迹象

2025-10-30

让Agent系统更聪明之前，先让它能被信任

2025-10-30

Rag不行？谷歌DeepMind同款，文档阅读新助手：ReadAgent

2025-10-29

4大阶段，10个步骤，助你高效构建企业级智能体（Agent）

2025-10-29

DocReward：让智能体“写得更专业”的文档奖励模型

2025-10-29

沃尔沃RAG实战：企业级知识库，早就该放弃小分块策略

2025-10-29

大模型的Funcation Calling是什么？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

DeepSeek突然更新V3.1：实测后才发现的亮点与槽点

2025-08-19

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

DeepSeek v3.1 到底有多强？与 Claude Code 一起实测！

2025-08-20

大家都在问

大模型的Funcation Calling是什么？

2025-10-29

向量搜索已过时，混合搜索都有三大流派了！你看好哪个流派？

2025-10-29

BCG最新报告：企业如何跨越AI价值鸿沟，进入复利增长？

2025-10-28

如何用飞书多维表格快速搭建一个可落地应用？

2025-10-28

当AI学会“听”：声音识别到声音理解，AI到底是怎么听懂的？

2025-10-27

如何让你的内容出现在AI生成的答案中？

2025-10-26

2025，为何“体感上没有AI爆款应用”？

2025-10-25

Dify Agent 核心解密：三模双驱，如何选对策略让你的AI应用“开挂”？

2025-10-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB