腾讯WeKnora开源详解（三）：检索引擎与生态集成

发布日期：2026-06-29 20:27:07 浏览次数： 1524

作者：叨叨数码

微信搜一搜，关注“叨叨数码”

20+ 大模型 / 8+ 向量库 / 7+ IM 渠道怎么挑

WeKnora 详解系列 · 第 03 篇

各位数码圈的老铁们，我是叨叨数码。

上一篇我们聊了怎么把文档接进来、三种对话模式怎么选。那篇文章发出后，公众号后台收到最多的一条留言是：

"叨叨，我问的问题它回答得不够准啊！""叨叨，我们公司用的豆包大模型，能接进去吗？""叨叨，我们 IM 用的是钉钉，不是企业微信，咋办？"

问到点子上了。

这三个问题，其实分别对应 WeKnora 三大底层能力：检索引擎、模型集成、IM/对象存储集成。这一篇，咱把这三件事一次说透。

按照数码圈"测完硬件要拆开看内部构造"的惯例——今天咱们不聊表面，把 WeKnora 拆开看。

一、为什么"答得不够准"？问题大概率出在检索

很多人在用 RAG 系统时，第一反应是"模型不够好"。其实反过来——80% 的"答得不准"，问题出在检索，不在生成。

这么说吧：大模型再聪明，如果喂给它的资料就是错的、张冠李戴的、缺头少尾的，输出的答案也不可能对。这就是为什么 WeKnora 在"检索"这一层下了血本。

它给了你6 种检索策略，可以自由组合：

检索策略	原理	适合什么场景
BM25 稀疏检索	传统关键词匹配（类似 Elasticsearch 默认算法）	搜专有名词、产品型号、错误代码
稠密向量检索	把问题和文档都变成向量，算相似度	问"意思差不多"的问题，比如口语化查询
GraphRAG 图谱检索	先把知识建成图谱，再做关系推理	问"为什么 A 会影响 B"这种关系链问题
父子分块	小块检索 → 大块喂给模型，保留上下文	长文档问答，避免断章取义
HNSW 加速	pgvector 上的近似最近邻索引	百万级向量库，要求毫秒级响应
多维索引	同时按多个维度（章节、标签、时间）建索引	复杂权限隔离 + 跨业务线检索

数码类比：

BM25 = 按文件名搜文件（老办法，但稳定）
稠密检索 = 以图搜图（语义层匹配）
GraphRAG = 看人物关系网追线索（推理式查找）
父子分块 = 看报纸先看标题、再看正文（保留上下文）

实战建议：别只用一种，至少开两种

叨叨的经验之谈——

对于大多数企业知识库场景，BM25 + 稠密检索 + 父子分块这个组合拳基本能打 90% 的问题。GraphRAG 性能开销大，建议只在"关系推理"重灾区（比如法务、合规、医学）才上。

v0.5.2 之后还加了一个 "自适应 3 层分块" 的能力——系统会自动判断文档该切多细，你还能实时预览分块结果。这功能类似剪映的"智能切片"，新手友好度直接拉满。

二、检索架构长啥样？一张图看懂

光说"几种策略"太空，咱看个全貌：

看到了吗？一条问题进来，可能同时走三条路，最后再融合排序。

这就是为啥 WeKnora 的回答"看起来聪明"——背后是多路召回 + 智能融合的工程化结果，不是单纯靠 LLM 一张嘴硬编。

▲ Agent 模式下的多路检索 + 工具调用流程（来源：官方 docs/images/agent-qa.png）

HNSW 加速到底牛在哪？

v0.6.2 之后，WeKnora 在 pgvector 上默认开了 HNSW（Hierarchical Navigable Small World）索引，专门针对 1024 维向量优化。

数码类比一下：

没用 HNSW
- 百万级向量查询，像你在应用商店搜 App，要等 5-10 秒
用了 HNSW
- 百万级向量查询，毫秒级返回，快到没感觉

代价是占内存（数码圈叫"功耗换性能"），但对绝大多数企业场景是值得的。

三、20+ 大模型：总有一款你顺手的

现在回答第二个问题："我们公司用豆包，能接吗？"

答案是：能，而且 WeKnora 接了 20+ 家。

直接上表，按"国产 / 海外 / 本地"分类：

分类	支持的模型	一句话点评
海外主力	OpenAI、Azure OpenAI、Anthropic Claude、Gemini	综合能力最强，但价格高、需合规审查
国产主力	DeepSeek、Qwen（通义千问）、Hunyuan（腾讯混元）、Doubao（豆包）、Zhipu（智谱）	中文场景首选，性价比高，合规友好
聚合平台	NVIDIA、Novita AI、SiliconFlow、OpenRouter	一个 Key 试 N 个模型，适合选型期
本地部署	Ollama（任意开源模型）	私有化部署首选，断网也能跑
国产新势力	MiniMax（MiniMax-M3）	性价比黑马

怎么挑？叨叨给个三步决策法：

记住，模型是可换的。WeKnora 整个 LLM 接入层是抽象的，你想用哪家就 .env 改一行的事。

Embedding 模型：容易被忽视的"幕后英雄"

说完 LLM，还有个关键角色——Embedding 模型（负责把文字变成向量的）。

WeKnora 支持的 Embedding 方案：

Ollama
（本地跑 BGE、GTE 系列）
BGE
（智源开源，中文表现优秀）
GTE
（阿里达摩院，中文 SOTA）
Zhipu Embedding
（v0.6.1 引入）
Gemini Embedding
（v0.6.1 引入）
OpenAI 兼容 API
（覆盖国内大多数厂商）

叨叨建议：中文场景用 BGE-large-zh 或 GTE-Qwen2-7B-instruct，几乎不会错。

四、8+ 向量库：数据量大了怎么换

现在回答一个进阶问题："我们公司有上亿条数据，pgvector 顶得住吗？"

老实讲，pgvector 在百万级以下是无敌的（简单、稳、不用额外维护）。但到了亿级，还是建议上专用向量库。

WeKnora 支持的向量库：

向量库	适合规模	叨叨点评
pgvector（默认）	百万级	零运维，新手友好
Milvus	亿级	国产之光，社区活跃
Weaviate	亿级	GraphQL 友好，海外项目首选
Qdrant	千万~亿级	Rust 写的，性能怪兽
Tencent VectorDB	亿级	腾讯云托管，省心
Elasticsearch	千万~亿级	已有 ES 栈的首选
OpenSearch	千万~亿级	AWS 生态首选
Apache Doris	亿级 + 实时分析	OLAP + 向量一把梭

数码类比：

pgvector = 128GB 手机（够用、好维护）
Milvus = 专业相机存储卡（量大、贵、专业）
Qdrant = PCIe 4.0 固态（性能怪兽）
Doris = NAS + 监控大盘（分析 + 存储二合一）

v0.6.3 还加了一个 "知识库检索扇出"（KB retrieval fan-out）的能力——可以同时查多个向量库再合并结果，跨库联邦检索直接拉满。

五、7+ 对象存储 + 7+ IM 渠道：别让"周边"拖后腿

最后回答第三个问题："我们用钉钉，咋办？"

WeKnora 在 IM 渠道这一块，简直是"友商天花板"。7+ 家国内外 IM 渠道全支持：

IM 渠道	版本	适用公司
企业微信	v0.3.4	国内私域之王
飞书	v0.3.4	字节系、互联网公司
钉钉	v0.3.5	传统企业、制造业
Slack	v0.3.4	海外团队
Telegram	v0.3.5	海外 / 个人开发者
Mattermost	v0.3.5	私有化部署团队
微信	v0.5.2	公众号 + 小程序 + 微信对话开放平台

看到没？你公司用啥，它就接啥。

而且 IM 集成的细节做得相当到位：

斜杠命令
（v0.3.5）：在 IM 里直接 `/ask 问题` 即可
问答队列
（v0.3.5）：高峰期排队不丢消息
引用回复
（v0.3.6）：在群里 @ 机器人回复具体某条消息，上下文不丢
基于线程的会话
（v0.3.6）：多人协作不串台

这体验，叨叨直呼"用过回不去"。

对象存储：上传大文件不卡死

7+ 对象存储也是大差不差全支持：

对象存储	云厂商
Local（默认）	本地硬盘
MinIO	自建（minio profile）
AWS S3	亚马逊
Alibaba Cloud OSS	阿里云
Volcengine TOS	火山引擎
Kingsoft Cloud KS3	金山云
Huawei Cloud OBS	华为云