2026年6月11日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

知识本体-构建基于LLM-Wiki的大模型知识库

发布日期:2026-06-09 07:50:15 浏览次数: 1545
作者:人月聊IT

微信搜一搜,关注“人月聊IT”

推荐语

探索知识本体的核心价值,构建基于场景驱动的AI知识库,实现从概念到应用的智能闭环。

核心内容:
1. 知识本体的三层结构:场景、概念、实体的定义与关系
2. 基于历史资料的知识编译与场景建模方法
3. 知识库的可视化展示与标准写作流程应用

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
今天还是接着聊AI大模型知识库,在前面我也专门讲过一篇文章对我已有的Wiki知识库进行了二次升级,构建了场景-》概念-》实体的完整三层结构,形成了基于场景和问题驱动的认知闭环知识体系。今天进一步展开来谈下里面的关键点。
图片
整个知识库的分层结构如下:
由于我在重构我AI知识库的时候大量借鉴了我前面进行本体建模的思路,因此可以理解为知识管理领域的知识本体。在结构化数据领域的本体建模核心的对象模型往往对应到传统的IT系统数据库表;而在非结构化领域中的本体模型核心对象则对应到传统资料文档抽取处理的概念和实体。所以知识本体的第一个核心就是基于历史资料文档进行知识编译和萃取,形成核心的概念和实体,并构建概念实体间的关系,形成知识图谱。
但是我在重构AI知识库的时候,引入了第二个关键核心就是场景问题层模型的构建。大家一定要注意一句话,就是构建知识库和知识图谱不是目的,应用知识库中的知识点,应用知识点的关联进行推理,形成知识点的动态组装最终解决场景下的问题才是关键。
所以我在前面文章也谈到,重新构建的知识本体,不仅仅是对概念和实体进行了扩展,比如拆分了复合概念和子概念。比如拆分了父实体和子实体,增加了概念和实体之间的分层结构。更加重要的是引入了场景建模的概念,场景本质就是应用已有的概念和实体按步骤进行组装过程。
因此我基于知识库历史文章抽取后,归类了5大类47个场景,对于每个场景都详细定义了阶段,每个阶段需要引用的概念或实体,包括具体的知识点组装的步骤和流程。
而对于概念方法,我在前面专门强调了,概念方法层的重点就是必须给出具体的输入,输出,包括工具技术的应用。在这里是解决了传统的流程分析的思路,将核心的动态逻辑引入到概念方法里面。
而对于实体,我在前面也专门提到了,引入了父实体和子实体的概念,以进一步体现了实体间的分层结构和层次关系。
有了这个知识本体模型定义后,我们接着AI编程将整个本体模型可视化显示和浏览,可以明显的看到场景-》概念-》实体简单的组装关系。
在点击分层网络进入后,选择某一个分类。
比如点知识管理进入后,可以完整看到知识分层网络结构。
最上面是场景层,中间是概念层,下面是实体层。任何一个场景的支撑都是以底层的概念和实体支撑的,是底层概念实体的组装编排构建并完成了场景和问题的解决。
当我们单独选择如何构建知识库这个场景的时候,系统动态的列出支撑这个场景涉及到的概念和实体。如下:
当然我们还可以用泳道图来展示分阶段过程。
可以用传统的力导向图来展示整个知识图谱。
有了整个知识本体模型后,我们构建了一套新的写作提示词,将一个新文章的写作分为了7个关键步骤如下:

标准写作流水线(7 步)

每接到一个写作任务,**必须**按以下 7 步执行:

Step 1 · 问题解析

- 解析用户问题的:核心主题、关键词、问题类型(What/How/Which/Where 四分类)、隐含约束

- 输出一份"约束检查清单":标题主题、字数(3000-4000)、章节数(6-8)、第一人称、输出路径、配图友好度等

Step 2 · 场景匹配(Scenarios)

- 打开 `wiki1/scenario-method.yaml`

- 用关键词在 43 个场景中做匹配检索

- **三种匹配结果**:

  - **完全命中**:直接复用该场景的 `composition[]` 作为写作主干

  - **部分命中**:找 2-3 个相近场景,组合其 `composition[]`

  - **未命中**:进入 Step 3 自由组装路线(**同时记下,这是 yaml 待补的新场景**)

Step 3 · 概念组装(Concepts)

基于命中的场景,按 `composition[]` 中的 `uses[]` 字段逐项调取:

- **原子概念**:到 `meta-concepts.yaml` 查 IPO 四元组(input / process.steps / output)

- **组合概念**:到 `compose-concepts.yaml` 查 decomposition(哪些子方法串成)

**未命中也记下**:这是 yaml 待补的新概念。

Step 4 · 实体调取(Entities)

每个概念在使用工具/技术/框架时,会引用 `entity://X`:

- **工具/产品**:到 `entity-knowledge.yaml` 或 `entity-cognition.yaml` 查

- **方法论实体**:到 `entity-problem-solving.yaml` 或 `entity-learning.yaml` 查

- **人物/底层技术/哲学概念**:到 `entity-other.yaml` 查

**未命中也记下**:这是 yaml 待补的新实体。

Step 5 · 原文深挖(Sources)

- 对组装路径上的每个核心 concept/entity,读取其 `source:` 指向的 `wiki/concepts/*.md` 或 `wiki/method/*.md`

- 提取关键段落作为文章血肉:加粗观点句优先 → 案例段次之 → 流程描述改造为列表/表格

- **重要原则**:concept 卡片只是索引,**原文 md 才是文章段落的素材**——不要直接把 define 当段落用

Step 6 · 结构化写作

按下面的【*写作规范**】(见 §3)输出 markdown 文件到 `newdoc/

Step 7 · yaml 反向校验(关键步骤)

文章完成后,**必须**做一次反向检视,输出一份"yaml 补全建议"(直接附在与用户的回复消息里,不写进文章),包含:

1. **新场景**:本次有没有产生在 `scenario-method.yaml` 里找不到对应的写作场景?给出建议的 yaml 条目骨架

2. **新概念**:本次用到了哪些 `concept://` 引用但实际不在 meta/compose yaml 里?分别建议是 META 还是 COMPOSE,给出条目骨架

3. **新实体**:本次提及但 entity yaml 里没有的工具/人物/产品?给出建议归属的 entity yaml 和条目骨架

4. **关系补全**:发现的新 `is_a / uses / related_to` 关系,建议补到现有条目

5. **死链**:本次发现的 yaml 引用指向不存在的 id


基于整套提示词就可以开始完整的知识问答和基于知识库的写作工作。当然这个知识库是一个动态的知识库,也就是说具备自我进化能力。任何一次写作完成后,AI会分析是否需要增加新的场景或概念,对于当前已有的概念实体是否存在死链需要修正。

也就是整个知识库会随着新场景和问题的引入,不断的自我完善和进化,这也是前面我们谈Karpathy的LLM-Wiki谈到的一个重要能力。

对于整套思路,我将其引入到了最近构建的一个AI知识库应用中。这个AI知识库不仅仅是用于简单的知识库问答,由于构建了完整的场景-概念-实体的知识图谱网络,对于复杂场景,AI可以完整的构建完整的写作方案,更好的进行知识点的内容组装。

包括基于某一个主题,帮我输出近10万字的完整文章。

这种新的基于LLM-Wiki的场景驱动的新AI知识库,彻底解决了传统RAG知识库的知识幻觉问题,能够更好的支撑方案类文档的写作,类似立项报告,采购文件,招标文件,标准规范文档等。

当前Conflux知识库还在进一步完善中,后续会发布公网试用环境,也环境大家测试和使用。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询