我要投稿

全网爆火的大模型AI知识库，保姆级教程来了

发布日期：2026-04-06 06:39:04 浏览次数： 2719

作者：Datawhale

微信搜一搜，关注“Datawhale”

构建Karpathy大神同款AI知识库

Karpathy 发了一条推文，分享了他近期重点在用 AI 构建个人知识库，短短两天，全网千万人观看。

“我最近发现一件非常有用的事：用 LLMs 为各种研究主题建立个人知识库。这样一来，我最近的大部分 token 使用量更多地用于处理内容，而不是编写或修改代码。”

然后就在昨天，他公开了整个构建的思路：

思路很简单：不要把笔记分散在各种应用里，而是全扔进一个文件夹。然后让 AI 把这些材料整理成个人维基——生成摘要、把内容关联起来、整理文章——之后越用越好用。

你也想要打造大神同款AI知识库么？

博主 Nick Spisak 打造了一套保姆级实现教程，不需要特殊软件，不需要数据库，只要文件夹和文本文件。

第一步：三个文件夹，两分钟搭好

打开终端或文件管理器，在电脑任意位置创建一个项目文件夹。在里面创建三个子文件夹：

my-knowledge-base/   raw/ (你的源材料 - 文章、笔记、截图)   wiki/ (AI 写入整理后内容的地方)   outputs/ (AI 生成的答案、报告和研究)

就这样。这就是 Karpathy 使用的结构：raw/ 文件夹是你的原始素材收纳箱，wiki/ 文件夹是 AI 帮你理出条理的地方，outputs/ 文件夹存放问题的答案。

第二步：不用整理，什么都往里扔

大多数人在这里卡住了。他们创建了文件夹，然后盯着空空如也的 raw/ 目录，不知道该放什么。

答案是：什么都往里扔。把文章复制粘贴成 .md 或 .txt 文件，截图和图表直接保存，从你现在用的任何应用里导出笔记，会议记录、研究论文、项目文档，还有那些囤了几个月的书签，统统扔进去。

别整理、别重命名、别清理，这些活儿都是 AI 的。

我做 X 内容的时候攒了 17 个原始文件——剪藏的文章、竞品分析、数据报告。没有一个是手工整理的。

但 Karpathy 没提到真正加速这个过程的部分：自动化收集。

第三步：让AI自动把网页存进来

Vercel Labs 刚发布了 Agent-browser——一个免费的命令行工具，让你的 AI Agent 操控实际的 Chrome 浏览器。GitHub 上 26K+ 星标。两条命令安装：

第二条命令会下载一个专用的 Chrome 浏览器。现在你的 AI 可以抓取任何网页，提取文本，直接保存到 raw/ 文件夹。

实际操作是这样的：

agent-browser open https://some-article-you-want.com agent-browser get text "article"

就这样。AI 打开页面，抓取文章文本，你把它导入到 raw/ 里的文件。不需要手动复制粘贴，不需要浏览器扩展。

agent-browser 能处理那些复制粘贴搞不定的页面：JavaScript 动态加载的网站、需要登录才能看的内容、带交互式图表的研究论文，还有那些得不停滚动、点“加载更多”、在菜单里翻来翻去才能看到完整内容的页面。

这个工具比 Playwright MCP 省 82% 的 token，也就是说，同样一轮对话里，你的 AI Agent 能抓 5-6 倍的页面。我用它直接拉竞品文章、热门话题和研究文档，根本不用自己开浏览器。

用在知识库上，流程很简单：看到想要的文章，跟 AI 说一声：「把这个 URL 抓下来存到 raw/」，agent-browser 就搞定了。你的 raw/ 文件夹会自己慢慢填满。

第四步：给AI一份说明书，让它知道怎么干

这是大多数人会跳过的部分，别跳过。

在项目根目录创建一个叫 CLAUDE.md 的文件（或 AGENTS.md 或 README.md——名字不重要，内容才重要）。这个文件让 AI 知道你的知识库是干什么的、该怎么整理。

这是一个你现在就可以复制的起始模板：

# 知识库 Schema  ## 这是什么 一个关于 [你的主题] 的个人知识库。  ## 如何组织 - raw/ 包含未处理的源材料。永远不要修改这些文件。 - wiki/ 包含整理后的维基。完全由 AI 维护。 - outputs/ 包含生成的报告、答案和分析。  ## 维基规则 - 每个主题在 wiki/ 中有自己的 .md 文件 - 每个维基文件以一段摘要开头 - 使用 [[topic-name]] 格式链接相关主题 - 在 wiki/ 中维护一个 INDEX.md，列出每个主题及一行描述 - 当添加新的原始源时，更新相关的维基文章  ## 我的兴趣点 [列出 3-5 个你希望这个知识库关注的方向]

Karpathy 自己也说了，他的 AGENTS.md 里的 schema “超级简单，完全扁平”：没有数据库，没有插件，只是一个告诉 AI 规则的文本文件。

这个文件相当于我在每个项目中使用 CLAUDE.md 的作用：给 AI 写一份你这个知识库专用的说明书。

第五步：一条指令，AI把笔记编成维基

打开 Claude Code（或 Cursor，或任何能读取文件的 AI 编码工具），打开你的项目文件夹，然后说：

“读取 raw/ 中的所有内容。然后按照 CLAUDE.md 中的规则在 wiki/ 中编译一个维基。先创建 INDEX.md，然后为每个主要主题创建一个 .md 文件。链接相关主题。总结每个源。“

然后走开，让它慢慢跑。

跑完之后你会拿到一个 wiki/ 文件夹，文章都按主题整理好了——帮你串起之前没注意到的关联，补上忘存的内容摘要，再加一份索引文件，想查什么几秒就能找到。

关键是：你不要手动编辑 Wiki，那是 AI 的工作。你只需要阅读它，对它提问，AI 负责更新和维护。

第六步：开始提问，打造活的知识库

一旦你的维基有了 10 篇以上的文章，开始提问：

“基于 wiki/ 中的所有内容，我对 【主题】 理解中最大的三个空白是什么？”“比较源 A 和源 B 对 【概念】 的说法。它们在哪里有分歧？”“仅使用这个知识库中的内容，给我写一份 500 字的 【主题】 简报。”

AI 会读取你的整个维基，根据你自己攒的材料给你答案。

把这些答案保存回知识库。把输出放到 outputs/ 或让 AI 用新见解更新相关的维基文章。每个问题都让下一个答案更好，正循环就转起来了。

第七步：定期检查，不让错误复利

告诉你的 AI：

“审查整个 wiki/ 目录。标记文章之间的任何矛盾。找出提到但从未解释的主题。列出任何没有 raw/ 中源支持的声明。建议 3 篇能填补空白的新文章。”

Karpathy 这条帖子下面，@HFloyd 的回复说到了关键：“当输出被归档回去时，错误也会复利。”这是真的。如果 AI 写了一些稍微错误的东西而你保存了它，下一个答案就会跟着错下去。

解决方法很简单：定期运行健康检查。

工具选择：简单胜过复杂

Karpathy 帖子下一半回复都在安利 Obsidian 插件。

但当有人问起他的设置时，Karpathy 实际上说的是：“我试图保持超级简单和扁平。它只是一个嵌套的 .md 文件目录。”

一个文本文件文件夹和一个 schema 文件就是整个知识库。

我用 Claude Code 从终端运行整个知识系统。你可以用 VS Code，可以用 Obsidian，可以用记事本。

AI 不在乎你用什么应用打开文件，重要的是文件夹结构和 schema。

装了 47 个插件的 Obsidian 又是一个 Notion 陷阱。你花在配置工具上的时间比使用知识库的时间还多。

扁平文件加一个好的 schema，90% 的场景下比花哨的工具栈管用。

写在最后：收藏和真正用起来！

这就是完整系统：三个文件夹、一个 schema 文件、一个浏览器抓取器，以及一个维护一切的 AI。

Karpathy 的帖子有 44K 人收藏。但收藏和真正用起来，差的只是一个周末的动手时间。

选个主题，建好文件夹，把现有内容扔进去。

剩下的交给 AI，就这么简单。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-22

四种索引，一个系统，重新定义 AI 如何理解知识

2026-05-22

腾讯云Agent Memory节省61% Token提升52%成功率的诀窍：Mermaid无限画布×上下文卸载

2026-05-22

企业知识库下半场：从 RAG 到 context architecture

2026-05-22

每个RAG工程师都应该了解的Ranking技术

2026-05-21

清华提出NaviRAG：让RAG学会"主动导航"，长文问答F1涨4.8分

2026-05-20

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-18

别再错过啦，AI Agent记忆革命：95.2%检索率的持久记忆系统深度解析

2026-05-18

有多少人把Agent与RAG的检索策略，简化成了 if-else？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

知识基座：让“AI 越用越懂业务”的团队经验实践【天猫AI Coding实践系列】

2026-03-23

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

不用向量数据库的 RAG，居然跑得更准了？

2026-02-22

从RAG到GraphRAG：货拉拉元数据检索应用实践

2026-03-18

为什么总感觉 Claude Code 比 Cursor 聪明？真正的原因根本不是模型能力！

2026-03-20

如何用 AI 做业务级 Code Review

2026-02-27

面向手机Agent的记忆系统工程:OPPO的Agentic-RAG实战与演进

2026-03-21

OpenDataLoader：PDF文档提取的一站式方案

2026-03-31

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

企业AI落地三重门，用友如何破局？

2026-03-17

大家都在问

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

1G内存检索2500万向量，Milvus中如何用FLAT在强标量过滤场景搞定毫秒响应？

2026-05-07

多Agent场景，子agent 之间数据读写不同步，如何解决？

2026-05-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

多轮对话时，RAG反复做重复召回，模型层与Milvus层分别如何解决？

2026-04-21

企业AI落地三重门，用友如何破局？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw