微信扫码
添加专属顾问
我要投稿
Karpathy大神同款AI知识库教程来了,三步打造你的智能知识库,让AI帮你整理海量信息!核心内容: 1. 创建三个基础文件夹结构,搭建知识库框架 2. 无需整理直接存入各类原始素材,AI自动处理 3. 使用agent-browser工具实现网页内容自动抓取入库
Datawhale干货
编辑:Datawhale团队
Karpathy 发了一条推文,分享了他近期重点在用 AI 构建个人知识库,短短两天,全网千万人观看。
“我最近发现一件非常有用的事:用 LLMs 为各种研究主题建立个人知识库。这样一来,我最近的大部分 token 使用量更多地用于处理内容,而不是编写或修改代码。”
然后就在昨天,他公开了整个构建的思路:
思路很简单:不要把笔记分散在各种应用里,而是全扔进一个文件夹。然后让 AI 把这些材料整理成个人维基——生成摘要、把内容关联起来、整理文章——之后越用越好用。
你也想要打造大神同款AI知识库么?
博主 Nick Spisak 打造了一套保姆级实现教程,不需要特殊软件,不需要数据库,只要文件夹和文本文件。
打开终端或文件管理器,在电脑任意位置创建一个项目文件夹。在里面创建三个子文件夹:
my-knowledge-base/raw/ (你的源材料 - 文章、笔记、截图)wiki/ (AI 写入整理后内容的地方)outputs/ (AI 生成的答案、报告和研究)
就这样。这就是 Karpathy 使用的结构:raw/ 文件夹是你的原始素材收纳箱,wiki/ 文件夹是 AI 帮你理出条理的地方,outputs/ 文件夹存放问题的答案。
大多数人在这里卡住了。他们创建了文件夹,然后盯着空空如也的 raw/ 目录,不知道该放什么。
答案是:什么都往里扔。把文章复制粘贴成 .md 或 .txt 文件,截图和图表直接保存,从你现在用的任何应用里导出笔记,会议记录、研究论文、项目文档,还有那些囤了几个月的书签,统统扔进去。
别整理、别重命名、别清理,这些活儿都是 AI 的。
我做 X 内容的时候攒了 17 个原始文件——剪藏的文章、竞品分析、数据报告。没有一个是手工整理的。
但 Karpathy 没提到真正加速这个过程的部分:自动化收集。
Vercel Labs 刚发布了 Agent-browser——一个免费的命令行工具,让你的 AI Agent 操控实际的 Chrome 浏览器。GitHub 上 26K+ 星标。两条命令安装:
第二条命令会下载一个专用的 Chrome 浏览器。现在你的 AI 可以抓取任何网页,提取文本,直接保存到 raw/ 文件夹。
实际操作是这样的:
agent-browser open https://some-article-you-want.comagent-browser get text "article"
就这样。AI 打开页面,抓取文章文本,你把它导入到 raw/ 里的文件。不需要手动复制粘贴,不需要浏览器扩展。
agent-browser 能处理那些复制粘贴搞不定的页面:JavaScript 动态加载的网站、需要登录才能看的内容、带交互式图表的研究论文,还有那些得不停滚动、点“加载更多”、在菜单里翻来翻去才能看到完整内容的页面。
这个工具比 Playwright MCP 省 82% 的 token,也就是说,同样一轮对话里,你的 AI Agent 能抓 5-6 倍的页面。我用它直接拉竞品文章、热门话题和研究文档,根本不用自己开浏览器。
用在知识库上,流程很简单:看到想要的文章,跟 AI 说一声:「把这个 URL 抓下来存到 raw/」,agent-browser 就搞定了。你的 raw/ 文件夹会自己慢慢填满。
这是大多数人会跳过的部分,别跳过。
在项目根目录创建一个叫 CLAUDE.md 的文件(或 AGENTS.md 或 README.md——名字不重要,内容才重要)。这个文件让 AI 知道你的知识库是干什么的、该怎么整理。
这是一个你现在就可以复制的起始模板:
# 知识库 Schema## 这是什么一个关于 [你的主题] 的个人知识库。## 如何组织- raw/ 包含未处理的源材料。永远不要修改这些文件。- wiki/ 包含整理后的维基。完全由 AI 维护。- outputs/ 包含生成的报告、答案和分析。## 维基规则- 每个主题在 wiki/ 中有自己的 .md 文件- 每个维基文件以一段摘要开头- 使用 [[topic-name]] 格式链接相关主题- 在 wiki/ 中维护一个 INDEX.md,列出每个主题及一行描述- 当添加新的原始源时,更新相关的维基文章## 我的兴趣点[列出 3-5 个你希望这个知识库关注的方向]
Karpathy 自己也说了,他的 AGENTS.md 里的 schema “超级简单,完全扁平”:没有数据库,没有插件,只是一个告诉 AI 规则的文本文件。
这个文件相当于我在每个项目中使用 CLAUDE.md 的作用:给 AI 写一份你这个知识库专用的说明书。
打开 Claude Code(或 Cursor,或任何能读取文件的 AI 编码工具),打开你的项目文件夹,然后说:
“读取 raw/ 中的所有内容。然后按照 CLAUDE.md 中的规则在 wiki/ 中编译一个维基。先创建 INDEX.md,然后为每个主要主题创建一个 .md 文件。链接相关主题。总结每个源。“然后走开,让它慢慢跑。
跑完之后你会拿到一个 wiki/ 文件夹,文章都按主题整理好了——帮你串起之前没注意到的关联,补上忘存的内容摘要,再加一份索引文件,想查什么几秒就能找到。
关键是:你不要手动编辑 Wiki,那是 AI 的工作。你只需要阅读它,对它提问,AI 负责更新和维护。
一旦你的维基有了 10 篇以上的文章,开始提问:
“基于 wiki/ 中的所有内容,我对 【主题】 理解中最大的三个空白是什么?”“比较源 A 和源 B 对 【概念】 的说法。它们在哪里有分歧?”“仅使用这个知识库中的内容,给我写一份 500 字的 【主题】 简报。”
AI 会读取你的整个维基,根据你自己攒的材料给你答案。
把这些答案保存回知识库。把输出放到 outputs/ 或让 AI 用新见解更新相关的维基文章。每个问题都让下一个答案更好,正循环就转起来了。
告诉你的 AI:
“审查整个 wiki/ 目录。标记文章之间的任何矛盾。找出提到但从未解释的主题。列出任何没有 raw/ 中源支持的声明。建议 3 篇能填补空白的新文章。”Karpathy 这条帖子下面,@HFloyd 的回复说到了关键:“当输出被归档回去时,错误也会复利。”这是真的。如果 AI 写了一些稍微错误的东西而你保存了它,下一个答案就会跟着错下去。
解决方法很简单:定期运行健康检查。
Karpathy 帖子下一半回复都在安利 Obsidian 插件。
但当有人问起他的设置时,Karpathy 实际上说的是:“我试图保持超级简单和扁平。它只是一个嵌套的 .md 文件目录。”
一个文本文件文件夹和一个 schema 文件就是整个知识库。
我用 Claude Code 从终端运行整个知识系统。你可以用 VS Code,可以用 Obsidian,可以用记事本。
AI 不在乎你用什么应用打开文件,重要的是文件夹结构和 schema。
装了 47 个插件的 Obsidian 又是一个 Notion 陷阱。你花在配置工具上的时间比使用知识库的时间还多。
扁平文件加一个好的 schema,90% 的场景下比花哨的工具栈管用。
这就是完整系统:三个文件夹、一个 schema 文件、一个浏览器抓取器,以及一个维护一切的 AI。
Karpathy 的帖子有 44K 人收藏。但收藏和真正用起来,差的只是一个周末的动手时间。
选个主题,建好文件夹,把现有内容扔进去。
剩下的交给 AI,就这么简单。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-02
RAG进化了,深扒Claude Code源码中RAG高级技巧
2026-04-01
Claude Code 源码一夜流出:会看热闹的人很多,会读源码的人很少
2026-03-31
OpenDataLoader:PDF文档提取的一站式方案
2026-03-30
只用文件系统和 Bash,Vercel 做出了一套高效 RAG
2026-03-25
GraphRAG新范式 = LPG + 本体RDF
2026-03-25
基于 Ray 的蚂蚁数据构建引擎在搜推和 RAG 场景的实践
2026-03-23
知识基座:让“AI 越用越懂业务”的团队经验实践【天猫AI Coding实践系列】
2026-03-21
面向手机Agent的记忆系统工程:OPPO的Agentic-RAG实战与演进
2026-01-15
2026-02-13
2026-02-03
2026-02-03
2026-02-06
2026-02-02
2026-01-28
2026-02-05
2026-02-06
2026-02-06
2026-03-17
2026-03-11
2026-02-22
2026-02-15
2026-02-04
2026-02-03
2026-01-19
2026-01-12