2026年6月18日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

我让 AI 替我养了半年个人知识库,然后 Google 发布了 OKF——把我瞎摸出来的那套,写成了规范

发布日期:2026-06-16 14:37:24 浏览次数: 1519
作者:尘华

微信搜一搜,关注“尘华”

推荐语

我让AI养了半年知识库,Google新发布的OKF规范竟与我瞎摸出来的结构惊人一致。

核心内容:
1. 个人知识库的自动化构建与运行机制
2. 与Google OKF规范的关键契合点与差异
3. AI时代个人知识管理的核心范式转变

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
个人知识管理OKFAI Agent

我让 AI 替我养了半年个人知识库,然后 Google 发布了 OKF——把我瞎摸出来的那套,写成了规范

先把话撂这儿:这半年我没在「记笔记」,我在「养一个会自己长大的知识库」。 它每小时自己爬、自己编译、自己往回填,到今天跑了 625 个周期、攒了约 44.8 万字、213 页 wiki,我几乎没动过手。

然后前几天 Google 扔出一份叫 OKF(Open Knowledge Format) 的规范草案。我读完一身冷汗——它把我一年前凭直觉瞎摸出来的那套结构,一条一条写成了标准。 这篇,我把「我的实战」和「这份规范」并排摆给你看:哪儿撞上了、哪儿我还差着、以及对你想给自己建知识库,这意味着什么。

我的判断摆在前面:AI 时代,个人知识管理的胜负手,已经从「你记了多少」变成了「你的知识,你和你的 agent 能不能一起读」。 笔记软件比的是给人看的排版;而真正的杠杆,是一种人和 AI 同时能读、能写、能审计、能 git clone 走的格式。Karpathy 一年前点了这个题,我闷头做了个实现,Google 现在把它标准化了——三股力量指向同一个方向,不是巧合。


一、起点:我受不了「即用即弃的摘要」

去年有阵子我被一件事折磨:我每天读大量 AI 和咖啡行业的信息,让 AI 帮我总结。但每一篇摘要都是一次性的——读完就扔,下次再问同一个话题,它又从零给我编一段,跟上礼拜那段毫无关系。知识没有沉淀,只有不断重置。

Karpathy 那条推点醒了我:别让 LLM 给你生成摘要,让它给你维护一个知识库。区别是什么?摘要是快照,知识库是活体——新信息进来,不是新开一篇,而是去富化已有的那一页。OpenAI 今天发了个模型,不该多一篇「今日速报」,而该让 companies/openai.md 那一页长出新的一段,并且和它三个月前的动作连起来。

我照着这个想法,自己写了个东西。


二、我到底建了个什么

一句话:一个用 Claude Code 当大脑、markdown 当身体、自己当 cron 的个人知识库。 数据流是这样的:

信源配置 → 每小时抓取(Twitter / arXiv / 小红书 / RSS)→ raw/(不可变原始件)→ LLM 编译 → wiki/(活的 markdown 知识库)→ /ask 问答 + /lint 体检 → 结果再填回 wiki/

图:自我生长的知识库——抓取→不可变 raw→LLM 编译富化→活 wiki→回填,它自己是个 daemon

图:自我生长的知识库——抓取→不可变 raw→LLM 编译富化→活 wiki→回填,它自己是个 daemon

几条我当时定死、现在回头看最关键的规矩:

  • raw/ 永远不可变,只追加。 每次抓取存一份带时间戳的原始 JSON/PDF,绝不回改。它是「事实层」,是一切的地基。今天 raw/ 已经 3105 个文件、4 个 G。
  • wiki/ 由 LLM 增量维护,人基本不碰。 页面只增量更新,永不从头重写。这是「知识层」,12M 的纯文本,密度极高。
  • 先读 _index.md 任何操作前,先读这个入口页——它列着所有页面 + 一句话摘要。机器和我都靠它「先看见有什么,再决定翻哪页」。
  • 反链是命脉。 页面之间用 [[companies/openai]][[concepts/ai-agents]] 这种双链勾连。知识的价值不在单页,在连接
  • 它自己是个 daemon。 不靠我开 Claude、不靠 launchd,代码里内置 cron,自己 detach、自己监管、自己记状态。我关了电脑它在上海那台 Mac 上照跑。

「编译」这一步,是整套东西的灵魂——它做的是富化,不是摘要。 给你看一段我的 companies/anthropic.md 真实长出来的内容(我一个字没写):

「美国政府援引国家安全权限,对 Anthropic 两个最强模型层发出出口管制指令……这是已知首次针对单一 AI 实验室特定模型版本的美国出口管制行动。对 Anthropic [[2026-06-02]] 的 S-1 保密递交,这条是 IPO 风险因子……交叉链接到 [[concepts/ai-safety]][[investing/market-observations]]。」

看见没——它不是把推文抄一遍,而是判断「结构性新事实」是什么、和三天前那条连起来、标成 IPO 风险、再 cross-list 到安全和投资两页。213 页里全是这种被反复缝合、越长越密的活页。这就是「活体」和「快照」的区别。


三、然后 Google 发布了 OKF:把我的直觉写成了规范

正当我以为这是我自己一个怪癖的时候,Google Cloud 发布了 OKF(Open Knowledge Format)v0.1。它的开场白几乎是我心里那句话的官方版:

「一个目录的 markdown 文件 + YAML frontmatter。没有 schema 注册中心,没有中央权威,没有必需的工具链。你能 cat 它,你就能读 OKF;你能 git clone 它,你就能分发它。

我把它的核心条款和我瞎摸出来的实现并排一摆,后背发凉——几乎是逐条对上的:

我凭直觉做的OKF 写成的规范
markdown wiki 当知识层概念 = 一个 markdown 文档,唯一必填 type
先读 wiki/_index.mdindex.md渐进式披露
[[type/slug]] 双链concept 间用 markdown 链接表达关系
_daily/ 时间线日志log.md 记录变更史,ISO 日期、新在前
raw 不可变 / wiki 增量、永不重写消费端必须容忍坏链(坏链=「还没写的知识」)
LLM 维护、人偶尔读enrichment agent 写入、人和 consumption agent 都能读
图:我瞎摸的实现 ⇄ OKF v0.1 规范,六条几乎逐条对上——同一个形状,没互相抄

图:我瞎摸的实现 ⇄ OKF v0.1 规范,六条几乎逐条对上——同一个形状,没互相抄

最戳我的是 OKF 那条「容忍坏链」:一个指向还不存在的页面的链接,不是错误,是「尚未写下的知识」。我的库里到处是这种「先连上、内容以后再长」的悬空双链——我一直当它是脏数据,OKF 直接把它定义成了特性。一份大厂憋出来的规范草案,和一个野生长出来的个人实现,在没互相抄的情况下,在同一个地方达成了共识,这事本身就说明:这套结构不是谁的怪癖,是 agent 时代知识的自然形态


四、诚实的差距:我的库其实还不「合规」

但我不打算给自己贴金。把 OKF 当尺子量一遍,我的库严格说还不是 OKF,差在三处,而且每一处 OKF 都比我更对:

  1. 我的概念页没有 frontmatter。 我用的是页面顶部几行 **Category**: … 的土办法;OKF 要求每页一个 YAML 块、且 type 必填。这一个字段,就是机器能不能「路由、过滤、呈现」你知识的开关——我缺的正是这个让 agent 可编程消费的握手。
  2. 我用 Obsidian 的 [[]] 双链,不是可移植的 markdown 链接。 [[]] 在我的工具里好使,但出了我这套就解析不了;OKF 坚持用标准 /path/to.md 这种 bundle 相对链接,图的就是「换个工具、换个组织、过五年还能读」。我图一时方便,牺牲了可移植性。
  3. 我没有显式的 log.mdcitations 我的变更史散在 _daily/,出处大多丢了。OKF 把「历史」和「引用」都立成了一等公民——因为没有出处的知识,在需要追责时等于没有
图:拿 OKF 当尺子量,三处它比我更对——缺 frontmatter、双链不可移植、没 log/citations

图:拿 OKF 当尺子量,三处它比我更对——缺 frontmatter、双链不可移植、没 log/citations

所以这篇对我自己也是个 checklist:给概念页补上 type frontmatter、把 [[]] 迁成可移植链接、把出处沉淀成 citations。 不是为了合规拿分,是为了让这个库五年后、换个 agent、甚至分享给别人时,还活着


五、真正的道理,和给三类人的话

退一步看,OKF 也好、我这个库也好、Karpathy 那条推也好,指向的是同一件正在发生的事:知识的「读者」变了。

过去你的笔记只给一个人看——你自己,所以比的是排版、是好不好看。现在你的知识有了第二类读者:你的 agent。 而 agent 不在乎排版,它在乎的是:能不能不靠专有 SDK 就解析、能不能在版本控制里 diff、能不能 git clone 走、坏了一块能不能容忍。markdown + frontmatter 之所以赢,不是因为它高级,恰恰因为它笨、它纯文本、它谁都能读。 这是「格式即杠杆」。

把这次的东西,给到三类人:

  • 如果你在认真做个人知识管理:别再囤即用即弃的 AI 摘要了。建一个会富化的活库——新信息进来去长已有的页,不要新开快照。载体就用最笨的 markdown,加一行 type frontmatter,反链用可移植的相对路径。Obsidian、一个 git 仓库、甚至一个文件夹,都够。
  • 如果你在做 agent / 知识类产品:抄 OKF 的「宽容消费」哲学——容忍坏链、容忍未知字段、容忍缺字段。交易类接口要严,知识类接口要,因为知识天生是半成品、是慢慢长出来的。把规范立在「结构」上,别立在「工具」上。
  • 如果你是品牌 / 内容从业者:你积累的行业认知,如果只躺在飞书文档和你脑子里,agent 时代它就是不可被调用的暗物质。早点把它沉淀成一种人和 AI 都能读的结构,你才在「AI 帮我查行业」这件事里占得到货架位。
· · ·

我一直觉得,判断一个技术方向对不对,有个朴素的信号:当一个野生爱好者的瞎摸,和一家大厂郑重发布的规范草案,在没有互相抄的情况下长成了同一个样子,那这个形状大概率是对的。

个人知识库这件事,Karpathy 给了方向,我趟了实现的坑,Google 立了规范的碑。三方撞在一起,说的是同一句话:

一句话定性
在 AI 时代,值得你认真经营的,不是又一个笔记应用,而是一座你和你的 agent 能共同进出、能 git clone 带走、能一直长下去的知识库。它现在丑没关系,只要它活着、只要它纯文本、只要它能被读——剩下的,交给时间和 agent 去长。

我的库还丑,还不合规。但它每小时都在自己长大。而现在,我手里多了一把叫 OKF 的尺子,知道下一步该把它修成什么样。


参考:Open Knowledge Format (OKF) v0.1 草案,出自 GoogleCloudPlatform/knowledge-catalog;个人知识库实现 sawzhang/knowledge-base(Claude Code + bb-browser,受 Karpathy「LLM 知识库」范式启发)。文中数据(625 周期 / ~44.8 万字 / 213 页 / raw 4G)为本人实例 2026-06-13 实时统计。

#个人知识管理 #OKF #AIAgent #知识库 #Karpathy

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询