我要投稿

有人用 AI 把《史记》57万字变成了一个可以搜索、跳转、推理的知识图谱

发布日期：2026-06-10 07:02:35 浏览次数： 1533

作者：Neil知本论

微信搜一搜，关注“Neil知本论”

GitHub 1300星。22类实体彩色语法高亮、130条交互式时间线、AI Agent自主维护20000+页Wiki，两千年来的第一次，古文像代码一样可读。

有人用 AI，把《史记》57万字全部拆解标注，做成了一个可以交互、搜索、推理的知识图谱。

不是简单的全文检索。不是 OCR 转文字。

是让两千年前的文字像代码一样，能语法高亮、能跳转、能消歧、能自动检测矛盾。

GitHub 1300 星。作者叫鲍捷。我看到这个项目的时候，真的愣了好几秒。

数据规模先给你看清楚

这不是一个「玩玩」的项目。

14,065实体词条

126,441标注次数

3,198历史事件

7,637事件关系

20,830+Wiki 页面

55亿tokens AI消耗

《史记》一共 130 篇，57.7 万字。从黄帝写到汉武帝，三千年的历史压缩在一本书里。历代学者花了两千年注释它，但从来没有人在这个规模上做过结构化。

这个项目做到了。

而且，不是人工标注的。是 AI Agent 在跑。

四个亮点

1. 22 类实体彩色语法高亮

你打开它的在线阅读器，看到的第一眼就会觉得不对劲。

《史记》的原文不是黑白的。人名、地名、官职、事件、时间、邦国、氏族、器物、典籍、礼仪、刑法、思想，22 类实体，每一类都有颜色标注。

18 类名词，4 类动词。人名是蓝色的，地名是绿色的，官职是橙色的，军事动词是红色的。你读着读着，整个文本的结构就浮出来了，哪些地方人物密集，哪些地方事件密集，哪些地方是纯叙事。

而且每种颜色可以单独开关。你想只看地名，关掉其他 21 类就行。你想只看军事行动，只开那一类动词的颜色。

这哪是在读古文。这简直是在读一份带语法高亮的源代码。

我从来没想过，「读《史记》」这件事可以被重新定义到这个程度。

2. 史记地铁图

130 条交互式时间线，支持缩放、拖拽、搜索。

从春秋到汉初，所有事件按照时间轴铺开，每一段都可以点进去看详情。不是那种静态的「历史大事年表」图片，而是你可以拖拽缩放、可以搜索、可以按事件类型筛选的交互式时间线。

整个春秋战国到汉初的历史脉络，一张图看清楚。

这件事的意义在于，以前你要搞清楚「秦始皇统一六国之前，各国之间发生了什么」，你得翻几十篇本纪和世家，自己画时间线。现在，拖一下鼠标就行。

3. Butler AI Agent 自主维护

这个是最让我震撼的。

项目里有一个叫 Butler 的 AI Agent，它不是在后台闲着。它已经连续跑了 12,000+ 轮，自主维护着 20,000+ 页的 Wiki。

每轮执行一个原子操作，新建 stub 页面、扩写精品页、核验引文、修复断链、给地名配上谭其骧《中国历史地图集》的裁切图，600 多页地图已经配好了。每 23 轮批量提交一次。

而且它有自己的质量保障机制。三层反思循环：每 20 条操作做一次流程反思，每完成 6 页做一次图式反思，每 10 轮做一次类型审计。

你想想这是什么概念。

一个 AI Agent，自己在维护一套两万页的历史百科。不需要人盯着，它会自己发现错误、自己修正、自己升级质量标准。

这不是一个「AI 辅助的项目」。这是一个「AI 为主、人为辅」的项目。

4. 矛盾检测

《史记》是司马迁一个人写的，但材料来源非常杂。同一个事件在不同的篇章里可能有不同的记载，有些细节前后对不上。

历代学者做了一件事叫「考异」，逐条比对不同篇章的记载差异。这需要极高的学力和极大的耐心，通常只有专门研究《史记》的学者才会做。

这个系统，能自动做。

跨篇章的矛盾检测，系统自动跑出来。比如同一场战役在不同传记里的兵力数字不一致，同一个人的卒年在不同篇章里有出入，系统都能标出来。

学术研究用这个，真的太香了。

背后的方法论，比项目本身更值钱

如果只是一个《史记》知识图谱，那已经足够让人服气了。

但鲍捷做的不止这些。他还把整个构建过程写成了一套可以迁移的方法论，两本 PDF，合计 863 页。14 个元技能，89 个管线技能，全部用结构化自然语言写成，AI 可以直接读取执行。

这套方法论的核心思想，叫「Agentic Ontology」。

翻译成大白话就是：本体不是专家预先设计的蓝图，而是从文本数据里「自下而上」涌现出来的。

1、传统做法：专家坐在那里，先想好「人名应该分几类」「事件关系应该有几种」，然后按这个框架去标注。从空白开始设计，数十类、数百实例，迭代一轮要数周。

2、Agentic Ontology：AI 直接从原始文本里提取实体和关系，不预设框架。让分类体系从数据里自己长出来，人只负责修剪和校准。数千类、数万实例，迭代一轮只要数小时。

速度提升了 100 倍。

这个方法论的意义，远远超出《史记》这一本书。同一套架构，可以直接迁移到《汉书》《资治通鉴》《左传》，任何大规模古籍，都可以用同样的方式变成可交互的知识图谱。

鲍捷自己在项目里说了：为什么用 SKILL 而不是写代码？因为学者能直接阅读和验证，调整提示词就行不用重写代码，同一套架构可以直接迁移。

AI 还从《史记》里读出了什么

知识图谱构建的过程中，系统自己发现了一些跨篇章的规律，不是人告诉它的，是它从数据里自己「看见」的。

1、征服-治理倒转。打天下的手段，恰恰是治天下的障碍。秦以法家取天下，以法家治天下，二世而亡。汉以武力取天下，以黄老治天下，四百年。

2、边缘优势。成功的王朝，一致从边缘地区起源。周从西陲、秦从西戎、汉从巴蜀、唐从太原。

3、宽恕悖论。对下属的宽恕创造忠诚，对敌国的宽恕制造灾难。

这些不是「AI 生成的内容」。是 AI 在分析了 3,198 个事件和 7,637 条事件关系之后，自己发现的统计规律。

想想看。一个人类学者要读完《史记》并总结出这些规律，可能需要几年。一个 AI Agent，几小时。

这让我想起 Serenity 那句。

AI 没有让投资变简单，AI 只是把「研究量」的上限抬高了。这个道理，放在历史研究上也是一样的。

这件事为什么重要

坦率的讲，我看到这个项目的时候，脑子里想的不只是《史记》。

我想的是，如果《史记》可以被这样处理，那《二十四史》呢？如果中文古籍可以被这样处理，那英文的、法文的、阿拉伯文的古典文献呢？

人类几千年的文字遗产，大部分还躺在纸面上，只有极少数学者能真正「读进去」。大部分人只能读翻译版、解读版、摘要版。每一层转述都在丢失信息。

但如果 AI 能把所有古籍都变成这样的知识图谱呢？

不是替代学者。是让一个普通人也能用学者的方式去探索，搜索、跳转、比对、发现矛盾、发现规律。

这不是一个《史记》的项目。这是一个「人类知识遗产的结构化」的范本。

如果你对历史感兴趣，或者在做 AI 知识工程，这个项目值得花一个下午好好看看。在线体验：shiji.memify.wiki
GitHub：github.com/baojie/shiji-kb

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-10

一键把杂乱文档变成结构化知识图谱！开源 Hyper-Extract：LLM驱动的超强知识提取神器，Hypergraph + 时空图全支持

2026-06-10

SeedER：让知识图谱检索从“相似度匹配”走向“结构化探索”

2026-06-04

实体、关系、属性：知识图谱三大基本要素详解

2026-06-04

规则推理、本体推理与继承推理：三种常见推理方式

2026-06-03

本体（Ontology）与知识图谱（Knowledge Graph）的区别

2026-06-03

本体论 Ontology 泛谈丨如何帮企业应对 Tokenmaxxing 困局

2026-05-28

本体论又火了，他能优化我的 Agent 效果么？

2026-05-26

思考的快与慢：用 Prolog 给 LLM 装上理性大脑，然后引入知识图谱，做结构化知识双向同步，这个 agent 能力有点炸裂...

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

卡帕西没做完的，开源社区48小时搞定了！完全体知识库，token省70倍

2026-04-07

告别 AI 胡说八道！这款开源神器把代码变成知识图谱，让 Cursor 和 Claude 彻底读懂你的项目

2026-03-26

碎片知识终于不乱了！这款开源 AI 工具，把笔记转为知识图谱，还能本地部署！

2026-04-19

当 SAP 买下 Reltio：企业软件进入“上下文时代”

2026-03-28

Ontological Engineering：基于PolarDB-PG智能本体引擎实现“数据驱动”到“决策中心”

2026-04-23

还在关注Palantir本体论吗！看看OntoFlow本体建模平台：从数据 -> 知识图谱 -> 本体 -> 决策的完整链路功能演示

2026-04-22

从可观测到可理解：用 UModel 构建 Agent 原生的代码知识图谱

2026-04-23

思考的快与慢：用 Prolog 给 LLM 装上理性大脑，然后引入知识图谱，做结构化知识双向同步，这个 agent 能力有点炸裂...

2026-05-26

腾讯混元干了件大事：Skill Graphs

2026-05-07

本体（Ontology）与知识图谱（Knowledge Graph）的区别

2026-06-03

大家都在问

本体论又火了，他能优化我的 Agent 效果么？

2026-05-28

在大学里“知识图谱”，真的有人用吗？

2026-01-27

什么是本体（Ontology）？

2025-12-23

大模型落地最后一公里：为什么企业必须重构对“本体（Ontology）”的认知？

2025-12-01

文档知识图谱构建：AI代理如何简化复杂流程？

2025-07-29

如何搭建Agent的知识库底座？

2025-07-14

如何为客户数据构建语义视图？

2025-06-14

Agent Infra 图谱：哪些组件值得为 Agent 重做一遍？

2025-05-23

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw