微信扫码
添加专属顾问
我要投稿
AI 将《史记》转化为可交互的知识图谱,让两千年前的文字像代码一样可读,实现前所未有的结构化探索。核心内容: 1. 22 类实体的彩色语法高亮,让古文结构一目了然 2. 130 条交互式时间线,清晰展示历史事件脉络 3. AI Agent 自主维护庞大知识库,实现自动化更新与质量保障
有人用 AI,把《史记》57万字全部拆解标注,做成了一个可以交互、搜索、推理的知识图谱。
不是简单的全文检索。不是 OCR 转文字。
是让两千年前的文字像代码一样,能语法高亮、能跳转、能消歧、能自动检测矛盾。
GitHub 1300 星。作者叫鲍捷。我看到这个项目的时候,真的愣了好几秒。
这不是一个「玩玩」的项目。
14,065实体词条
126,441标注次数
3,198历史事件
7,637事件关系
20,830+Wiki 页面
55亿tokens AI消耗
《史记》一共 130 篇,57.7 万字。从黄帝写到汉武帝,三千年的历史压缩在一本书里。历代学者花了两千年注释它,但从来没有人在这个规模上做过结构化。
这个项目做到了。
而且,不是人工标注的。是 AI Agent 在跑。
你打开它的在线阅读器,看到的第一眼就会觉得不对劲。
《史记》的原文不是黑白的。人名、地名、官职、事件、时间、邦国、氏族、器物、典籍、礼仪、刑法、思想,22 类实体,每一类都有颜色标注。
18 类名词,4 类动词。人名是蓝色的,地名是绿色的,官职是橙色的,军事动词是红色的。你读着读着,整个文本的结构就浮出来了,哪些地方人物密集,哪些地方事件密集,哪些地方是纯叙事。
而且每种颜色可以单独开关。你想只看地名,关掉其他 21 类就行。你想只看军事行动,只开那一类动词的颜色。
这哪是在读古文。这简直是在读一份带语法高亮的源代码。
我从来没想过,「读《史记》」这件事可以被重新定义到这个程度。
130 条交互式时间线,支持缩放、拖拽、搜索。
从春秋到汉初,所有事件按照时间轴铺开,每一段都可以点进去看详情。不是那种静态的「历史大事年表」图片,而是你可以拖拽缩放、可以搜索、可以按事件类型筛选的交互式时间线。
整个春秋战国到汉初的历史脉络,一张图看清楚。
这件事的意义在于,以前你要搞清楚「秦始皇统一六国之前,各国之间发生了什么」,你得翻几十篇本纪和世家,自己画时间线。现在,拖一下鼠标就行。
这个是最让我震撼的。
项目里有一个叫 Butler 的 AI Agent,它不是在后台闲着。它已经连续跑了 12,000+ 轮,自主维护着 20,000+ 页的 Wiki。
每轮执行一个原子操作,新建 stub 页面、扩写精品页、核验引文、修复断链、给地名配上谭其骧《中国历史地图集》的裁切图,600 多页地图已经配好了。每 23 轮批量提交一次。
而且它有自己的质量保障机制。三层反思循环:每 20 条操作做一次流程反思,每完成 6 页做一次图式反思,每 10 轮做一次类型审计。
你想想这是什么概念。
一个 AI Agent,自己在维护一套两万页的历史百科。不需要人盯着,它会自己发现错误、自己修正、自己升级质量标准。
这不是一个「AI 辅助的项目」。这是一个「AI 为主、人为辅」的项目。
《史记》是司马迁一个人写的,但材料来源非常杂。同一个事件在不同的篇章里可能有不同的记载,有些细节前后对不上。
历代学者做了一件事叫「考异」,逐条比对不同篇章的记载差异。这需要极高的学力和极大的耐心,通常只有专门研究《史记》的学者才会做。
这个系统,能自动做。
跨篇章的矛盾检测,系统自动跑出来。比如同一场战役在不同传记里的兵力数字不一致,同一个人的卒年在不同篇章里有出入,系统都能标出来。
学术研究用这个,真的太香了。
如果只是一个《史记》知识图谱,那已经足够让人服气了。
但鲍捷做的不止这些。他还把整个构建过程写成了一套可以迁移的方法论,两本 PDF,合计 863 页。14 个元技能,89 个管线技能,全部用结构化自然语言写成,AI 可以直接读取执行。
这套方法论的核心思想,叫「Agentic Ontology」。
翻译成大白话就是:本体不是专家预先设计的蓝图,而是从文本数据里「自下而上」涌现出来的。
1、传统做法:专家坐在那里,先想好「人名应该分几类」「事件关系应该有几种」,然后按这个框架去标注。从空白开始设计,数十类、数百实例,迭代一轮要数周。
2、Agentic Ontology:AI 直接从原始文本里提取实体和关系,不预设框架。让分类体系从数据里自己长出来,人只负责修剪和校准。数千类、数万实例,迭代一轮只要数小时。
速度提升了 100 倍。
这个方法论的意义,远远超出《史记》这一本书。同一套架构,可以直接迁移到《汉书》《资治通鉴》《左传》,任何大规模古籍,都可以用同样的方式变成可交互的知识图谱。
鲍捷自己在项目里说了:为什么用 SKILL 而不是写代码?因为学者能直接阅读和验证,调整提示词就行不用重写代码,同一套架构可以直接迁移。
知识图谱构建的过程中,系统自己发现了一些跨篇章的规律,不是人告诉它的,是它从数据里自己「看见」的。
1、征服-治理倒转。打天下的手段,恰恰是治天下的障碍。秦以法家取天下,以法家治天下,二世而亡。汉以武力取天下,以黄老治天下,四百年。
2、边缘优势。成功的王朝,一致从边缘地区起源。周从西陲、秦从西戎、汉从巴蜀、唐从太原。
3、宽恕悖论。对下属的宽恕创造忠诚,对敌国的宽恕制造灾难。
这些不是「AI 生成的内容」。是 AI 在分析了 3,198 个事件和 7,637 条事件关系之后,自己发现的统计规律。
想想看。一个人类学者要读完《史记》并总结出这些规律,可能需要几年。一个 AI Agent,几小时。
这让我想起 Serenity 那句。
AI 没有让投资变简单,AI 只是把「研究量」的上限抬高了。这个道理,放在历史研究上也是一样的。
坦率的讲,我看到这个项目的时候,脑子里想的不只是《史记》。
我想的是,如果《史记》可以被这样处理,那《二十四史》呢?如果中文古籍可以被这样处理,那英文的、法文的、阿拉伯文的古典文献呢?
人类几千年的文字遗产,大部分还躺在纸面上,只有极少数学者能真正「读进去」。大部分人只能读翻译版、解读版、摘要版。每一层转述都在丢失信息。
但如果 AI 能把所有古籍都变成这样的知识图谱呢?
不是替代学者。是让一个普通人也能用学者的方式去探索,搜索、跳转、比对、发现矛盾、发现规律。
这不是一个《史记》的项目。这是一个「人类知识遗产的结构化」的范本。
如果你对历史感兴趣,或者在做 AI 知识工程,这个项目值得花一个下午好好看看。在线体验:shiji.memify.wiki
GitHub:github.com/baojie/shiji-kb
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-10
一键把杂乱文档变成结构化知识图谱!开源 Hyper-Extract:LLM驱动的超强知识提取神器,Hypergraph + 时空图全支持
2026-06-10
SeedER:让知识图谱检索从“相似度匹配”走向“结构化探索”
2026-06-04
实体、关系、属性:知识图谱三大基本要素详解
2026-06-04
规则推理、本体推理与继承推理:三种常见推理方式
2026-06-03
本体(Ontology)与知识图谱(Knowledge Graph)的区别
2026-06-03
本体论 Ontology 泛谈丨如何帮企业应对 Tokenmaxxing 困局
2026-05-28
本体论又火了,他能优化我的 Agent 效果么?
2026-05-26
思考的快与慢:用 Prolog 给 LLM 装上理性大脑,然后引入知识图谱,做结构化知识双向同步,这个 agent 能力有点炸裂...
2026-04-07
2026-03-26
2026-04-19
2026-03-28
2026-04-23
2026-04-22
2026-04-23
2026-05-26
2026-05-07
2026-06-03