我要投稿

Rag不行？谷歌DeepMind同款，文档阅读新助手：ReadAgent

发布日期：2025-10-30 07:33:54 浏览次数： 2082

作者：Kevin的AI厨房

微信搜一搜，关注“Kevin的AI厨房”

最近我们已经全落地了一个AI用例生成的Agent，在这个项目中，有两个难点：

其一，就是不同团队和组织的需求输入格式不一致，有使用研发平台进行需求管理，有使用飞书、word、ppt、markdown等等各种类型，长度复杂度不一致，小需求或清晰功能点还好，但是一设计到复杂功能设计文档或者长需求文档就存在上下文问题、重点信息丢失问题。

其二，如何提高个人私有经验和知识对生成质量的作用？

之前尝试过各种Rag、rerank、Graph等知识库，但是效果不尽人意，主要问题在于文本截断、块的上下文理解不足、全局性差的问题，直到看到Google这篇文章，才给了我新的启发。

ReadAgent是一种全新设计的阅读类agent，可以完成长上下文文章的理解和信息检索，且可以在一定程度长保证对文章的总体理解，就和人一样进行阅读。

人在阅读的过程中，总时习惯读一段内容后进行思考和总结，并总使希望将这段内容和原先读的内容进行关联性思考，这是人的逻辑使然。ReadAgent模仿这一点，进行了设计：

1. 逐步阅读，通过LLM对文章进行自然分段

2. 将分段进行摘要总结

3. ReadAgent在执行任务时，根据提示寻找对应的分段进行理解输出。

设计思路

文档分页

可以使用LLM最大的上下文限制作为输入，创建Prompt让LLM按照语义对文档进行分页，保证每个分页都可以涵盖一个语言逻辑块，比如对话结束，描述转折等，当然也可以人为进行分页

创建摘要建立关系

将每一个分页传给LLM，并给LLM进行提示，让它创建一个精简摘要，并将这个摘要和原始文本进行对应存储，但这里存在一个问题是，如果分页内容很长，则会出现，精简后丢失细节信息，所以这里需要自己把握分段内容和长短

检索查找

通过上面两个步骤已经建立了知识库，接下来介绍两种不同的查找逻辑，一种是并行查找P查找，一种是顺序查找S查找，原理是将摘要给LLM，让LLM进行判断，要看哪些分页，然后将分页内容作为从知识库中检索到的内容给Action agent进行任务执行。

P查找的Prompt：

S查找的Prompt

实践

开发一个文档知识库创建的Agent

以Word为例，按照Word的标题级别，对文档进行分页，这里需要对Word内容进行解析：

from docx import Documentfrom docx.oxml.ns import qndoc = Document(docx_path)for element in doc.element.body:     # 处理标题、文本、图片...

最终将得到两个文件：一个是摘要文件，一个是原始分页文件：

文档中的图片可以使用多模态模型例如qwen3-vl进行文本转化。

开发一个检索Agent

这个可以使用n8n或dify来做，也可以使用代码，为了快速实现，我这里使用了dify：

总体测试下来，七八千字含图的长需求文档读取和查阅还是比较准确的，且有上下文的信息。

同理PPT也可以采用同样的思路，当前我的处理逻辑是使用pptx库，将每页文本提取出来。

from pptx import Presentation
for slide_number, slide in enumerate(prs.slides, 1):   slide_content = {     'number': slide_number,     'title': '',     'notes': ''    }

然后将每一页作为一个分页，其中的图片仍然使用多模态模型进行文本转化。

不过这种方式处理PPT有一个问题，就是无法将ppt中的文本信息格式化输出，如有一些结构话的表达，比如流程图、标题级别、列表等，会丢失这部分信息。

所以接下来，我会将每一页ppt输出为图片，给多模态模型进行理解，然后输出一个markdown类型的文本，这样就保留了文本的层次信息。

总结

使用ReadAgent可以很好的处理文本类的文档和长篇文章，同样也可以结合多模态模型进行图片处理。这种思路和人类看一篇文章的思路一致，既可以进行精确的文本检索，也可以保留概括信息，也能理解不同分段之间的思路逻辑。

END

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-04

Skills使用体验

2026-02-04

AgentScope 正式发布 Skills 支持 - 实现渐进式披露

2026-02-04

从“回答者”进化为“研究员”：全面解析 Deep Research

2026-02-04

刚刚，Xcode 史诗级更新：原生集成 Claude Agent SDK，苹果开发直接起飞！

2026-02-04

国产 Cowork 它来了！MCP、Skills和Expert Agents都支持，全部免费体验！

2026-02-04

混元研究博客上线姚顺雨团队最新成果：从 Context 探索语言模型的范式转变

2026-02-04

通俗讲解大模型短期记忆 vs 长期记忆

2026-02-04

谁动了我的电脑？谁应该抱怨？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

国内版的 NotebookLM 来了，甚至更强

2025-11-12

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

大家都在问

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

2026-02-02

X上点赞近万的Claude Agent SDK教程，到底讲了什么？

2026-02-02

人人都在谈论ClawdBot，但你真的懂它的技术原理吗？

2026-02-02

刚刚，谷歌版「世界模型」震撼公测！网友实测炸翻天：游戏末日来了？

2026-01-31

Transformers V5正式发布！这次更新到底香不香？

2026-01-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean