2026年6月18日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

从 RAG 到 MAG:解析 Agent 的长期记忆 (Memory) 架构演进

发布日期:2026-06-16 20:28:42 浏览次数: 1526
作者:吃果冻不吐果冻皮

微信搜一搜,关注“吃果冻不吐果冻皮”

推荐语

从RAG到MAG,解析智能体如何应对长期运行中的“记忆”挑战,实现更高效的上下文管理。

核心内容:
1. 从RAG到MAG的演进背景与核心问题转变
2. MAG架构重点解决的两大核心应用场景
3. 面向复杂长周期任务的具体实现思路与挑战

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

原文:https://zhuanlan.zhihu.com/p/2024632353402758836

最近 LoCoMo被刷的越来越高了,Agent 发展也是突飞猛进,尤其是需要长期运行(Long-horizon)的智能体越来越多,原来的 RAG 已经完全不够看了。业界越来越频繁地讨论 Agent 在长期运行下的 Memory(记忆)管理,这种范式转变在学术界和工业界已经被正式命名为 MAG (Memory-Augmented Generation,记忆增强生成)

于是乎最近集中看了不少 Memory 管理的经典 Paper 和架构,在这里给大家做个分享。

在切入正题前,我还想个极简回顾(如果是大家熟悉可以直接跳过,看下面 Memory 深度拆解那节)。

原来做 RAG,主要就是检索些文章,让模型生成回复的时候有个参考。大概 2 年前,不少模型还受限于上下文窗口,信息多了还得加个摘要等技术,把检索信息硬塞进有限的窗口里(虽然当时也有号称窗口大的模型,但实际落地效果懂的都懂)。

大概一年前,模型窗口越卷越大,信息基本都能放下了。但问题又变成了:模型很难从浩如烟海的检索结果中提取出真正有效的信息(也就是经典的 Lost in the Middle 现象)。不过好在随着技术迭代,这个问题基本被解决了(比如最近各类 Long Context 的大海捞针榜单都被刷得很极致)。

到了现在,问题的形态又变了。Agent 如今面临的是几乎无限的上下文场景(长期运行)。另一方面,即使大海捞针指标刷得高,超长的 Context(里面混杂的大量无用噪声信息)依然会显著拉低模型的复杂推理能力,并且极度浪费 Token。业界现在主要依赖 Context Caching(上下文缓存)来强行压降长窗口的算力账单和首字延迟,但这属于 Infra 层的物理外挂,治标不治本;要真正解决冗余信息导致模型智商掉线的‘上下文腐烂’,必须在算法层引入 MAG 来做主动过滤和管理。所以,综合性能和成本的双重考量,Memory 管理的研究已经成为了重中之重

下面我们就详细讲讲 Memory 现在的真实玩法。

Memory:到底在解决什么问题?

我们先给 Memory 面临的场景分个类。广义上讲,目前的 MAG 架构主要在死磕两大类截然不同的高优场景:

  1. 面向复杂的长周期任务:它的前身可以看作是前阵子爆火的 DeepResearch,只不过现在 Agent 的任务流程更长、更复杂,时间跨度也更大了。
  2. 个人智能助手 (Personal AI) 场景:核心是在日常处理用户的各类多源、碎片化信息中,不断积累和迭代属于用户的个性化上下文与偏好(即终身学习)。

下面我们挨个盘一盘,看看业界神仙打架都是怎么卷的。

场景一:面向复杂的长周期任务(DeepResearch 终极演进)

做过长线 Agent 任务的同学肯定有体会,这类任务有个要命的特征:信息量极度爆炸(除非检索工具很好,不然128K很容易打爆),而且强依赖多跳的因果推理。

1. 暴力长窗口为啥失效了?——“上下文腐烂”

很多人觉得搞个 1M 或者 10M 的超大窗口就万事大吉了,但在实际场景下,当系统试图处理需要“高阶信息聚合推导”而非“简单单点检索”的超长文本时,会不可避免地遇到 “上下文腐烂”(Context Rot) 现象——也就是模型的推理能力呈现断崖式下跌。不仅关键信息会被噪声彻底淹没,注意力机制的算力成本更是呈平方级暴增,谁家的显卡也扛不住。

早在长窗口爆发前夕,业界就已经在尝试破局,以 23 年经典的 MemWalker 为代表的交互式阅读给出了极佳思路

2. 从碎片 RAG 到交互式阅读:MemWalker

既然单纯靠大窗口硬塞和切块碎片的 RAG 搞不定了(切块容易打断逻辑链),业界开始玩起了更高级的架构。比如普林斯顿和 Meta 联合提出的 MemWalker 框架,思路就很妙。它不再傻傻地把长文本一次性推入模型,而是让 LLM 变成一个能够在结构化空间里穿梭的“交互式阅读智能体”。

遇到极长的文档,MemWalker 分两步走:

  • 阶段一(建树):先让大模型分段做递归摘要,自底向上构建出一棵有严格层级关系的“记忆树(Memory Tree)”。这里不需要保留原文 100% 的细节,只要信息量足够引导 Agent 在下一步做路径分流决策就行。
  • 阶段二(交互式导航): 收到复杂查询时,大模型化身为独立的“规划节点”,从树根出发跑图。模型用内置的工作记忆记录走过的轨迹,自己决定是顺着某个分支深挖细节,还是发现走错路了主动 “回溯(Backtracking)”去找新方向。
踩坑经验:
 这套玩法理念极好,但非常吃模型自身的“指令跟随能力”(没个 70B 以上规模根本压不住)。并且在面对动辄千万 Token、实体极其繁杂的代码库时,树节点的生成依然容易遇到爆炸式的扩展瓶颈。

3. 各大记忆架构流派对比

因为单棵静态树搞不定全网级的复杂关联,同时纯切块的向量检索又存在严重的 “语义漂移(Semantic Drift)”(孤立文本块丢了上下文),所以工业界重新翻出了 22 年时序图谱的经典之作 EvoKG,将其置信度演进机制魔改后融入大模型。GraphRAG(图检索增强) 等结构化方案就被推上了神坛。有了图的约束,Agent 不再是“在暗室里摸黑找碎片”,而是有了“上帝视角”,能顺着逻辑链路跳跃。

这里我给大家总结梳理一下目前业内主流的几种 Memory 架构流派:

架构流派
典型系统模式
核心优势
最致命的“翻车点” (长周期失败模式)
纯向量检索
平铺向量 RAG
部署极简,并发高、延迟极低
语义漂移。一遇逻辑跳跃直接抓瞎,完全丧失深层结构关联。
层级调度体系
分层向量 (如 MemGPT)
类似 OS 显存管理,高价值信息重用率高
分页灾难。淘汰策略一旦误删核心状态参数,会导致协作共识破裂。
图谱与结构
GraphRAG
完美应对多跳追问,提供全局战略摘要
构建开销极大。LLM 提炼关系易带入偏见,本体设计复杂限制了灵活性。
时序演化网络
时序知识图谱
具备最强的长期连续推理,状态严格一致
极度依Schema。对流式数据的清洗与实时融合要求苛刻到令人发指。
事件流日志
纯执行检查点
绝对基准依据,支持无损崩溃回放
日志极度膨胀。缺乏关键步骤注释时回放价值大减。
宏观经验沉淀
情节型长效记忆
跨任务的模式识别与隐性经验复用
边界切割难。长片段情节很难切准,跨场景易发生“经验失真”。

(参考来源:MarkTechPost关于 Agent 记忆系统的最新对比分析)

GraphRAG:重塑多跳因果联系

在此背景下,图检索增强生成(GraphRAG)技术应运而生。相较于仅仅检索文档片段(段落图 Passage Graph),GraphRAG在系统执行初期便强制大语言模型提取文本中的核心实体(Nodes)、明确的关系映射(Edges),并通过层次化聚类构建包含各类概念的社区(Communities) 

在图的本体论约束下,智能体不再是在高维向量暗室中摸黑寻找相似片段,而是沿着清晰定义的逻辑边缘进行跳跃式遍历(Path traversal) 。当回答长周期科研类任务中的高阶综合性问题时,图结构使模型能以“上帝视角”跨越百万字文档总结全貌,这是传统相似性匹配所完全不具备的维度属性 。

认知范式的重构:“系统2”思维与分布式推理网络

在通过结构化记忆解决“去哪里寻找真相”之后,工业界对于长周期任务的终极挑战在于如何解决模型生成端逻辑的脆弱性。2025至2026年,通过将模型底层的强化学习改造与应用层的动态上下文编排相结合,整个领域的认知范式被彻底重构。

除了通过 system2 和 chain of agents 等方式增强模型推理能力或分割思考负担,最核心的转变在于 “上下文工程”(Context Engineering)的范式转移 。简单地将海量文档塞入模型不仅会导致“上下文腐烂”加剧,还伴随着难以忍受的生成延迟与极其昂贵的推理成本。这是一种针对有限上下文资源进行多轮动态编排与修剪的系统科学。

到了2026年,各种先进的 DeepResearch架构已经实现了高度复杂的“动态上下文管理(Dynamic Context Management)”。(这里就不重复说 Claude Code了)这类系统不再被动保存完整的探索流与冗长的网页抓取日志,而是通过独立的监督模块(Supervisor Module)主动进行异常检测与上下文修剪(Context Pruning),将已经完成的子目标实时压缩为高密度的语义摘要,从而在不增加大模型推理负担的前提下,始终维持系统在超长探索周期内的认知纯净度与逻辑连贯性。

场景二:个人智能助手场景下的“个性化上下文”积累

如果说长周期任务是在啃理性的“硬骨头”,那私人助理(Personal AI)场景面对的就是感性、琐碎的“日常流水账”。多源异构、高度碎片化,而且充满了用户的隐性情感与偏好变迁。

拿老架构做 Personal AI,通常会暴露出两个灾难性的痛点:

痛点一:语义依赖失效

真实的日常对话极度依赖上下文。比如你问 Agent:“咱们去日本旅行时给老妈买的礼物放哪了?”

这句话里既没有商品名,也没有精确时间。传统的纯文本 Embedding 检索遇到这种缺乏实体关键词的 Query,根本跨越不了零散的时间线做因果推断,直接当场去世。

为了破局,个人知识图谱 (Personal Knowledge Graph, PKG) 重返巅峰。LLM 在这里承担了双重角色:一边在后台静默运行,从你日常的废话里敏锐抽取出关系网络(如 [用户] - {去过} - [日本(2023-04)] - {购买} - [珍珠项链]),自动建图;另一边在前端作为推理引擎,顺着图谱发起多跳查询,提供不可辩驳的事实基准。

痛点二:动态偏好漂移 (Dynamic Preference Drift)

人是善变的。用户昨天还喊着非冰美式不喝,今天可能就说要养生改喝茶了。如果系统只会机械地切片历史记录,把旧经验抽出来当目前的决策依据,就会导致“经验错位回放”,显得这个 AI 极其固执且缺乏情商。

怎么对付人类善变的偏好?以前大家想靠 RLHF(人类反馈强化学习)重新“炼丹”,或者在 System Prompt 里塞一堆补丁。但给成千上万的用户分别训练特定模型根本是算力梦魇,Prompt 塞多了又迅速榨干窗口,而且普通人往往“词不达意”。

Drift 算法的问世掀桌子了。它提供了一个极其优雅的 “免训练 (Training-free)” 解法:它直接把偏好对齐下放到了毫秒级的 Decoding(解码期)阶段!先用差分提示,根据你最近的几十条互动,把你的偏好解构成几个独立维度的线性组合算出权重。然后在模型吐出每一个 Token 的瞬间,实时干预冻结状态下 LLM 内部的 Logits 生成概率。

这种底层干预,相当于给大模型带上了一个“即插即用的实时个性化滤镜”,说出的每一句话都完美贴合你刚刚演进出的最新口味。

需要指出的是,工业界没有免费的午餐。Drift 这种 Logits 干预强依赖模型的白盒访问权限,且极其考验线上推理引擎对算子的优化能力。因此它的最佳落地场景是运行在端侧的本地专属模型(如 7B 级别)。而对于依赖闭源 API 或追求极致高并发的云端 Agent,我们往往还需要退一步,采用外挂式的 Prompt 动态路由或轻量级重排(Reranker)作为工程妥协。

架构大一统:混合记忆系统

到了现在,大厂企业级 AI Agent 的架构准则已经全面转向了 混合记忆系统(Hybrid Memory Systems)。底层往往是三线并行流水线:

  1. 向量搜索 (Vector Search): 负责兜底,捕捉模糊的过往对话情绪基调。
  2. 图谱遍历 (PKG): 专门应对明确的事实拓扑网络,确保因果推导的绝对准确。
  3. 情节时间线 (Episodic Timeline):严格按时间序列存放原始事件流,保留“生命体验”的真实面貌(配合类似 EvoKG 的时序感知算法,解决状态变迁冲突)。

终局演进:多模态终身学习与 AI 自进化

当历史车轮滚入 2026 年,基于纯文本对话堆砌的记忆模型已经彻底摸到了天花板。人类的高级智能本质上是对海量多模态生命体验(看的屏幕轨迹、听的环境底噪、复杂的邮件往来)的持续积累与深度抽象。Agent 的前沿探索正式纵深推进到了 多模态终身学习(Lifelong Learning) 时代。

这里不得不提目前代表技术巅峰的框架——MemVerse。它致力于解决一个终极命题:Agent 在永不关机的岁月里,到底该记住什么、遗忘什么?

MemVerse 搞出了一个极具颠覆性的工程创新:定期蒸馏(Periodic Distillation) 机制。

即使图谱建得再好,外部检索数据无限膨胀后也会导致延迟卡死。于是 MemVerse 建立了一条神仙回路:在 Agent 负载较低的“休眠期”,自动抽取外部多模态图谱中的 QA 对,启动 SFT(监督微调),强迫轻量级模型将复杂的外部事实,彻底“内化”压缩进其神经网络隐层中的参数化权重里(即最小化 Token 级交叉熵损失)。

这就好比把深思熟虑的知识,渐渐变成了刻在基因里的 “肌肉记忆”(实现了极速的参数化直觉调用),同时依然保留了慢速的层次化图谱检索(深度思索)。这种精妙的双系统制衡,是目前多模态记忆底座的绝对标杆。

当然,一个必须要考虑的问题是:终身学习的灾难性遗忘怎么防?前沿的实战方案绝对不是直接去污染底座的全局权重,而是必须结合**连续学习(Continual Learning)**机制,如维护经验回放缓冲区(Replay Buffer),或者采用 EWC(弹性权重巩固)算法,以此在旧知识与新体验之间实现权重制衡。

另外,大家可能会疑惑,前面刚说微调是算力梦魇,怎么到了 MemVerse 又用上 SFT 了?其实这是工程上的 Online/Offline 异步解耦。Drift 解决的是要求极低延迟的‘在线实时推理’;而 MemVerse 的 SFT 是在 Agent 处于低负载时的‘夜间休眠期’异步跑批。并且实战落地时,并非去微调云端的千亿大模型底座,而是针对每个用户动态更新极小参数的 专属 LoRA 适配器(Memory-LoRA),或在端侧轻量级模型(SLM)上微调。白天靠快速干预,晚上靠低成本微调做梦巩固,这才是架构艺术。

(a) OMNI-SIMPLEMEM 架构,其特点是选择性摄取、混合检索和金字塔式扩展。(b) Mem-Gallery 基准上的自主优化轨迹,显示了经过40次实验后的性能提升。

更有甚者,在极其庞杂的架构下,依赖纯人工试错调优已经逼近了天花板。在突破性项目 Omni-SimpleMem 中,AI 已经开始自己写 Memory 架构了! 研究人员直接部署了高度自治的自主研究管道(Autonomous Research Pipeline),让 LLM 自己去诊断召回故障,自己修改图谱拓扑代码,自己修复数据清洗 Bug。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询