微信扫码
添加专属顾问
我要投稿
从RAG到MAG,解析智能体如何应对长期运行中的“记忆”挑战,实现更高效的上下文管理。核心内容:1. 从RAG到MAG的演进背景与核心问题转变2. MAG架构重点解决的两大核心应用场景3. 面向复杂长周期任务的具体实现思路与挑战
原文:https://zhuanlan.zhihu.com/p/2024632353402758836
最近 LoCoMo被刷的越来越高了,Agent 发展也是突飞猛进,尤其是需要长期运行(Long-horizon)的智能体越来越多,原来的 RAG 已经完全不够看了。业界越来越频繁地讨论 Agent 在长期运行下的 Memory(记忆)管理,这种范式转变在学术界和工业界已经被正式命名为 MAG (Memory-Augmented Generation,记忆增强生成)。
于是乎最近集中看了不少 Memory 管理的经典 Paper 和架构,在这里给大家做个分享。
在切入正题前,我还想个极简回顾(如果是大家熟悉可以直接跳过,看下面 Memory 深度拆解那节)。
原来做 RAG,主要就是检索些文章,让模型生成回复的时候有个参考。大概 2 年前,不少模型还受限于上下文窗口,信息多了还得加个摘要等技术,把检索信息硬塞进有限的窗口里(虽然当时也有号称窗口大的模型,但实际落地效果懂的都懂)。
大概一年前,模型窗口越卷越大,信息基本都能放下了。但问题又变成了:模型很难从浩如烟海的检索结果中提取出真正有效的信息(也就是经典的 Lost in the Middle 现象)。不过好在随着技术迭代,这个问题基本被解决了(比如最近各类 Long Context 的大海捞针榜单都被刷得很极致)。
到了现在,问题的形态又变了。Agent 如今面临的是几乎无限的上下文场景(长期运行)。另一方面,即使大海捞针指标刷得高,超长的 Context(里面混杂的大量无用噪声信息)依然会显著拉低模型的复杂推理能力,并且极度浪费 Token。业界现在主要依赖 Context Caching(上下文缓存)来强行压降长窗口的算力账单和首字延迟,但这属于 Infra 层的物理外挂,治标不治本;要真正解决冗余信息导致模型智商掉线的‘上下文腐烂’,必须在算法层引入 MAG 来做主动过滤和管理。所以,综合性能和成本的双重考量,Memory 管理的研究已经成为了重中之重。
下面我们就详细讲讲 Memory 现在的真实玩法。
我们先给 Memory 面临的场景分个类。广义上讲,目前的 MAG 架构主要在死磕两大类截然不同的高优场景:
下面我们挨个盘一盘,看看业界神仙打架都是怎么卷的。
做过长线 Agent 任务的同学肯定有体会,这类任务有个要命的特征:信息量极度爆炸(除非检索工具很好,不然128K很容易打爆),而且强依赖多跳的因果推理。
很多人觉得搞个 1M 或者 10M 的超大窗口就万事大吉了,但在实际场景下,当系统试图处理需要“高阶信息聚合推导”而非“简单单点检索”的超长文本时,会不可避免地遇到 “上下文腐烂”(Context Rot) 现象——也就是模型的推理能力呈现断崖式下跌。不仅关键信息会被噪声彻底淹没,注意力机制的算力成本更是呈平方级暴增,谁家的显卡也扛不住。
早在长窗口爆发前夕,业界就已经在尝试破局,以 23 年经典的 MemWalker 为代表的交互式阅读给出了极佳思路
既然单纯靠大窗口硬塞和切块碎片的 RAG 搞不定了(切块容易打断逻辑链),业界开始玩起了更高级的架构。比如普林斯顿和 Meta 联合提出的 MemWalker 框架,思路就很妙。它不再傻傻地把长文本一次性推入模型,而是让 LLM 变成一个能够在结构化空间里穿梭的“交互式阅读智能体”。
遇到极长的文档,MemWalker 分两步走:
踩坑经验:这套玩法理念极好,但非常吃模型自身的“指令跟随能力”(没个 70B 以上规模根本压不住)。并且在面对动辄千万 Token、实体极其繁杂的代码库时,树节点的生成依然容易遇到爆炸式的扩展瓶颈。
因为单棵静态树搞不定全网级的复杂关联,同时纯切块的向量检索又存在严重的 “语义漂移(Semantic Drift)”(孤立文本块丢了上下文),所以工业界重新翻出了 22 年时序图谱的经典之作 EvoKG,将其置信度演进机制魔改后融入大模型。GraphRAG(图检索增强) 等结构化方案就被推上了神坛。有了图的约束,Agent 不再是“在暗室里摸黑找碎片”,而是有了“上帝视角”,能顺着逻辑链路跳跃。
这里我给大家总结梳理一下目前业内主流的几种 Memory 架构流派:
(参考来源:MarkTechPost关于 Agent 记忆系统的最新对比分析)
在此背景下,图检索增强生成(GraphRAG)技术应运而生。相较于仅仅检索文档片段(段落图 Passage Graph),GraphRAG在系统执行初期便强制大语言模型提取文本中的核心实体(Nodes)、明确的关系映射(Edges),并通过层次化聚类构建包含各类概念的社区(Communities) 。
在图的本体论约束下,智能体不再是在高维向量暗室中摸黑寻找相似片段,而是沿着清晰定义的逻辑边缘进行跳跃式遍历(Path traversal) 。当回答长周期科研类任务中的高阶综合性问题时,图结构使模型能以“上帝视角”跨越百万字文档总结全貌,这是传统相似性匹配所完全不具备的维度属性 。
认知范式的重构:“系统2”思维与分布式推理网络
在通过结构化记忆解决“去哪里寻找真相”之后,工业界对于长周期任务的终极挑战在于如何解决模型生成端逻辑的脆弱性。2025至2026年,通过将模型底层的强化学习改造与应用层的动态上下文编排相结合,整个领域的认知范式被彻底重构。
除了通过 system2 和 chain of agents 等方式增强模型推理能力或分割思考负担,最核心的转变在于 “上下文工程”(Context Engineering)的范式转移 。简单地将海量文档塞入模型不仅会导致“上下文腐烂”加剧,还伴随着难以忍受的生成延迟与极其昂贵的推理成本。这是一种针对有限上下文资源进行多轮动态编排与修剪的系统科学。
到了2026年,各种先进的 DeepResearch架构已经实现了高度复杂的“动态上下文管理(Dynamic Context Management)”。(这里就不重复说 Claude Code了)这类系统不再被动保存完整的探索流与冗长的网页抓取日志,而是通过独立的监督模块(Supervisor Module)主动进行异常检测与上下文修剪(Context Pruning),将已经完成的子目标实时压缩为高密度的语义摘要,从而在不增加大模型推理负担的前提下,始终维持系统在超长探索周期内的认知纯净度与逻辑连贯性。
如果说长周期任务是在啃理性的“硬骨头”,那私人助理(Personal AI)场景面对的就是感性、琐碎的“日常流水账”。多源异构、高度碎片化,而且充满了用户的隐性情感与偏好变迁。
拿老架构做 Personal AI,通常会暴露出两个灾难性的痛点:
真实的日常对话极度依赖上下文。比如你问 Agent:“咱们去日本旅行时给老妈买的礼物放哪了?”
这句话里既没有商品名,也没有精确时间。传统的纯文本 Embedding 检索遇到这种缺乏实体关键词的 Query,根本跨越不了零散的时间线做因果推断,直接当场去世。
为了破局,个人知识图谱 (Personal Knowledge Graph, PKG) 重返巅峰。LLM 在这里承担了双重角色:一边在后台静默运行,从你日常的废话里敏锐抽取出关系网络(如 [用户] - {去过} - [日本(2023-04)] - {购买} - [珍珠项链]),自动建图;另一边在前端作为推理引擎,顺着图谱发起多跳查询,提供不可辩驳的事实基准。
人是善变的。用户昨天还喊着非冰美式不喝,今天可能就说要养生改喝茶了。如果系统只会机械地切片历史记录,把旧经验抽出来当目前的决策依据,就会导致“经验错位回放”,显得这个 AI 极其固执且缺乏情商。
怎么对付人类善变的偏好?以前大家想靠 RLHF(人类反馈强化学习)重新“炼丹”,或者在 System Prompt 里塞一堆补丁。但给成千上万的用户分别训练特定模型根本是算力梦魇,Prompt 塞多了又迅速榨干窗口,而且普通人往往“词不达意”。
Drift 算法的问世掀桌子了。它提供了一个极其优雅的 “免训练 (Training-free)” 解法:它直接把偏好对齐下放到了毫秒级的 Decoding(解码期)阶段!先用差分提示,根据你最近的几十条互动,把你的偏好解构成几个独立维度的线性组合算出权重。然后在模型吐出每一个 Token 的瞬间,实时干预冻结状态下 LLM 内部的 Logits 生成概率。
这种底层干预,相当于给大模型带上了一个“即插即用的实时个性化滤镜”,说出的每一句话都完美贴合你刚刚演进出的最新口味。
需要指出的是,工业界没有免费的午餐。Drift 这种 Logits 干预强依赖模型的白盒访问权限,且极其考验线上推理引擎对算子的优化能力。因此它的最佳落地场景是运行在端侧的本地专属模型(如 7B 级别)。而对于依赖闭源 API 或追求极致高并发的云端 Agent,我们往往还需要退一步,采用外挂式的 Prompt 动态路由或轻量级重排(Reranker)作为工程妥协。
到了现在,大厂企业级 AI Agent 的架构准则已经全面转向了 混合记忆系统(Hybrid Memory Systems)。底层往往是三线并行流水线:
当历史车轮滚入 2026 年,基于纯文本对话堆砌的记忆模型已经彻底摸到了天花板。人类的高级智能本质上是对海量多模态生命体验(看的屏幕轨迹、听的环境底噪、复杂的邮件往来)的持续积累与深度抽象。Agent 的前沿探索正式纵深推进到了 多模态终身学习(Lifelong Learning) 时代。
这里不得不提目前代表技术巅峰的框架——MemVerse。它致力于解决一个终极命题:Agent 在永不关机的岁月里,到底该记住什么、遗忘什么?
MemVerse 搞出了一个极具颠覆性的工程创新:定期蒸馏(Periodic Distillation) 机制。
即使图谱建得再好,外部检索数据无限膨胀后也会导致延迟卡死。于是 MemVerse 建立了一条神仙回路:在 Agent 负载较低的“休眠期”,自动抽取外部多模态图谱中的 QA 对,启动 SFT(监督微调),强迫轻量级模型将复杂的外部事实,彻底“内化”压缩进其神经网络隐层中的参数化权重里(即最小化 Token 级交叉熵损失)。
这就好比把深思熟虑的知识,渐渐变成了刻在基因里的 “肌肉记忆”(实现了极速的参数化直觉调用),同时依然保留了慢速的层次化图谱检索(深度思索)。这种精妙的双系统制衡,是目前多模态记忆底座的绝对标杆。
当然,一个必须要考虑的问题是:终身学习的灾难性遗忘怎么防?前沿的实战方案绝对不是直接去污染底座的全局权重,而是必须结合**连续学习(Continual Learning)**机制,如维护经验回放缓冲区(Replay Buffer),或者采用 EWC(弹性权重巩固)算法,以此在旧知识与新体验之间实现权重制衡。
另外,大家可能会疑惑,前面刚说微调是算力梦魇,怎么到了 MemVerse 又用上 SFT 了?其实这是工程上的 Online/Offline 异步解耦。Drift 解决的是要求极低延迟的‘在线实时推理’;而 MemVerse 的 SFT 是在 Agent 处于低负载时的‘夜间休眠期’异步跑批。并且实战落地时,并非去微调云端的千亿大模型底座,而是针对每个用户动态更新极小参数的 专属 LoRA 适配器(Memory-LoRA),或在端侧轻量级模型(SLM)上微调。白天靠快速干预,晚上靠低成本微调做梦巩固,这才是架构艺术。
更有甚者,在极其庞杂的架构下,依赖纯人工试错调优已经逼近了天花板。在突破性项目 Omni-SimpleMem 中,AI 已经开始自己写 Memory 架构了! 研究人员直接部署了高度自治的自主研究管道(Autonomous Research Pipeline),让 LLM 自己去诊断召回故障,自己修改图谱拓扑代码,自己修复数据清洗 Bug。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-16
当只看脸的 RAG 学会了顺藤摸瓜……
2026-06-16
彻底抛弃RAG,让LLM像人一样翻文件找答案
2026-06-15
RAG运维如何用好Loop Engineering?Milvus 3.0 对它有什么价值?
2026-06-15
一个"知识库质检工具"
2026-06-12
不要只是搭建:RAG 不是上传文档然后问答那么简单
2026-06-12
3.1万Star!PageIndex:不用向量数据库,RAG准确率做到98.7%
2026-06-11
AI落地实战:企业RAG全链路实施方案
2026-06-11
你的 RAG 在 10 个文档上跑得好好的,放到 1000 万就崩了
2026-03-23
2026-04-06
2026-03-20
2026-04-27
2026-04-02
2026-03-21
2026-03-31
2026-04-23
2026-04-20
2026-04-09
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
2026-05-11
2026-05-07
2026-05-06