我要投稿

RAG又被绕开了，MIT用MEMO给AI外挂记忆脑

发布日期：2026-06-29 15:30:16 浏览次数： 1519

作者：PaperAGI

微信搜一搜，关注“PaperAGI”

过去给大模型补知识，最常见的方法是 RAG：先检索文档，再把片段塞进上下文，让模型现场读材料、现场回答。但问题也很明显：答案一旦分散在多篇文档里，检索器可能漏掉关键证据；如果塞进太多无关材料，模型又容易被噪声带偏。

MEMO 的核心想法很直接：AI 的记忆不一定只能是向量库，也可以是一个专门训练出来的模型。

它把系统拆成两个角色：主模型叫 EXECUTIVE model，负责推理和最终回答，参数保持冻结；另一个是 MEMORY model，专门存新知识。推理时，主模型不是去检索原文，而是像人一样向记忆模型连续提问，再把问到的信息综合成答案。

它和 RAG、微调有什么不同

RAG 的优势是不改主模型，但依赖检索质量，也受上下文窗口限制。继续预训练或微调可以把知识写进参数里，但成本高、可能遗忘旧能力，而且闭源模型基本没法这么做。latent memory 则常和特定模型结构绑定，换个模型不一定能用。

MEMO 走的是中间路线：不动主模型，把知识写进一个独立的记忆模型里。 这样它既能像 RAG 一样兼容黑盒大模型，又能像微调一样把知识内化到参数中。

记忆模型怎么训练

MEMO 不是直接拿原始文档训练 MEMORY model，而是先让一个 GENERATOR model 把语料加工成 reflection QA 数据。这个流程有五步。

第一，事实抽取。把文档切成 chunk，同时抽取明说的事实和需要推断的间接信息。

第二，信息合并。把共享同一实体、时间或关系的 QA 合成更复杂的问题，让模型学习组合多个事实。

第三，验证和改写。检查问题是否离开原文也能看懂，比如把“他们提出了什么”改成明确指代；仍然含糊的样本直接丢弃。

第四，实体显式化。围绕实体生成反向问题：问题给出属性和关系，答案揭示实体是谁。这有助于模型从间接描述中定位对象。

第五，跨文档综合。在文档组之间生成跨文档 QA，让 MEMORY model 学到的不只是单篇文档内容，而是多篇文档之间的关系。

最后，MEMORY model 用这些 reflection QA 做监督微调。注意，被训练的是“记忆模型”，不是主模型。

推理时怎么问记忆模型

MEMO 的推理也不是问一次就结束，而是三阶段多轮协议。

Stage 1：Grounding。 主模型先把复杂问题拆成多个原子子问题，分别问 MEMORY model，拿到一组背景线索。

Stage 2：Entity Identification。 主模型基于这些线索继续追问，逐步缩小候选实体，直到锁定目标实体，或用完预算。

Stage 3：Answer Seeking and Synthesis。 锁定实体后，主模型再围绕它追问更多支持事实，最后综合原问题、线索、实体和证据生成答案。

关键点在于：MEMORY model 返回的是短文本，不是整批原文档；模型大小固定，所以论文认为它的查询成本不随语料库规模线性增长。

实验结果说明什么

论文在 BrowseComp-Plus、NarrativeQA 和 MuSiQue 上测试 MEMO。结果显示，它在需要长文档理解和多跳推理的任务上优势明显。

NarrativeQA 上，MEMO 使用 Qwen2.5-32B-Instruct 做主模型时达到 26.85% ，使用 Gemini-3-Flash 时达到 53.58% ，超过 BM25、NV-Embed-V2、HippoRAG2、Cartridges 等基线。MuSiQue 上也达到 48.30% 和 60.20% 。BrowseComp-Plus 中，MEMO 在 Gemini-3-Flash 下达到 66.67% ，但在 Qwen2.5-32B 下略低于 HippoRAG2，说明它并不是所有场景都替代 RAG。