推理模型专题 | Search-o1技术解读-智能RAG助力O1推理模型突破知识盲区

发布日期：2025-01-20 12:43:31 浏览次数： 2655

作者：小窗幽记机器学习

微信搜一搜，关注“小窗幽记机器学习”

0. 引言

清风明月本无价，近水远山皆有情。小伙伴们好，我是扔炮仗的小男孩。今天这篇小作文主要解读人大和清华联合提出的Search-o1框架。大型推理模型(LRMs，即O1类模型)凭借强大的逐步推理能力在复杂问题解决中展现出巨大潜力，但其受限于静态知识储备的局限性。Search-o1通过创新的agentic RAG机制和文档推理模块，使模型能够在推理过程中动态获取并整合外部知识。

附此前O1类推理模型系列：

OpenAI o1三部曲：上篇-概述、

OpenAI o1三部曲：中篇-原理、

OpenAI o1三部曲：下篇-乞丐版o1-mini

推理模型专题 | 开源类O1：Marco-o1技术全面解读

1. 简介

Search-o1旨在解决大型推理模型(LRMs)在推理过程中常遇到的知识不足问题。该框架通过集成agentic检索增强生成(RAG)机制和文档推理模块，使模型能够在需要时动态检索外部知识，并将其无缝整合到推理过程中。实验表明，Search-o1在科学、数学和编码等复杂推理任务以及开放域问答基准上都取得了显著的性能提升。

Q1: 这篇文章想要解决什么问题？

A1: 论文主要解决大型推理模型(LRMs)在进行复杂推理时面临的知识不足问题。具体来说，虽然LRMs具有出色的长序列逐步推理能力，但由于知识储备有限，在推理过程中经常出现不确定性，导致错误传播和推理中断。

Q2: 这篇文章如何解决这些问题？

A2: 论文提出了Search-o1框架，包含两个核心创新组件：

Agentic RAG机制：允许模型在推理过程中自主决定何时需要检索外部知识
文档推理模块：对检索到的冗长文档进行精炼，提取关键信息并无缝整合到推理链中这种设计使模型能够在保持推理连贯性的同时，动态补充所需知识。

Q3: 文章所提出方法的效果如何？

A3: Search-o1展现出优异的性能：

在复杂推理任务上平均超越RAgent-QwQ-32B和QwQ-32B分别达4.7%和3.1%
在GPQA扩展集上，整体性能(57.9)以及物理(68.7)和生物(69.5)领域均超过人类专家
在多跳QA任务中，平均EM指标上分别超越RAG-QwQ-32B和RAgent-QwQ-32B达29.6%和5.3%

Q4: 文章所提方法还有哪些不足？

A4: 基于论文内容，主要存在以下局限性：

在化学领域的表现(40.7)显著低于化学专家(72.6)，说明在特定专业领域的知识整合还有提升空间
对于简单的单跳QA任务，与标准RAG相比没有明显优势
检索和推理过程的计算开销较大，可能影响系统的实时性能

更多大模型相关可以关注本微信公众号：

项目地址： https://search-o1.github.io/

论文地址： https://arxiv.org/abs/2501.05366

Github地址： https://github.com/sunnynexus/Search-o1

2. 方法

Search-o1 框架通过无缝整合外部知识检索到大型推理模型（LRMs）的推理过程中，同时保持思路连贯性，以解决知识不足的问题。如图2 所示，展示了三种方法的比较分析：基础推理、基于Agent的检索增强生成（RAG）和Search-o1 框架。

图2：推理方法的比较：（a）没有检索的直接推理通常因缺失知识而导致不准确。（b）agentic检索增强推理方法改善了知识访问，但通常返回冗长的冗余文档，干扰了连贯的推理。（c）Search-o1将简洁和准确的检索知识无缝整合到推理过程中，实现精确和连贯的问题解决。

基础推理模式：考虑图2(a)中的例子，该任务涉及确定三步化学反应最终产品中的碳原子数。当遇到知识空白（例如，“反式肉桂醛的结构”）时，基础推理方法会出现问题。在没有准确的信息的情况下，模型必须依赖假设，这可能导致后续推理步骤中的错误层层叠加。
基于Agent的 RAG：为弥补推理过程中的知识空白，构建了基于Agent的 RAG 机制，图2(b)所示，使模型在需要时能够自主检索外部知识。当出现不确定性时——例如关于化合物结构的问题——模型会生成针对性的搜索查询（例如，“反式肉桂醛的结构”）。然而，直接插入检索到的文档，往往包含冗长和无关的信息，可能会扰乱推理流程并影响连贯性。
Search-o1：Search-o1 框架，如图2c所示。在基于Agent的RAG机制的基础上，加入了文档推理模块。该模块将检索到的文档浓缩为聚焦的推理步骤，整合外部知识，同时保持推理链的逻辑流。它考虑当前的搜索查询、检索到的文档和现有的推理链，以生成连贯的步骤。这个迭代过程将持续，直到得出最终答案。

Search-o1框架的核心包含三个关键组件：

1、基于Agent的RAG机制：