2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

推理模型专题 | Search-o1技术解读-智能RAG助力O1推理模型突破知识盲区

发布日期:2025-01-20 12:43:31 浏览次数: 2654
作者:小窗幽记机器学习

微信搜一搜,关注“小窗幽记机器学习”

推荐语

**贤言碎语**:这是关于大型推理模型知识补充的创新研究,没有之一。核心内容:1. 大型推理模型面临的知识不足问题 2. Search-o1框架的创新组件 3. 该框架的出色性能

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

0. 引言

清风明月本无价,近水远山皆有情。小伙伴们好,我是扔炮仗的小男孩。今天这篇小作文主要解读人大和清华联合提出的Search-o1框架。大型推理模型(LRMs,即O1类模型)凭借强大的逐步推理能力在复杂问题解决中展现出巨大潜力,但其受限于静态知识储备的局限性。Search-o1通过创新的agentic RAG机制和文档推理模块,使模型能够在推理过程中动态获取并整合外部知识。

附此前O1类推理模型系列:

OpenAI o1三部曲:上篇-概述

OpenAI o1三部曲:中篇-原理

OpenAI o1三部曲:下篇-乞丐版o1-mini

推理模型专题 | 开源类O1:Marco-o1技术全面解读

1. 简介

Search-o1旨在解决大型推理模型(LRMs)在推理过程中常遇到的知识不足问题。该框架通过集成agentic检索增强生成(RAG)机制和文档推理模块,使模型能够在需要时动态检索外部知识,并将其无缝整合到推理过程中。实验表明,Search-o1在科学、数学和编码等复杂推理任务以及开放域问答基准上都取得了显著的性能提升。

Q1: 这篇文章想要解决什么问题?

A1: 论文主要解决大型推理模型(LRMs)在进行复杂推理时面临的知识不足问题。具体来说,虽然LRMs具有出色的长序列逐步推理能力,但由于知识储备有限,在推理过程中经常出现不确定性,导致错误传播和推理中断。

Q2: 这篇文章如何解决这些问题?

A2: 论文提出了Search-o1框架,包含两个核心创新组件:

  • Agentic RAG机制:允许模型在推理过程中自主决定何时需要检索外部知识
  • 文档推理模块:对检索到的冗长文档进行精炼,提取关键信息并无缝整合到推理链中 这种设计使模型能够在保持推理连贯性的同时,动态补充所需知识。

Q3: 文章所提出方法的效果如何?

A3: Search-o1展现出优异的性能:

  • 在复杂推理任务上平均超越RAgent-QwQ-32B和QwQ-32B分别达4.7%和3.1%
  • 在GPQA扩展集上,整体性能(57.9)以及物理(68.7)和生物(69.5)领域均超过人类专家
  • 在多跳QA任务中,平均EM指标上分别超越RAG-QwQ-32B和RAgent-QwQ-32B达29.6%和5.3%

Q4: 文章所提方法还有哪些不足?

A4: 基于论文内容,主要存在以下局限性:

  • 在化学领域的表现(40.7)显著低于化学专家(72.6),说明在特定专业领域的知识整合还有提升空间
  • 对于简单的单跳QA任务,与标准RAG相比没有明显优势
  • 检索和推理过程的计算开销较大,可能影响系统的实时性能

更多大模型相关可以关注本微信公众号:

项目地址: https://search-o1.github.io/

论文地址: https://arxiv.org/abs/2501.05366

Github地址: https://github.com/sunnynexus/Search-o1

2. 方法

Search-o1 框架通过无缝整合外部知识检索到大型推理模型(LRMs)的推理过程中,同时保持思路连贯性,以解决知识不足的问题。如图2 所示,展示了三种方法的比较分析:基础推理、基于Agent的检索增强生成(RAG)和Search-o1 框架。

图2:推理方法的比较:(a)没有检索的直接推理通常因缺失知识而导致不准确。(b)agentic检索增强推理方法改善了知识访问,但通常返回冗长的冗余文档,干扰了连贯的推理。(c)Search-o1将简洁和准确的检索知识无缝整合到推理过程中,实现精确和连贯的问题解决。

  • 基础推理模式:考虑图2(a)中的例子, 该任务涉及确定三步化学反应最终产品中的碳原子数。当遇到知识空白(例如,“反式肉桂醛的结构”)时,基础推理方法会出现问题。在没有准确的信息的情况下,模型必须依赖假设,这可能导致后续推理步骤中的错误层层叠加。

  • 基于Agent的 RAG:为弥补推理过程中的知识空白,构建了基于Agent的 RAG 机制,图2(b)所示,使模型在需要时能够自主检索外部知识。当出现不确定性时——例如关于化合物结构的问题——模型会生成针对性的搜索查询(例如,“反式肉桂醛的结构”)。然而,直接插入检索到的文档,往往包含冗长和无关的信息,可能会扰乱推理流程并影响连贯性。

  • Search-o1:Search-o1 框架,如图2c所示。在基于Agent的RAG机制的基础上,加入了文档推理模块。该模块将检索到的文档浓缩为聚焦的推理步骤,整合外部知识,同时保持推理链的逻辑流。它考虑当前的搜索查询、检索到的文档和现有的推理链,以生成连贯的步骤。这个迭代过程将持续,直到得出最终答案。

Search-o1框架的核心包含三个关键组件:

1、基于Agent的RAG机制:

  • 允许模型在推理过程中自主生成搜索查询
  • 使用特殊符号<|begin_search_query|><|end_search_query|>标记搜索查询
  • 检索到的文档通过<|begin_search_result|><|end_search_result|>注入推理链

2、文档推理模块:

  • 对检索到的文档进行两阶段处理: a) 首先生成中间推理序列分析文档内容 b) 然后基于分析生成精炼知识
  • 确保生成的知识与当前推理步骤相关且简洁

3、整体推理流程:

  • 单一问题处理:

    • 初始化推理序列
    • 动态检测和处理搜索查询
    • 通过文档推理模块精炼知识
    • 将精炼知识整合回推理链
  • 批量处理机制:

    • 并行处理多个推理序列
    • 批量处理搜索查询和文档检索
    • 优化token生成和知识精炼效率

3. 实验结果

论文在两类任务上进行了广泛评估:

1、复杂推理任务:

  • GPQA:博士级科学问答
  • 数学基准:MATH500、AMC2023、AIME2024
  • LiveCodeBench:编程能力评估

主要发现:

  • Search-o1在大多数任务上显著优于基线方法
  • 即使只检索一份文档,性能也优于使用十份文档的标准RAG
  • 在GPQA扩展集上达到或超过人类专家水平

2、开放域QA任务:

  • 单跳任务:Natural Questions、TriviaQA
  • 多跳任务:HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle

关键结果:

  • 在多跳任务上表现突出,显著优于基线方法
  • 在单跳简单任务上与标准RAG效果相近
  • 证实了框架在复杂推理场景中的优势

4. 总结

这篇论文提出的Search-o1框架通过创新的设计实现了LRMs与外部知识的有效整合,显著提升了模型在复杂推理任务中的表现。特别是在处理需要多步推理的任务时,展现出明显优势。

未来可能的改进方向:

  1. 知识整合的精确性:提升在特定专业领域的知识理解和整合能力
  2. 计算效率:优化检索和推理过程的计算开销
  3. 领域适应性:探索如何更好地处理不同领域的特定知识需求
  4. 推理可解释性:加强对模型推理过程的可解释性和可控性
  5. 实时性能:研究如何在保持性能的同时提升系统响应速度

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅