微信扫码
添加专属顾问
牛津大学最新研究,探索智能体Agent如何利用知识图谱进行深度推理,提升复杂问题解决能力。 核心内容: 1. 代理性推理框架的创新点与工作原理 2. 知识图谱代理在推理中的作用及其效果 3. 与现有模型比较,Agentic Reasoning的性能优势
在这篇技术报告中,我们介绍了一种名为代理性推理的框架,该框架通过整合外部工具使用代理来增强大型语言模型(LLM)的推理能力。与仅依赖内部推理的传统基于LLM的推理方法不同,代理性推理动态地结合网络搜索、代码执行和结构化推理-上下文记忆来解决需要深度研究和多步逻辑演绎的复杂问题。我们的框架引入了思维导图代理,它构建了一个结构化的知识图谱来跟踪逻辑关系,从而提高演绎推理能力。此外,网络搜索和编码代理的整合实现了实时检索和计算分析,增强了推理的准确性和决策能力。
在博士级别的科学推理(GPQA)和特定领域深度研究任务上的评估表明,我们的方法显著优于现有模型,包括领先的检索增强生成(RAG)系统和闭源LLM。此外,我们的结果表明代理性推理提高了专家级知识合成、测试时可扩展性和结构化问题解决能力。代码可在以下网址获取:https://github.com/theworldofagents/Agentic-Reasoning。
https://arxiv.org/abs/2502.04644
研究问题:这篇文章要解决的问题是如何增强大型语言模型(LLM)的推理能力,使其能够处理复杂的研究问题和多步逻辑推理。
研究难点:该问题的研究难点包括:现有方法在结构化领域表现出色,但在非结构化或主观任务中表现不佳;传统方法缺乏详细的推理过程解释;如何在不确定性任务中进行有效的推理和知识综合。
相关工作:该问题的研究相关工作包括OpenAI的o1、Qwen-QwQ和DeepSeek-R1等模型,这些模型在大规模强化学习中展示了显著的逐步推理能力,但在推理过程的透明度和多步骤推理方面存在不足。
这篇论文提出了Agentic Reasoning框架,用于解决LLM推理能力不足的问题。具体来说,
整体框架:Agentic Reasoning通过集成外部工具使用代理来增强LLM的推理能力。该框架动态地结合网络搜索、代码执行和结构化推理上下文记忆,以解决需要深度研究和多步逻辑推理的复杂问题。
Mind Map智能体:构建一个结构化知识图谱来跟踪逻辑关系,提高演绎推理能力。Mind Map代理将原始推理链转换为结构化知识图谱,并使用社区聚类和LLM生成简洁的主题摘要。
网络搜索代理:从互联网检索相关信息以补充模型的知识和生成简洁重述的摘要。搜索代理提取与当前推理上下文最相关的网页内容,并使用LLM生成摘要。
编码代理:将编码任务委托给专门的编码LLM,生成代码并执行,返回结果。编码代理格式化编码请求,确保与主推理模型的无缝集成。
数据集:在GPQA数据集上进行评估,该数据集包含物理学、化学和生物学领域的博士级科学问答题。实验使用了高质量的Diamond Set(198个问题)和更广泛的Extended Set(546个问题)。
实验设置:比较了不同方法在GPQA数据集上的性能,包括直接推理模型、检索增强推理模型和Agentic Reasoning模型。还进行了深度研究任务的评估,邀请了金融、医学和法律领域的博士专家制定专业研究问题。
参数配置:在实验中,使用了不同的LLM模型和工具代理进行比较,具体配置包括Qwen2.5-32B、QwQ-32B、Llama3.3-70B等模型。
GPQA数据集上的性能:Agentic Reasoning在物理学、化学和生物学领域的准确率分别达到了88.1%、58.3%和79.6%,显著优于现有的检索增强生成模型和闭源LLM。
人类专家比较:在GPQA扩展集上,Agentic Reasoning在所有学科上的表现均超过了人类专家,物理学为75.2%,化学为53.1%,生物学为72.8%。
深度研究任务:Agentic Reasoning在金融、医学和法律领域的深度研究任务中表现优异,准确率高于Gemini Deep Research Service。
测试时扩展性:增加工具调用次数可以提高同一问题的性能,但过多的工具调用可能表明问题本身具有挑战性或模糊性。
Mind Map的作用:Mind Map在澄清复杂逻辑关系和增强演绎推理方面特别有效,能够帮助模型解决传统LLM经常出错的问题。
这篇论文提出了Agentic Reasoning框架,通过集成外部工具代理(如Mind Map、网络搜索和编码代理)来增强LLM的推理能力。实验结果表明,Agentic Reasoning在复杂问题的解决和深度研究领域表现出色,显著优于现有模型。该框架提高了逻辑连贯性、事实准确性和深度研究能力,为AI系统在专家级问题解决方面的应用奠定了基础。未来工作将探索该框架在多模态数据和实时适应性方面的扩展,进一步提升AI应对复杂现实挑战的能力。
引入了外部工具使用代理:Agentic Reasoning通过集成外部工具使用代理(如网络搜索和代码执行),增强了大型语言模型(LLM)的推理能力。
结构化知识图谱:Mind Map代理构建了结构化知识图谱,用于跟踪逻辑关系,提高了演绎推理的能力。
实时检索和计算分析:网络搜索和代码代理的集成使得能够实时检索和计算分析,增强了推理的准确性和决策能力。
多步骤推理:框架允许LLMs规划和执行多步骤策略,自主识别和检索必要数据,动态适应实时信息,进行定量分析以生成精确结果。
广泛的评估:在博士级别的科学推理(GPQA)和领域特定的深度研究任务上进行了评估,结果表明该方法显著优于现有的模型,包括领先的检索增强生成(RAG)系统和闭源LLMs。
提高专家级知识合成:结果表明,agentic reasoning提高了专家级知识合成、测试时可扩展性和结构化问题解决能力。
工具选择的挑战:研究发现,过多的工具选择可能会降低性能,增加选择不适当工具的风险。此外,外部工具输出的不准确性也会对整体响应质量产生负面影响。
非文本模态处理:虽然对于基于语言的推理,额外的工具并不显著有益,但对于处理非文本模态(如财务数据、医学图像和遗传数据)的工具至关重要。开发针对不同数据模态的专门工具可以进一步增强LLM推理能力。
测试时推理的可扩展性:尽管研究发现使用更多工具调用的推理链往往能产生更好的结果,但在不同问题之间,那些需要过度工具使用的问题通常表明初始推理存在固有的模糊性或不准确性。这需要进一步研究如何在推理过程中优化工具使用。
问题1:Agentic Reasoning框架中的Mind Map智能体具体是如何工作的?它有哪些主要功能?
Mind Map代理在Agentic Reasoning框架中负责构建和管理推理模型的实时推理上下文。具体来说,Mind Map代理的工作包括以下几个方面:
结构化知识图谱构建:Mind Map代理将原始的推理链转换为一个结构化的知识图谱。它使用图构建LLM从推理链中提取实体,并识别相关实体之间的语义关系。
主题摘要生成:通过对知识图谱应用社区聚类算法,Mind Map代理将推理上下文聚类成不同的组,并使用LLM为每个组生成简洁的主题摘要。
知识图查询:Mind Map代理允许通过特定问题查询知识图谱,例如“Who was Jason’s mother’s great-grandfather?”。它使用标准的检索增强生成(RAG)技术在知识图上检索相关信息,并返回结果。
上下文支持:Mind Map代理为外部工具提供上下文推理支持,使它们能够生成更加上下文感知的响应。此外,当推理模型对其主张不确定或在推理过程中失去线索时,它可以查询Mind Map以获取相关信息,并继续基于检索到的答案进行推理。
这些功能使得Mind Map代理在澄清复杂逻辑关系和增强演绎推理方面特别有效,能够帮助模型解决传统LLM经常出错的问题。
问题2:在GPQA数据集上,Agentic Reasoning模型的表现如何?与其他模型相比有哪些优势?
在GPQA数据集上,Agentic Reasoning模型的表现显著优于现有的检索增强生成模型和闭源LLM。具体表现如下:
准确率:Agentic Reasoning在物理学、化学和生物学领域的准确率分别达到了88.1%、58.3%和79.6%。相比之下,其他模型如Qwen2.5-32B、QwQ-32B和RAG-QwQ-32B的准确率分别为57.0%、39.8%和73.7%。
人类专家比较:在GPQA扩展集上,Agentic Reasoning在所有学科上的表现均超过了人类专家。物理学为75.2%,化学为53.1%,生物学为72.8%。这表明Agentic Reasoning在处理专家级科学推理任务方面具有显著优势。
案例研究:Agentic Reasoning模型在处理复杂医学决策问题上表现出色。例如,模型能够自动执行代码以计算患者的最佳FiO2,进行网络搜索以检索最准确的PEEP值,并将结果综合以确定最佳治疗方案。
这些优势表明,Agentic Reasoning通过集成外部工具代理,显著提高了推理的准确性和效率,特别是在处理复杂、专家级问题时表现突出。
问题3:Agentic Reasoning框架在深度研究任务中的表现如何?与现有的深度研究系统相比有哪些改进?
Agentic Reasoning框架在深度研究任务中表现优异,具体表现如下:
准确率:在金融、医学和法律领域的深度研究任务中,Agentic Reasoning的准确率高于Gemini Deep Research Service。这表明Agentic Reasoning在生成高质量的研究报告方面具有显著优势。
任务完成度:Agentic Reasoning能够自动化多个小时的手动调查工作,显著提高了知识密集型领域的生产力。这与现有的深度研究系统相比,能够更高效地处理复杂的研究任务。
结构化推理:Agentic Reasoning通过Mind Map代理构建结构化知识图,增强了推理的逻辑性和连贯性。这使得模型在处理复杂逻辑关系和抽象概念时表现更好。
测试时扩展性:Agentic Reasoning框架能够通过增加工具调用次数来提高同一问题的性能,显示出其在处理复杂问题时的灵活性和扩展性。
这些改进表明,Agentic Reasoning不仅在生成高质量的研究报告方面表现出色,还能通过结构化推理和工具增强,更有效地处理复杂的研究任务。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
企业级知识图谱的实体架构治理实践
2026-07-02
一文讲清:“统一语义”、“构建本体”、“AI推理”这三者的关系
2026-07-02
graphify + claude 图谱关系
2026-07-01
把运维能力装进 Qoder,一句话就能定位根因
2026-07-01
Gbrain、GraphRAG、LLM Wiki、Graphify:4 种知识图谱方案怎么选
2026-07-01
一文讲清:本体(Ontology)与语义(Semantics)到底是什么关系?
2026-06-30
从 OOP 到本体:用形式语义支撑 AI 协作方法论
2026-06-29
从“领域描述”到“本体”——AI时代的系统设计模式探讨
2026-04-07
2026-04-19
2026-04-23
2026-04-22
2026-06-03
2026-04-23
2026-05-26
2026-05-07
2026-05-28
2026-05-23
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。