微信扫码
添加专属顾问
文章链接:[2408.09199] TC-RAG:Turing-Complete RAG's Case study on Medical LLM Systems (arxiv.org)本文作者单位:北京大学计算机学院,高可信软件技术教育部重点实验室 高可信软件技术教育部重点实验室(北京大学) (pku.edu.cn)。
在提升领域特定的大语言模型(LLMs)的方法中,检索增强生成(RAG)技术作为一种有前景的解决方案,可以缓解诸如幻觉、知识过时以及在高度专业化查询中专业知识有限等问题。然而,现有的RAG方法忽视了系统状态变量的引入,而系统状态变量对于确保自适应控制、检索停止和系统收敛至关重要。本文通过严格的理论证明,提出了图灵完备的RAG(TC-RAG)框架,通过引入图灵完备的系统来管理状态变量,从而实现更高效、准确的知识检索。通过利用具有自适应检索、推理和计划能力的内存堆栈系统,TC-RAG不仅确保了检索过程的受控停止,还通过Push和Pop操作减轻了错误知识的积累。在医疗领域的案例研究中,我们在真实世界的医疗数据集上进行了广泛的实验,结果表明,TC-RAG在准确性上比现有方法提高了7.20%以上。
在真实医学场景中,是否检索/怎样检索/如何规划检索/如何处理检索过程中的瑕疵 是非常重要的四个难点:
图2. 真实场景中医生去检索的例子
图3. 医生规划检索的例子
图4. 医生处理检索过程的瑕疵的例子
因此,现目前的研究大多都采用RAG+LLM的方法,但很少有工作解决以上问题。
大语言模型(LLMs),如ChatGPT(OpenAI 2022)和GPT-4(OpenAI 2023),在许多关键领域取得了显著进展,并在各种下游任务中表现出了卓越的性能。在医疗领域,这些医疗LLMs展示了巨大的潜力,尤其是在健康护理领域,责任感和可信度至关重要。通过全面的医学知识预训练,这些模型不仅可以支持医生进行精确的诊断和制定治疗计划,还可以改善医疗资源的分配。然而,尽管医疗LLMs取得了重大进展,仍然存在一些关键挑战,包括难以避免的事实错误(如幻觉)、知识的过时,以及缺乏高度专业化的知识。为了解决这些问题,检索增强生成(RAG)技术被提出,该技术利用外部知识库提供的医疗知识作为上下文信息来增强内容生成,这被认为是解决上述问题的一个有前景且必要的解决方案。
然而,尽管现有通过RAG增强LLMs的方法显示出一定的前景,但它们始终忽略了系统状态变量的引入,而这些变量对于确保自适应控制、检索停止和系统收敛至关重要。此外,这些现有的RAG方法并非图灵完备,缺乏动态管理和监控检索过程的能力,无法保证在复杂的医疗场景中得出可靠的结论。在这些复杂的医疗场景中,决策通常需要复杂的多步骤推理和自适应响应,图灵完备性的缺失显著限制了系统的有效性和可靠性。这一差距促使我们提出一种新的方法:构建一个图灵完备的系统来有效管理状态变量,利用有限的逻辑框架来增强RAG过程。然而,如何有效地构建一个图灵完备的RAG系统仍然未被充分探索,并且面临着重大的挑战:
挑战1: 设计具有监控状态变量的图灵完备RAG系统:设计一个图灵完备的RAG系统需要整合能够动态跟踪和控制检索过程的监控状态变量,这是现有RAG方法所缺乏的。当前的方法并没有明确的机制来评估系统是否已经收敛到一个可靠的结论,这是一个重要的缺口。一个显著的挑战在于如何利用大模型的前向传播过程,实时准确地计算这些状态变量,并确保这些变量能够有效反映系统的演变上下文,从而指导是否继续、停止或改进检索过程的关键决策。如何在模型的前向传递过程中管理这些变量,同时保持对复杂多变的医疗查询的适应性,是实现效率和准确性的关键。
挑战2:动态规划检索以维持最佳状态:一旦能够评估状态,如何动态管理状态以达到预期的状态是一个重要的问题。在现实生活中的咨询中,医生通常会根据他们对问题的掌握程度决定是否进行检索以及检索什么,而不是盲目地进行检索,这可能导致模型已经具备的冗余信息,从而可能导致混淆甚至误导LLMs。如何系统地分析和计划进一步的步骤,并有效利用LLMs内部参数化知识来维持最佳状态,是一个重要的挑战。
挑战3: 避免无关噪声影响系统状态:由于传统RAG的检索过程通常是由查询关键词驱动的,而不是根据模型的具体需求,这可能会引入大量无关和噪声的上下文。而错误的知识会随着检索和推理过程的积累而持续增加,从而浪费token资源、积累无效记忆并遇到“lost in middle”(即大模型不遵循指令)的问题。因此,如何有效地消除错误知识对于维持系统状态至关重要。
为了解决这些挑战,我们提出了图灵完备的RAG(TC-RAG),这是一个为领域特定LLMs提供可靠且可信的医疗分析的图灵完备系统。首先,对于挑战1,我们设计了一个具有内存堆栈的图灵完备RAG系统,该系统监控中间状态,确保检索过程可靠地收敛到最佳结论。其次,为了应对挑战2,我们广泛收集了医疗数据,并预训练了一个医疗LLM,从而提高了它的推理和规划能力。最后,对于挑战3,TC-RAG结合了内存堆栈系统,利用回溯和总结操作及时删除错误并压缩冗余知识,从而减轻了错误信息和噪声的积累。
检索增强生成(RAG)最早由Lewis等人提出,通过将外部知识库的信息整合到LLMs的提示工程中,增强了LLMs在知识密集型任务中的表现。RAG不仅在LLMs推理过程中减少了幻觉问题,还提供了最新的、任务特定的知识,从而显著提升了下游任务的可解释性和性能。在生物医学领域,RAG被广泛应用于通过利用医学论文、指南、教科书、维基百科、知识图谱等外部医学知识,来提高LLMs的推理和分析能力。
(1) Naive & Advanced RAG: Naive RAG通常采用简单的检索-阅读方法,其中相关信息是基于用户初始查询进行检索的,然后使用这些内容生成答案。Advanced RAG则结合了更复杂的组件,如检索器、重新排序器、过滤器和阅读器,以提高检索和生成的质量。然而,无论是Naive RAG还是Advanced RAG,都没有考虑LLMs是否已经具备了必要的知识。这常常导致检索过多冗余信息,可能会误导模型,造成所谓的“中途丢失”困境。我们的方法通过基于模型的内部参数化知识来决定是否检索以及检索什么,从而实现更高效、准确的检索。
(2) Adaptive RAG: 最近的研究重点开发了自适应RAG策略,使得LLMs能够决定是否以及何时检索,并从庞大的知识库中选择最合适的检索工具。FLARE通过预测下一句并使用生成的低置信度词作为查询重新检索相关文档。DRAGIN利用LLMs在其生成内容中的不确定性,根据内部自注意力权重和相应的关键词来决定何时触发检索。Adaptive-RAG使用一个较小的LLM作为分类器,先查询问题的复杂性,然后选择最合适的检索策略——从简单到复杂。然而,这些现有的自适应RAG方法都不是图灵完备的,缺乏动态管理和监控检索过程的能力,无法保证系统收敛到一个可靠的结论。此外,它们尚未充分利用LLMs与RAG相结合的逐步规划和工具使用能力。我们的方法通过整合一个图灵完备的框架,优化了检索过程,通过高级的规划和工具使用策略,确保了更可靠和准确的结果。
推理和规划能力:最近的研究重点是增强LLMs的推理和规划能力。链式推理(Chain-of-Thought,CoT)展示了LLMs如何构建结构化的“思维过程”来解决复杂问题。ReAct将推理轨迹与任务特定的动作相结合,使LLMs能够计划、调整动作,并在从外部来源(如知识库)获取信息时管理异常。Reflexion通过使用语言反馈进一步改进了LLMs,使它们能够反思并存储任务反馈,从而提高未来尝试中的决策能力。尽管这些方法在推理和规划过程中引入了新的决策尝试,但它们往往在管理之前的记忆上表现不足,尤其是在删除无效决策或精炼历史记录方面。为了解决这些挑战,TC-RAG结合了具有回溯和总结操作的内存堆栈系统,允许及时纠正错误并压缩冗余知识,确保模型的推理过程高效且准确,从而得出更可靠的结果。
解释:记忆栈Tc=(S,A,M,delta,s0, F,sigma):
1. 其中S是大模型的可能处于的状态(作者这里用具体的数值来表示,代表大模型的确定性程度,越小代表大模型此刻对该任务的回答越确定);
基于这两个meta-actions,TC-RAG一共定义了5个由push和pop两个基本操作所组合而成的有意义的行为,在大模型每次决策时,都将从这5个行为中选择一个执行。这5个行为的定义如下:
(1) 思考:这个行为将激发大模型的决策能力,让大模型根据已有的信息进行分析和处理,决定大模型下一步的行为。大模型思考的内容会被push到记忆栈之中。
(2) 工具调用:当大模型仅凭借自身知识无法回答问题时,大模型可以通过调用网络搜索、文档检索、图谱检索等外部工具来获取额外的信息辅助自身回答问题。工具调用后,使用工具的名称以及工具检索的结果将被push到记忆栈之中。
(3) 反思:当大模型发现记忆栈栈顶的内容与整个任务不相关或是该内容是有害的时候,大模型可以通过反思行为,将记忆栈栈顶的元素pop出去,从而避免大模型被无关信息或是有害信息所干扰。
(4) 总结:当记忆栈栈顶的信息过长,或是在栈顶信息中包含了部分噪音时,大模型可以通过总结行为,先利用pop操作将栈顶元素取出,然后对取出的文本进行总结,得到更加精炼且与任务相关的文本,最后再将精炼后的文本push回到记忆栈之中。
(5) 结论:当大模型觉得可以给出最终答案时,会执行结论操作。然而,当且仅当此时整个系统的状态变量达到终止条件时,大模型才会停止整个流程
3. M代表的是大模型的记忆栈,在任务一开始时将用户的Query压入栈底
4. delta是状态转移函数
5. s0代表的是大模型的初始状态,这里用一个很大的值Large_Value表示
6. F代表大模型的终止状态。Tc-RAG认为当大模型自己需要输出Conclusion以及当状态值小于sigma阈值时,此刻推理结束,Tc的栈顶将作为最终的输出答案。
图灵完备性的证明
关于图灵完备性的证明,作者在第四部分和附录部分已经写的非常详细了,感兴趣的同学可以去阅读看看,这里就不细致说了。
如上图所示,TC-RAG利用基于栈的记忆系统以及对应的状态变量来实现对整个RAG框架的状态管理与终止判定,让模型能够自适应地进行检索以及在合适的时刻输出最终答案。
1. 在一开始的时候,大模型将用户Query压栈,接下来大模型将不断的执行所定义的复合操作(Composed Action Set),例如:思考(push),反思(pop),工具执行(push),总结(pop->push)等。在工具执行的过程中,大模型被允许使用多源数据(图谱、文档、网页百科等)。
2. 在大模型执行到Conclusion/Thought时,系统会不断更新它的状态变量(状态变量的计算方法在下文);当大模型执行到有Pop的动作时,会将状态变量重置为上一个Thought的值,以确保系统的完备性。
3. 最后在大模型输出Conclusion且状态变量小于阈值时,输出最终答案,否则大模型的结论行为会被视为思考行为处理,并继续进行下一步推理。
为了解决自适应检索中的停机问题,我们在系统中引入了状态变量来监测系统状态。只有当状态变量满足终止条件时,整个系统才会停机。在实践中,TC-RAG分别尝试了条件困惑度和不确定性这两种不同的状态变量作为量化系统当前状态的指标。
当系统状态值较低或不确定性较低时,表明此时大模型对于最终的结果已经有了比较高的信心。
Prompt如下所示:
图: ReACT策略
然而,我们如果将ReACT的执行过程视作栈的话,就可以发现这是一个单向的栈(只有push,没有pop)。先目前的Reflexion工作,虽然纳入了反思过程,但其上一次的错误思考过程还是被纳入到栈中了。因此,大量的错误知识被累计,token资源被浪费,容易导致资源lost in middle问题。
除此之外,ReACT等方法没有引入系统变量监测系统,因此该类模型往往都是黑盒的,即仅仅依靠大模型自己来决定是否结束检索和思考。
因此,Tc-RAG也做了一个可视化实验:
从这个图可以看出,基于ReACT的方法在处理无关噪声的积累时存在困难,这导致了系统的过度自信和错误的结论。例如“仅仅因为单位不同”的错误,ReACT就得到了错误的判断。相比之下,TC-RAG能够有效管理其内存,并利用总结和回溯操作修剪错误的检索结果,从而得出更加简洁和准确的结论。这凸显了TC-RAG在处理复杂任务时的优势。此外,作者也发现基于ReACT的方法由于缺乏状态管理,往往会在系统状态值较高时过早确定答案。而TC-RAG能够动态地监控RAG过程,确保系统状态值符合终止条件,这进一步说明了构建系统状态的重要性。
(2) 医学工具库:
a. 作者纳入了 百万规模的医学知识图谱(包含130万医学实体和360万关系)并将图谱路径作为检索结果提供大模型(这里是延续了HyKGE的工作);
b. 医学文档库:作者搜集了海量的医学教程、就诊治疗、医学论文、病人电子病例等作为文档库
c. 网页检索:作者利用Bing和Google Search作为网页检索
d. 百科检索:作者利用WikiPedia和MedNet作为百科检索工具
e. 电子病历数据:来自MIMIC-III和MIMIC-IV数据。
在CMB、MMCU以及CMB-Clin三个数据集上基于Qwen1.5-32B-Chat基座模型以及在Qwen1.5-32B-Chat上预训练后的模型的实验结果表明,TC-RAG的方法与其他RAG方法相比有着更好的表现,比现有方法在准确率上平均提升了7.20%,达到了SOTA的水平。同时,通过人为在RAG检索内容中引入噪声的投毒实验证明了TC-RAG方法在弹出检索噪声,保留有效信息方面有着较好的表现。此外,消融实验验证了TC-RAG中反思与总结动作的有效性以及状态变量引入的必要性。这些实验结果都表明,TC-RAG能够充分利用预训练大模型的规划能力,通过自适应地进行信息检索,辅助大模型更好地进行推理和决策,提升了模型的整体性能。
本文提出了首个图灵完备的检索增强生成(RAG)系统,TC-RAG。通过引入监控状态变量,作者开发了一个内存堆栈框架,使检索过程更加动态和自适应,有效解决了传统RAG方法中存在的无休止和不准确的检索问题。TC-RAG框架通过其内存堆栈系统的回溯和总结功能,有效减少了错误知识和无关噪声的积累。实验表明,TC-RAG在多个真实世界的医疗数据集上显著优于现有的基准方法,展示了其在准确性和可靠性上的潜在改进。此外,TC-RAG的成功部署也凸显了其在实际应用中的价值。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-04
大模型支持的上下文已超 1M, RAG 是不是没有意义了?
2026-07-03
RAG 检索优化策略:从命中率到答案质量的一套工程打法
2026-07-03
RAG 落地总翻车?全球赛事冠军架构,改造适配企业级生产
2026-07-01
提升 RAG 准确率全攻略 让你的 AI 知识库 真正靠谱起来!
2026-06-30
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题
2026-06-30
知识库不是文件堆——我把RAG准确率从60%调到了92%
2026-06-30
本体论语义建设新思路,另类RAG来解决检索问题
2026-06-30
别把RAG当架构:Ontology(本体)才是Agent的业务世界
2026-04-06
2026-04-27
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-05-14
2026-04-30
2026-07-04
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。