RAGFlow：基于文档结构识别模型的可定制、可信、可解释的RAG引擎

发布日期：2024-04-19 20:55:20 浏览次数： 4288

作者：机器AI学习数据AI挖掘

微信搜一搜，关注“机器AI学习数据AI挖掘”

在2023年底正式开源AI原生数据库Infinity之后，我们的端到端RAG解决方案RAGFlow也于4月1日正式开源。在深入探讨RAGFlow的产品细节之前，让我们先来讨论其开发背后的原因。

RAG已经发展成为支持LLM提供业务端服务的共同解决方案，然而围绕它的疑问从未停止。我们一直在积极解决这些问题，最近的博客就解决了由于今年市场上长上下文LLM日益普及而引发的关于RAG的广泛疑虑。

简单来说，许多个人和小企业使用的问答系统可能并不特别需要RAG。然而，具有大量代币的LLM已经解决或正在解决RAG发展中的两个关键挑战之一。因此，它们补充而非取代RAG。主要挑战包括：

1、与LLM相关的问题 2、与RAG相关的问题对于RAG来说，LLM的核心能力包括：

1、摘要 2、翻译 3、可控性没错，你没看错！这三个方面看似不起眼，但却是当前许多LLM的短板。如果没有掌握这些能力，像推理和不同代理之间的自主决策这样的概念仍然只是空中楼阁。随着大量代币LLM的进步，特别是在提高在广泛上下文中找到“针尖”的能力方面，RAG实施中的一个重大痛点已得到显著缓解——这是源自LLM本身的问题。另一个重大挑战来自RAG系统本身，包括：

数据库挑战。在我们之前的讨论中，我们已经强调了在RAG中多次召回的重要性。即使是最基本的知识库，没有这个功能也无法应对。因此，RAG系统的数据库必须具备多次召回能力，而不是依赖于纯粹的向量数据库。数据挑战。这一点对RAG的新来者可能不是立即显而易见的。利用现有的开源软件堆栈，包括各种向量数据库和RAG编排工具，如LangChain和LlamaIndex，以及一个精美的UI，可以很容易地建立一个RAG系统。虽然像GitHub这样的平台上类似的编排工具受到了相当大的赞誉，但它们通常无法有效处理数据。这导致将复杂的文档格式以无序的方式集成到数据库中，最终导致“垃圾进垃圾出”。上面突出的两个问题是当前RAG状态仍然有些表面化的主要原因，特别是它无法支持更复杂的企业场景。因此，我们很高兴见证LLM能力的进化。但是，同时解决RAG本身面临的具体挑战也至关重要。为了解决这些问题，我们引入了Infinity，这是一个专为RAG设计的数据库，用以解决第一个问题，还有一个专门的RAG工具来解决第二点。这项举措旨在使RAG更容易被企业和个人的更广泛受众所接触，解锁更多场景。这就是推出RAGFlow的原因。

接下来让我们看看RAGFlow的特点，并将其与市场上现有的各种开源解决方案进行比较。

首先，RAGFlow作为一个完整的RAG解决方案，允许用户上传和管理他们的文档。用户有灵活性，可以上传多种格式的文档，如PDF、Word、PPT、Excel和TXT。通过智能解析，数据被准确地输入到数据库中，允许用户使用任何大型语言模型查询他们上传的文档。本质上，RAGFlow包括以下端到端过程。

此外，RAGFlow的一个关键特点是其多样化的智能文档处理能力，确保从“垃圾进垃圾出”转变为“优质进优质出”。为了实现这一点，RAGFlow选择不依赖现有的RAG中间件，而是进行了智能文档理解系统的完整重新开发。这个系统是构建RAG任务编排系统的基础，并具有以下特点：

它作为一个基于大型语言模型的智能文档处理系统：当用户上传文档时，它会自动识别文档布局，包括标题、段落、换行，甚至复杂的元素如图片和表格。对于表格，它不仅能检测它们的存在，还能识别表格布局，包括每个单元格。它可以将多行文本合并到一个单元格中等等。此外，系统结合表内容与头部信息处理，确保数据正确发送到数据库，使RAG能够有效地在这些综合数字中找到特定细节。它作为一个带有多种模板的智能文档处理系统：不同的行业和角色需要不同类型和格式的文档，以及不同的信息检索要求。例如：会计通常处理凭证、发票和Excel报告，经常查询数值，如确定特定日期发出的凭证及其总价值或上一季度资产负债表中的净资产。人力资源专业人士通常筛选候选人简历并进行“表查询”，如确定来自特定顶尖大学的特定经验水平的算法工程师或来自特定机构的研究生资格的个人。研究人员接触学术论文，面临着迅速理解和组织论文及其引用关系的挑战。这样看来，凭证/报告、简历和学术论文的文档结构不同，导致查询需求不同，因此处理要求也不同。因此，在处理文档时，RAGFlow提供多种选项：问答、简历、论文、手册、表格、书籍、法律、一般文件等。这些类别还在不断扩展，处理方法仍在完善中。我们还需要抽象出更多常见的范式或模式，以使各种定制处理任务更容易获得。

3. 智能文档处理的可视化和可解释性：用户经常想知道他们上传的文档是如何被处理的，例如创建了多少个块以及各种图表、图形和表格是如何处理的。毕竟，任何基于LLM的系统只能保证正确性的概率。对于系统来说，为用户提供适当的干预机会是至关重要的，因为用户有控制的需求，而且透明度优于不透明性。这对于那些格式各异且在各行业广泛使用的PDF文档尤为重要。保持对PDF文档的控制至关重要。我们不仅展示处理结果，还允许用户查看文档解析结果，并通过单击一下即可定位到原始文本。用户可以比较处理后的文本与原始文本之间的差异，进行添加、修改、删除和查找信息，如下图所示：

总之，RAGFlow作为一个全面的RAG系统。目前，许多开源RAG系统忽视了RAG的一个关键优势：使LLM能够以受控的方式响应查询，促进基于理性的、有证据的方法，消除幻觉。众所周知，根据模型的能力，LLM可能会遇到幻觉。在这种情况下，RAG产品应该随时为用户提供参考，使他们能够查看LLM用来制定回应的原始文本。这需要生成到原始文本的引用链接，使用户能够悬停在其上以访问原始内容，包括图表、图形和表格。如果仍然存在不确定性，点击引用应该引导用户到原始文本，如下图所示：