HtmlRAG：利用 HTML 结构化信息增强 RAG 系统的知识检索能力和准确性

发布日期：2024-11-15 09:27:43 浏览次数： 2919

作者：Halo咯咯

微信搜一搜，关注“Halo咯咯”

.01

概述

在大型语言模型（LLM）逐渐普及的今天，检索增强生成（Retrieval-augmented Generation，简称RAG）技术逐渐成为提高AI知识处理能力、减少模型幻觉（hallucination）的关键手段。通过将外部知识库和生成模型相结合，RAG为如ChatGPT等多种商业应用提供了重要支持。然而，当前RAG的实现方式仍面临一项根本性挑战，即在知识处理过程中对HTML网页结构与语义信息的损失。

对于复杂的网页内容来说，将HTML文档简单地转换为纯文本输入往往会破坏原始格式，导致重要的上下文信息丢失，特别是表格类内容。这一问题长期以来困扰着RAG系统的优化。为了解决这个难题，中国人民大学高瓴人工智能学院和百川智能科技的研究团队提出了一种创新的解决方案——HtmlRAG，它通过HTML格式而非纯文本的方式来传递和处理检索到的知识，从而保留更丰富的语义和结构信息。

那么，HtmlRAG究竟是如何突破传统RAG系统的局限性，并带来显著性能提升的呢？本文将为大家深入剖析。

.02

为什么现有RAG系统在处理HTML时捉襟见肘？

在传统的RAG实现中，开发者会使用多种方法优化内容流入模型的质量。例如，LangChain和LlamaIndex等框架中常用的查询改写、检索器、重排序器、精炼器、读取器等组件，能够增强文本检索的准确性。然而，这些方法在处理HTML内容时却面临诸多瓶颈：

HTML结构的丢失：HTML具有丰富的结构化标签，能够传递表格、分区等语义信息，简单转换为纯文本会破坏这些结构，使得模型在理解内容时丧失上下文。
现有精炼器的不足：当前的内容精炼方法主要依赖文本的分块处理（chunking），在面对长HTML内容时显得力不从心，且需要消耗大量计算资源，难以高效处理。
高昂的计算成本：长HTML内容需要大量的计算资源去精炼，而HTML中的CSS样式、JavaScript代码及注释等非核心信息又会大大增加词元数量，导致效率低下。

鉴于这些局限性，传统RAG系统在面对复杂HTML内容时表现出明显的不足。而HtmlRAG的创新之处在于，它不仅能够保留HTML的原始语义和结构信息，还通过一套独特的机制有效应对HTML文档的高词元负担。

.03

HtmlRAG的核心技术：从“纯文本”到“HTML结构”的转变

HtmlRAG的核心理念在于直接使用HTML格式作为知识检索的输入，以最大限度保留网页内容的语义和结构细节。为了有效处理复杂的HTML文档，研究团队设计了一套创新的两步式修剪机制，使系统能够在不失去重要信息的前提下，将繁杂的HTML内容高效处理为适合模型使用的格式。

Step 1：HTML清洗与树形结构转换

首先，HtmlRAG将所有检索到的HTML文档进行整合，并通过Beautiful Soup解析为单一的DOM树。与传统的DOM树结构相比，HtmlRAG采用了一种“块树”结构（block tree），通过maxWords参数控制粒度。这样一来，系统能够递归地将零碎的子节点合并为父节点，形成较大的信息块，并严格遵循单词数限制。通过这种方式，系统能够有效减少节点数量，显著降低了复杂HTML结构的处理难度。

Step 2：分步处理与语义精炼

在HTML文档被清洗并转换为块树结构后，系统会进入第二阶段的处理。HtmlRAG首先利用嵌入模型对清洗后的HTML输出进行处理，初步筛选出核心内容，接着通过生成模型对其进一步优化。这样的分步处理方式既保留了HTML文档的结构性信息，又能够避免长文本造成的高计算消耗。

实验数据：HtmlRAG在六个数据集上的表现胜出

在性能测试中，HtmlRAG表现出色，在六个数据集上全面超越了传统的纯文本处理方法。与常见的分块精炼法（如LangChain的实现）相比，HtmlRAG在处理HTML文档时显得更加精准，同时显著减少了对结构信息的损失。

研究表明，在重排序模块中，基于嵌入的密集检索器（dense retrievers）明显优于稀疏检索器BM25，尤其是基于编码器的BGE表现尤为出色。相较之下，基于解码器的e5-mistral效果则稍逊一筹。此外，传统的精炼器在长HTML文档的优化上存在明显不足，尤其是像LongLLMLingua这样的模型会在纯文本转换中丢失大量结构信息，而JinaAI-reader虽然可以从HTML输入中生成Markdown，但在面对长序列时存在逐字解码的计算瓶颈。

这些实验数据验证了HtmlRAG利用HTML格式进行知识处理的有效性，并表明了其在不同数据集上的广泛适应性。

.04

HtmlRAG的应用前景：引领RAG系统的新方向

HtmlRAG的成功不仅在于提升了RAG系统的知识处理能力，更开辟了基于HTML格式的知识检索和处理的新方向。这一技术对于有复杂信息处理需求的应用场景尤为关键。例如：

高结构化内容的AI应用：HtmlRAG能够保留并理解表格、列表、导航栏等高结构化信息，使其在财务数据分析、法律文件解析等领域有广泛的应用潜力。

内容复杂的网页数据处理：在新闻、学术、技术文档等信息密集型领域，HtmlRAG可以更好地保留内容的语义与上下文，提供更可靠的回答。

长文本的计算成本优化：通过减少非必要信息的参与，HtmlRAG实现了高效的内容处理，为开发者在构建AI应用时节省了大量资源。

面向未来的潜力

作为一种开创性的RAG方法，HtmlRAG提供了一个切实可行的解决方案，展示了HTML在AI应用中的独特优势。研究团队不仅证明了HTML格式在知识检索和生成中的价值，还为未来基于HTML的知识处理方法指明了方向。借助HtmlRAG，我们可以想象，未来的RAG系统会逐步整合更多的HTML处理工具，进一步提升内容解析的精准性和效率。

.05

结语

HtmlRAG的推出标志着RAG系统在知识检索与处理上的一次重要突破。通过直接使用HTML格式，HtmlRAG在提升语义保真度和结构信息保留方面表现出色，有效克服了传统纯文本方法的诸多缺陷。对于需要复杂信息处理的企业来说，这一技术不仅提供了即时的解决方案，更为未来的知识处理方式开辟了全新路径。

可以预见，随着HtmlRAG这一技术的深入应用和推广，RAG系统在各行业的AI应用中将展现出更强大的实力。在知识无比丰富的互联网世界中，HtmlRAG将引领RAG技术的升级和进化，让AI在理解和处理复杂信息时更上一层楼。