大模型RAG实战｜如何优化对网页信息的处理

发布日期：2024-09-07 13:25:31 浏览次数： 2830

作者：大卫THINK

微信搜一搜，关注“大卫THINK”

ThinkRAG大模型RAG实战系列文章，带你深入探索使用LlamaIndex框架，构建本地大模型知识库问答系统。本系列涵盖知识库管理、检索优化、模型本地部署等主题，通过代码与实例，讲解如何打造生产级系统，实现本地知识库的快速检索与智能问答。

LLamaIndex提供了众多数据装载器（Loader）。我们最常用的是SimpleDirectoryReader，用于加载各种PDF、DOCX文件或整个文件夹。

对于网页，我们此前使用的是SimpleWebPageReader。LlamaIndex还提供了很多其他Web Reader，比如：UnstructuredURLLoader等。

但是，这些网页加载器，可能存在两个问题：

第一，元数据通常只有原始url信息。缺失了网页文章的标题、作者、日期等重要信息，不利于未来知识库的浏览和检索。

第二，加载网页后，提取的内容不全面。通常丢失了原本的结构信息。比如SimpleWebPageReader用html2txt组件，仅输出纯文本，缺少段落、小标题等信息，也丢失了图表信息。

对于第二个问题，其实PDF等文件的处理也适用，未来再展开讨论。本文重点解决第一个问题。

这里，我们引入了BeautifulSoup。

BeautifulSoup是一个用于解析 HTML 和 XML 文档的 Python 库，常用于网页抓取（web scraping）和数据提取。BeautifulSoup 能够轻松地导航、搜索和修改解析树，并且它提供了一些简单的方法来处理页面上的数据。

实际上LlamaIndex已经提供了使用BeautifulSoup的网页加载器BeautifulSoupWebReader。但是，它提取内容时并没有获取网页标题等更多元数据。

实际上，大部分网页的HTML标签<Title>，已经指明了网页标题，我们可以使用BeautifulSoup提取这个标签的内容：soup.select_one("title")，从而获取网页标题。

因此，基于LlamaIndex原有BeautifulSoupWebReader代码，我做了如下代码改写：

from urllib.parse import urlparse
import requestsfrom bs4 import BeautifulSoup
documents = []for url in urls:try:page = requests.get(url)except Exception:raise ValueError(f"One of the inputs is not a valid url: {url}")
hostname = custom_hostname or urlparse(url).hostname or ""
soup = BeautifulSoup(page.content, "html.parser")
data = ""extra_info = {"title": soup.select_one("title"),"url_source": url,"creation_date": datetime.now().date().isoformat(),# Convert datetime to ISO format string}if hostname in self._website_extractor:data, metadata = self._website_extractor[hostname](soup=soup, url=url, include_url_in_text=include_url_in_text)extra_info.update(metadata)
else:data = soup.getText()
documents.append(Document(text=data, id_=url, extra_info=extra_info))
return documents

然而，并非所有的网页，都能通过这种方式获取标题。

比如，当我们打开一篇微信公众号文章，它的网页标题是通过Javascript代码动态设定的。这时，我们可以通过BeautifulSoup提取<meta>标签中相应的数据。

于是，我们可以针对微信公众号文章的特点，专门编写相应的处理逻辑，代码如下：

def _mpweixin_reader(soup: Any, **kwargs) -> Tuple[str, Dict[str, Any]]:meta_tag_title = soup.find('meta', attrs={'property': 'og:title'})title = meta_tag_title['content']extra_info = {"title": title,}text = soup.select_one("div #page-content").getText()    return text, extra_info

未来进一步，基于这种模块化的方式，我们还可以实现更多功能：

提取更多元数据，比如文章作者、发布日期等信息
使用BeautifulSoup提取网页的主要内容，并保留相关结构信息，并适当地处理网页中的图片信息与表格
在此框架下，针对不同网站的特点，编写处理逻辑，从而更好地适用于处理中文互联网的主流网页

除了使用BeautifulSoup构建自己的网页加载器，我们还可以使用众多服务商提供的网页抓取服务，将网页内容提取转换为适合LLM处理的格式，比如LlamaIndex提供的FireCrawlWebReader等。

然而，使用这些服务，需要申请相关的API Key，并为此付费。

有一个更好的选择：使用Jina AI提供的免费服务。你只需要向https://r.jina.ai/发送请求，并将要抓取的网页url，放在该网址后面即可，比如：

https://r.jina.ai/https://example.com

于是，基于LlamaIndex框架，我们可以实现一个JinaWebReader，代码如下：

class JinaWebReader(BasePydanticReader):def __init__(self) -> None:"""Initialize with parameters."""
def load_data(self, urls: List[str]) -> List[Document]:if not isinstance(urls, list):raise ValueError("urls must be a list of strings.")
documents = []for url in urls:new_url = "https://r.jina.ai/" + urlresponse = requests.get(new_url)text = response.text
# Extract Titletitle_match = re.search(r"Title:\s*(.*)", text)title = title_match.group(1) if title_match else None
# Extract URL Sourceurl_match = re.search(r"URL Source:\s*(.*)", text)url_source = url_match.group(1) if url_match else None
# Extract Markdown Contentmarkdown_match = re.search(r"Markdown Content:\s*(.*)", text, re.DOTALL)markdown_content = markdown_match.group(1).strip() if markdown_match else None
# Compose metadatametadata: Dict = {"title": title,"url_source": url_source,"creation_date": datetime.now().date().isoformat(),# Convert datetime to ISO format string}
documents.append(Document(text=markdown_content, id_=url, metadata=metadata or {}))
        return documents