我要投稿

用 LlamaIndex 让 AI 读懂你的 Excel：三种方案详解

发布日期：2026-04-08 10:52:03 浏览次数： 1888

作者：技术吧

微信搜一搜，关注“技术吧”

❝
企业 80% 的数据藏在 Excel 里。如何让大模型真正"读懂"这些表格数据？本文基于 LlamaIndex 0.14.19 源码，拆解 Excel 索引建立的完整机制。
❞

为什么 Excel 对 RAG 来说很棘手？

做 RAG（检索增强生成）时，PDF、Word 这类文档本质是"一段段文字"，切分起来相对自然。

但 Excel 不一样——它是「结构化的二维表格」。直接把单元格的值拼成一串文字，AI 就丢失了"哪个值属于哪一列"的关键信息。

LlamaIndex 的解法是：「把列名（表头）和每个单元格的值绑定在一起」，让每一行数据都自带语义上下文。

方案一：PandasExcelReader（默认，开箱即用）

这是 LlamaIndex 的「内置默认方案」。当你用 SimpleDirectoryReader 加载一个目录时，框架会自动识别 .xls / .xlsx 文件，并调用 PandasExcelReader 来处理。

它是怎么工作的？

一句话概括：

「Excel → pandas 读取 → 每行转成 "列名: 值" 的文本 → 封装成 Document」

举个例子，你有这样一张表：

姓名	职位	部门
张三	工程师	技术部
李四	设计师	设计部

经过 PandasExcelReader 处理后，会变成这样的文本：

姓名: 张三, 职位: 工程师, 部门: 技术部
姓名: 李四, 职位: 设计师, 部门: 设计部

每一行数据都带上了列名，AI 就能准确理解"张三是工程师"而不是把"张三"和"设计师"搞混。

最简用法

from llama_index.core import SimpleDirectoryReader, VectorStoreIndex

# 把 Excel 文件放到 data 目录下，一行代码搞定
documents = SimpleDirectoryReader("./data").load_data()
index = VectorStoreIndex.from_documents(documents)

# 开始提问
query_engine = index.as_query_engine()
response = query_engine.query("技术部有哪些人？")

进阶配置

from llama_index.readers.file import PandasExcelReader

reader = PandasExcelReader(
    concat_rows=False,    # 每行生成一个独立 Document（适合大表格）
    sheet_name=0,         # 只读第一个 Sheet（默认读所有 Sheet）
    pandas_config={       # 传给 pandas 的参数
        "usecols": "A:D",   # 只读 A~D 列
        "nrows": 1000,       # 只读前 1000 行
    }
)

documents = SimpleDirectoryReader(
    "./data",
    file_extractor={".xlsx": reader, ".xls": reader}
).load_data()

「concat_rows 怎么选？」

表格小于 100 行 → 用 True（默认），保持完整上下文
表格超过 1000 行 → 用 False，每行独立成 Document，检索更精准
每行语义独立（如 FAQ 列表） → 用 False
行间关联紧密（如财务报表） → 用 True

方案二：StructuredDataReader（精细控制）

默认方案把所有列都塞进正文。但很多时候，你只想检索部分列的内容，其他列作为辅助信息。

StructuredDataReader 就是为这个场景设计的——「你可以指定哪些列进正文、哪些列进 metadata」。

为什么需要这个？

假设你有一张销售数据表：

订单号	客户名称	产品	金额	日期
ORD001	王五	笔记本电脑	8999	2024-01-15

如果把所有列都放进正文做向量检索，"订单号"和"日期"这类字段会引入噪音。更好的做法是：

「正文」（用于向量检索）：客户名称、产品
「Metadata」（用于过滤）：订单号、金额、日期

用法示例

from llama_index.readers.structured_data import StructuredDataReader
from llama_index.core import SimpleDirectoryReader

reader = StructuredDataReader(
    col_index=["客户名称", "产品"],      # 这些列的内容进入正文
    col_metadata=["订单号", "金额", "日期"]  # 这些列作为 metadata
)

documents = SimpleDirectoryReader(
    "./data",
    file_extractor={".xlsx": reader}
).load_data()

生成的 Document：

「text」 = "王五, 笔记本电脑"
「metadata」 = {"订单号": "ORD001", "金额": 8999, "日期": "2024-01-15"}

这样，向量检索只匹配"客户+产品"，而日期、金额等字段可以用 metadata filter 做精确过滤。

安装

pip install llama-index-readers-structured-data

方案三：UnstructuredReader（万能但较重）

如果你的文件格式多样，不只有 Excel，还有 PDF、Word、PPT 混在一起，可以考虑 UnstructuredReader。它基于 Unstructured.io 库，支持数十种文件格式。

from llama_index.readers.file import UnstructuredReader

reader = UnstructuredReader()
documents = reader.load_data(file=Path("data.xlsx"))

需要额外安装 unstructured 库，且体积较大。对于纯 Excel 场景，前两种方案更轻量。

完整流程图

读完 Excel 只是第一步。从文件到可查询的索引，完整链路如下：

📄 Excel 文件
    ↓  Reader 读取
📝 Document (text + metadata)
    ↓  NodeParser 分块
🧩 TextNode[]
    ↓  Embedding 模型向量化
🔢 向量
    ↓  写入 VectorStore
🗄️ 索引建立完成 → 可查询

三种方案怎么选？

场景	推荐方案
快速验证、表格不大	PandasExcelReader（默认）
需要精确控制哪些列参与检索	StructuredDataReader
多种文件混合处理	UnstructuredReader
超大表格（10万行+）	建议预处理后再导入