【浙江大学大模型】TableGPT表格处理大模型

发布日期：2024-08-30 19:51:11 浏览次数： 3096

作者：数字炼丹师

微信搜一搜，关注“数字炼丹师”

TableGPT是一个统一的微调框架，它使大模型（LLMs）能够使用外部功能命令理解和操作表格。该模型的核心在于其全局表格表示的新颖概念，这使得大模型能够全面了解元信息之外的整个表格内容。通过联合训练表格和文本模式的大模型，TableGPT实现了对表格数据的深入理解，并能够通过命令链指令对表格执行复杂操作。

技术特点

全局表格表示：TableGPT引入了全局表格表示的概念，使大模型能够全面理解表格的元信息和数据内容，从而提高对表格数据的处理能力。

独立系统：TableGPT是一个独立的系统，不依赖于外部API接口。这种设计提高了系统的灵活性和可扩展性，使得用户可以在不同的环境下部署和使用该模型。

高效数据处理：支持高效的数据处理流程，包括查询拒绝（在适当的情况下）和私有部署，从而确保领域数据的快速精调和数据隐私保护。

多功能支持：TableGPT支持多种与表格相关的功能，如问题回答、数据操作（插入、删除、查询、修改）、数据可视化、分析报告生成和自动预测等。

应用场景

数据分析：TableGPT可以对真实世界数据库中的表格进行分析和操作，减少人们的时间和努力。它支持复杂的跨表格操作，并通过指令链实现多步骤的数据处理和分析。

企业数字化转型：对于企业而言，TableGPT可以降低数据分析的门槛，使所有人都能够通过自然语言与之交互，实现数据化转型。它提供的自然语言交互功能使得非专业人士也能轻松上手。

数据可视化：基于表格数据创建可视化图表和报告，帮助用户更直观地理解数据背后的信息和趋势。

自动预测：基于表格数据进行自动预测和分析，为决策提供有力支持。

《TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT》

全文摘要

本文介绍了一种名为TableGPT的统一框架，该框架可以让大型语言模型（LLM）通过外部功能命令理解和操作表格数据。TableGPT引入了无缝交互的能力，使得用户可以轻松地进行问答、数据处理（如插入、删除、查询和修改等操作）、数据可视化、分析报告生成以及自动化预测等功能。TableGPT的核心是全局表征的概念，这使得LLM能够对整个表格进行全面的理解，而不仅仅是元信息。通过对表格和文本模态进行联合训练，TableGPT实现了对表格数据的深入理解，并且可以通过链式命令指令执行复杂的表格操作。此外，TableGPT具有自包含系统的优势，不需要依赖外部API接口；支持高效的数据流程管理、查询拒绝和私有部署，提高了框架的适应性。

方法描述

本文提出的TableGPT模型是一种基于预训练语言模型（LLM）的表格数据处理工具。该模型使用Phoenix作为基础模型，并在大规模文本和表格数据上进行了fine-tuning。输入一个用户查询和一张表格后，TableGPT会将表格编码为向量表示并将其与用户查询一起馈入预训练的语言模型中进行推理。模型能够理解用户的查询意图并生成包含命令序列和文本回复的输出。命令序列经过校正后被送入执行器进行执行，最终输出修改后的表格和文本回复。这种方法通过提供高效、可靠的数据查询响应来增强用户体验和简化数据分析。

方法改进

本文提出了一种新颖的fine-tuning过程，使用了包括2T个标记的大型语料库和0.3M张表格。这个丰富的语料库使得模型可以学习到更广泛的用户查询和公共领域内的表分析报告数据。此外，本文还提出了一个分层的表格编码器，它将表格分为两部分：一是学习元数据表示，如表格结构、行业背景等；二是学习数值信息表示，如各列分布和趋势等。这种设计使得模型可以更好地理解表格的全局信息。

此外，本文还引入了Chain-of-Command（CoC）方法，用于增强模型的多步推理能力。CoC方法通过一系列中间指令来分解复杂的查询操作，从而提高模型在多步推理中的准确性和效率。同时，当遇到过于模糊或不明确的查询时，CoC方法还可以拒绝执行并请求用户提供更具体的意图。

最后，本文还开发了一个高效的领域数据处理管道，以帮助模型适应特定行业的数据需求。该管道利用主动学习技术从领域数据中精心选择一小部分样本进行fine-tuning，加速模型的学习过程。此外，该管道还利用向量数据库和LangChain等技术提高了文档检索能力，进一步丰富了模型所学习的上下文。

解决的问题

本文提出的TableGPT模型解决了表格数据处理过程中的一些挑战。首先，传统的自然语言处理模型难以处理表格数据的复杂结构和抽象性质。本文提出的分层表格编码器可以有效地提取表格的全局信息，从而弥补了这一缺陷。其次，由于大型语言模型缺乏特定领域的数据训练，其性能往往无法满足特定行业的语言风格和逻辑需求。本文提出的领域数据处理管道可以通过精心选择的一小部分样本快速适应特定行业的数据需求，从而提高了模型的性能。最后，传统的自然语言处理模型在处理复杂的查询操作时容易出现计算错误和幻觉。

论文实验

本文主要介绍了TableGPT模型的评价和与其他命令使用语言模型（LLM）的比较。首先，作者列举了TableGPT支持的一系列丰富命令，包括自然语言交互、数据可视化和报告生成以及自动化决策过程等。其次，作者将TableGPT与ChatExcel、SheetCopilot和Data-Copilot等现有的命令使用LLM进行了比较，并展示了它们之间的差异。最后，作者通过一些案例展示了TableGPT在处理表格相关任务方面的优越性能。

具体来说，在实验中，作者对TableGPT和其他命令使用LLM进行了多种比较，包括：命令覆盖范围：TableGPT支持的命令比其他命令使用LLM更加丰富，能够更好地满足用户的需求。自然语言理解能力：TableGPT能够更好地理解和解释用户的自然语言查询意图，从而提供更准确的结果。数据处理效率：TableGPT能够在短时间内快速处理大量数据，提高工作效率。决策准确性：TableGPT能够基于给定的数据和指令，自动做出正确的决策，减少人工干预。