HeLM: 一种两阶段的Table-to-text解决方案

发布日期：2024-06-22 07:25:51 浏览次数： 5525

作者：AINLP

微信搜一搜，关注“AINLP”

提纲

1 简介

2 问题描述

3 HeLM

3.1 HeLM训练框架

4 实验结果

5 讨论

1 简介‍‍‍‍‍‍

一般情况下，Tabel-to-Text模型会将表格逐行转成长文本输入到语言模型中，这会使得模型很难在这些非结构化且冗长的文本中找到跟query相关的数据单元。基于此，研究人员提出了一种两阶段方案HeLM，该方案首先去定位到跟query相关的行信息，并将这些信息加入到原表格中，再去生成query对应的回复。这种新方案在实验效果上展现了明显的优越性，优于其他fineutne或者few-shot方案。

2 问题描述

在Table-to-Text任务中，输入包括一个包含行跟列信息的结构化表格T以及一个自然语言描述的问题Q，预期的输出是Y，一个Table-to-Text系统应该能够利用表格T里的信息生成针对用户问题Q的结果Y。简单理解，就是根据表格内容作出回复。

3 HeLM‍‍‍‍‍‍‍‍

HeLM包括两个模块，其中一个模块是table highlighter MH，负责识别跟query相关的数据在表格所处的位置，从而输出表格中跟Q相关的数据所处的行索引，即E=MH(PromptH(T, Q))，然后将表格T中位于E的数据加上特殊标识就可以得到新的表格输入，即T*=HL(T, E)，这样就可以把显示地告诉语言模型表格中那些数据跟Q存在更加关联。另一个模块是table summarizer MS，负责利用上一个模块获得的信息，生成针对Q的更加合适的回复，即Y=MS(PromptS(T*, Q))。对应的PROMPT内容可参考下文。‍‍

图1: HeLM中不同prompt

Table highlighter的训练需要高质量的evidence数据（表示对应行的表格数据跟Q相关），于是研究人员提出了训练一个evidence feedback模型MF来打标，即y*=MF(PromptS(HL(T, E),Q)，再通过比较模型预测的结果跟真实结果的差异来评估evidence feedback模型的性能。要训练这样一个evidence feedback模型需要构建对应的数据，研究人员主要从3个不同源头搜集，其一是人工标注的数据Emanul，其二是利用类似于GPT系列等大模型蒸馏得到的数据Edistill，其三是通过检索算法获得数据Esearch。将这三部分数据汇总可得到新的evidence数据Emerge。

3.1 HeLM训练框架

图2: HeLM训练跟推理流程

Step 1 obtain feedback summarizer，利用其他其他LLM构建数据Edistill，并基于此训练得到一个基本的table feedbacker/summarizer MF，也就是利用其他LLM的能力构建一个feedback数据集，然后训练一个基础的table feedback模型，该模型会融合Edistill跟T的信息，生成针对Q的回复Y，可以认为这是一个基础的table summarizer。即{HL(Edistill, T), Q, Y}--->MF

Step 2 obtain merged evidence 在完成table feedback模型训练后，通过以下算法可以构建一个更加全面的evidence数据Emerge。‍‍‍‍‍‍‍

图3: HeLM搜索流程‍‍‍‍‍

Step 3 Finetuning highligher and summarizer 利用Emerge数据集训练对应的table highlighter MS以及MS，即{T*, Q, Y}-->MS，{T, Q, Emerge}-->MH。

推理流程就很好理解了，给定table T跟问题Q，table highlighter会找出T中跟Q相关联的数据索引位置，即evidence，然后将其对应行的数据打上对应标记，获得新的表格T*，再让table summarizer生成对应的回复。

4 实验结果‍‍‍‍‍‍‍‍

a) 从文中实验结果看，HeLM这种两阶段的训练方法在table-to-text 取得明显收益，面对其他finetuning的方案跟few-shot LLM，都有明显领先。同时，基于lora的训练方案（HeLM-13B）效果远超全参数微调的方案（LLaMA2-13B）。

图4: HeLM效果对比‍‍‍‍‍

b) 通过进一步的消融实验，进一步确认这个方案中各个设计的有效性。‍‍‍‍‍‍

图5: 消融实验‍‍‍‍

5 讨论

我觉得首先需要道个歉，这个解读可能有点苦涩，写的时候也明显感到力不从心。我自己看这篇文章当时也觉得很绕，所以如果感兴趣的朋友需要多读几遍论文，可能才会有更深的体会。‍‍‍‍‍‍‍‍‍‍‍‍‍‍

相比类似于TableGPT这种一步到位的finetune方案，HeLM这种两阶段的方式，在生成回复时显示地给模型指出那个数据更为关键，其实就是给模型更多信息了，从而引导模型更加关注table中哪些位置的信息，降低了推理的难度。所以只要前置的highlighter足够强大，这方案能取得明显提升也是无可厚非的。

这种方案也暴露了目前LLM在更多场景应用下的问题，因为在特定场景下端到端效果不及预期，大家又开始拆分了很多模块，各种打补丁，各种finetune得到只针对了某个场景或者应用的模型，而这其实并不利于LLM在更大范围的推广。而这个问题或许需要等到后续LLM能力更上一层楼时才能得到解决。