微信扫码
添加专属顾问
发布时间:2024 年 06 月 06 日
图表问答
Uncovering Limitations of Large Language Models in Information Seeking from Tables
表格因其信息密度高且应用广泛,成为不可或缺的信息源。大型语言模型(LLMs)从表格中提取信息(TIS)的能力至关重要,支撑着基于知识的问答系统。但目前该领域评估不足,缺乏可靠性。为此,本文推出了一个更为可靠的表格信息检索(TabIS)基准,采用单选题形式(每题两选项),避免了基于文本相似度的评估不准确性。我们构建了一套高效的选项生成机制,确保题目难度与质量。实验涵盖 12 种 LLMs,结果显示,尽管 GPT-4-turbo 表现尚可,其他模型则不尽人意。深入分析发现,LLMs 在理解表格结构上存在短板,且在 TIS 性能与抵御伪相关表格(检索增强系统中常见)的鲁棒性之间难以取舍。这些发现揭示了 LLMs 在表格信息检索方面的局限与挑战。我们已公开数据与代码,以期推动该领域的深入研究。
https://arxiv.org/abs/2406.04113
表格遍布于网络和各类文档,成为信息的宝库。数据显示,网页上的表格数量已飙升至数亿,而在企业界,类似Excel的电子表格中的表格数量更是超过了1.15亿。精准地从表格中提取信息对于金融分析、科学研究等众多实际应用至关重要。
近期,大型语言模型(LLMs)的飞速发展已经革新了信息检索的方式,从检索特定文本转变为直接提供答案。尽管如此,LLMs在表格信息检索(Table Information Seeking,TIS)方面的效果评估研究还不够深入。
已有研究尝试评估LLMs在TIS方面的表现,但现有评估指标的可靠性问题亟待解决。先前研究主要通过表格到文本的转换(Table-to-Text generation,TTG)来测试LLMs的TIS能力,TTG旨在将复杂的表格数据转化为易于理解的描述,以满足用户的信息需求。
为了提供更可靠的评估,作者提出了一个新的表格信息检索基准TabIS。在构建这一基准时,如何生成高质量的错误选项是一个难题。作者设计了三种基于提示的方法:修改输入、修改输出和考试判断,以产生具有欺骗性的错误选项。这些方法共同确保了生成数据的准确率超过92%。
TabIS涵盖了三个难度递增的实用场景:基础TIS(Basic-TIS,B-TIS)、强调结构理解的TIS(Structural Understanding TIS,SU-TIS),以及面对多个表格的TIS(Multiple tables,M-TIS)。这些场景反映了聊天机器人和增强检索系统等实际应用中的常见场景。
所有的表格都以Markdown格式呈现,以LLM需要基于上下文表格来回答问题,所有问题都以单选题形式存在。同时评估了闭源模型和开源模型。为了增加结果的可复现性,作者将测评模型的温度参数设置为0。
闭源模型选择了三个代表性模型:GPT-3.5、GPT-4和Gemini-Pro。
考虑到闭源模型成本高昂、且存在隐私问题,所以作者还评估了几款流行的开源模型,包括从7亿到70亿不等的Llama2-chat;经过指令调整的Mistral-7b-instruct-v0.2和Mixtral-8x7b-instruct;从Llama2-7b指令调整而来的TableLlama-7b,它是首个针对表格的大型通用模型;以及从Llama2-70b微调而来的Tulu2-70b-DPO,这是首个与DPO对齐的70亿参数模型。这些模型代表了社区可用的、具有不同架构和对齐策略的最高质量LLMs。
上表展示了各个模型在TableIS测试数据集上的结果。
总体而言,无论是闭源模型还是开源模型,在TableIS数据集上表现都不尽如人意。但总体上,闭源模型效果要超越开源模型:GPT-4-turbo以85.9%的高平均准确率领先,而Tulu2-70b-DPO则为74.1%。尽管Gemini-pro在性能上超越了GPT-3.5,但仍未能达到GPT-4-turbo的水平。
在开源模型中,同一系列中参数较大的模型往往表现更佳,如Llama2-chat系列中,7b、13b和70b参数的模型分别达到了50.7%、56.7%和61.9%的平均准确率。然而,这一规律并不适用于不同系列的模型,模型规模的增大并不总能转化为性能上的提升,Mistral-instruct的7b版本就在得分上超越了70b的Llama2-chat模型1.3个百分点。这一现象引发了关于预训练和对齐策略对LLMs在表格信息检索任务上能力影响的思考,这或许能成为未来研究的一个有趣方向。
在TabIS的各个子集上,上表中间的列显示所有模型在基础表格信息检索(B-TIS)上的表现普遍优于结构理解型检索(SU-TIS)和多表格检索(M-TIS),这表明后两者的任务难度更大。
SU-TIS仅以突出单元格的位置作为线索,难度自然高于B-TIS。但模型可以通过选项中的单元格信息回溯表格,从而对每个选项进行核实,这使得性能下降并不剧烈。
而M-TIS则引入了一个看似相关实则无关的额外表格,这可能会对LLMs的判断造成干扰。在不同数据集间的对比中,所有模型在ToTTo的表现均优于Hita,提升幅度从5.8到19.0点不等。这一差异可能源于ToTTo主要包含标准表格且没有合并单元格,而Hita则包含了具有复杂层级的表格,这对表格的理解构成了更大的挑战。
我们进一步剖析了LLMs在表格结构理解(Table Structure Understanding,TSU)方面的能力,为SU-TIS子任务的后续研究照亮了方向。
TSU是指识别表格内固有的二维布局——比如单元格、行和列的相对位置——并根据这些位置信息获取目标内容的能力。在SU-TIS任务中,TSU尤为关键,因为它涉及到在表格中定位特定区域。对人类而言,这似乎是自然而然的事情,但对LLMs来说却是个不小的挑战,特别是当表格以序列化格式如markdown或HTML输入模型时。
为了探究LLMs在TSU方面的能力,设计了六项基础查找任务,例如“第三行第三列的单元格是什么内容?”或者“与‘哈利·波特’同一行的单元格内容是什么?”。
一旦人类掌握了表格结构和任务要求,无论目标位置在哪里,他们的TSU表现理论上都会保持优异和一致。然而,LLMs的表现却与人类非常不同。
如上图,展示了六项任务的平均准确率和目标位置变化得分。TSU任务的变化得分是指不同目标位置准确率的标准差。值得注意的是,大多数LLMs在TSU任务上的表现接近随机水平。即便是最强的LLM:GPT-4-turbo 稳定性也不高。
LLMs在TSU任务上表现不佳,且准确率在不同位置间波动巨大。在现实世界中的SU-TIS场景里,用户查询没有备选项。LLMs必须依靠位置信息(如第三行)来定位目标区域,其信息检索表现很大程度上取决于模型的TSU能力。
这一发现突显了表格结构理解的一个普遍挑战:我们还将发布这六项TSU数据集,以助于推动未来研究的发展。
在多表格信息检索(M-TIS)的基础上,深入探讨了各类模型面对伪相关表格时的信息检索鲁棒性。为了衡量模型的鲁棒性,通过计算模型在有无伪相关表格条件下准确度的偏差,进而得出平均值,这一过程基于ToTTo和Hita数据集进行。上图展示了相关结果。显著的是,GPT-3.5-instruct和GPT-4-turbo两款模型不仅效果显著,也显示出良好的鲁棒性。然而,两款最强的开源模型——Tulu-70b和Mixtral-7b8——却显示出了最低的鲁棒性。此外,同一模型系列中,规模较大的模型虽然在准确度上得分较高,但在鲁棒性方面表现较差,这一趋势在Llama2系列(7b、13b、70b)和Mistral系列(Mistral-7b、Mixtral-87b)中均有体现。M-TIS的研究表明,大型语言模型(LLMs)在提升信息检索性能与增强对抗伪相关表格的鲁棒性之间需要找到平衡,这一点对于开源模型尤为关键。
本研究的发现指向了未来研究的方向:必须对开源模型进行改进,以增强其在面对伪相关表格时的信息检索鲁棒性。
为了探讨LLMs在TabIS上表现不好的原因,对其中的一些难题进行了深入分析。精心挑选了其中50个样本,邀请专家对这些难题进行剖析。将主要的难点归纳为四大类,具体分类展示在下表中。分析结果显示,现有LLMs在辨识细节上仍有失误,面对那些看似明确却暗藏错误的选项时更易误判(R1, R3)。同时,进行表格信息检索时往往涉及到数值推理(R2)和依赖常识判断(R4),这些恰是当前LLMs尚待提升的能力领域。
• 基准测试以单项选择题的形式呈现,确保了评估结果的稳定性,但这可能与现实应用场景不完全吻合。
• TabIS 设计的选项仅有两个,这样的设置对于挑战大型语言模型(LLMs)来说可能稍显不足,尤其是在 GPT-4 已经展现出较高准确度的情况下。生成 TIS 问题时所用的模板较为单一;如果问题更加丰富多元,将更有助于提升基准测试的水准。
• 利用 GPT-4 调整提示并创造出伪相关表格,这可能带来某种偏差,对 GPT 系列模型可能因其对数据集构建的熟悉度而更为有利。
• 表格来源于维基百科,人们可能会担心数据的纯净性问题;即便没有表格提供的上下文信息,LLMs 可能依然能够表现出色。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
Hermes 的记忆层有 8 种实现,我为什么选了最反常识的那个
2026-07-05
Codex 负责人谈 AI 时代唯一值钱的能力
2026-07-05
复旦期末考「造反」了:51名学生联手围攻Claude、DeepSeek,谁能让AI交白卷谁就是学霸
2026-07-05
Loop Engineering 会是 AI 的下个关键词吗?
2026-07-04
Cursor 如何把 AI 部署进企业内部
2026-07-04
字节跳动CEO梁汝波最新万字分享深度拆解:这可能是2026年最重要的一堂管理课
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-14
2026-04-24
2026-04-22
2026-05-19
2026-04-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。