2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

ChartBench 面向复杂图表的认知与推理评测数据集

发布日期:2024-07-23 07:34:58 浏览次数: 3111

参考文献ChartBench 面向复杂图表的认知与推理评测数据集

引言


作者介绍

Jay,清华大学深圳国际研究生院计算机博士研究生,IDEA 实习生

近年来,通用生成式人工智能大模型在语言处理领域展现出了惊人的语义理解和逻辑推理能力,吸引了越来越多企业和研究者的关注。多模态大模型更是通过将图像转换为与文本形式相似的Token,成功实现了对自然图像内容的理解,在多个多模态数据集(如MME、SEED等)上展现了令人信服的性能提升。
尽管如此,多模态大模型在实际应用中仍面临诸多挑战,其中可信的图表理解就是一个亟待解决的问题。现有文档中常常包含大量嵌入式图表,以提供更直观和详尽的数据和信息描述。对于自然图像的描述,通常基于可识别的语义对象及其相对位置或作用关系。然而,与自然图像不同,图表通过可视化格式呈现详细而复杂的数据叙述,主要依靠视觉逻辑(如趋势线、图例颜色等元素)来表达数值和实体的映射关系。
在我们的测试中,多模态大模型常常无法准确读取图表中的数值,尤其是在没有数据点标注的图表中,其生成的幻觉回答非常严重。当前的多模态大模型严重依赖其OCR能力,但缺乏类似人类的图表逻辑推理能力。因此,合理评估多模态大模型在数据可靠性和内容理解方面的表现至关重要。
目前,主流的工作主要使用 ChartQA 等数据集评测多模态大模型的图表理解能力,但是其有着一些固有的缺陷,如图像来源单一、图表类型较少和评估方法不够合理等。特别的,图表上丰富的数据点标记容易导致评测题目退化为简单的 OCR 问题,从而导致无法正确评测模型的视觉逻辑推理能力。
基于以上考虑,我们提出了一个新的用于评估多模态大模型图表认知与推理的数据集ChartBench。

概述:

ChartBench 通过图表问答的方式评估模型的图表理解能力,它全面评估了多模态大模型在更广泛的图表类型上的性能,包括带注释的图表和未注释的图表。ChartBench 包含超过 68k 个图表和超过 600k 个高质量指令数据,涵盖 9 个主要类别和 42 个子类别图表。
此外,ChartBench设计了 5 个不同层次的图表问答任务来评估模型的认知和感知能力。为了评估 模型在未注释图表上的能力,ChartBench 在 42 个类别中都包含了一定数量的未注释图表。
实验结果表明,模型在有和没有数据点注释的图表之间存在显着性能差距。为了增强未注释图表的模型能力,ChartBench的训练集中超过 80% 都是没有数据点标注的图表,方便研究者进行对齐预训练或者思维链等其他有效的技术改进。

数据收集流程:

下图展示了Chartbench的数据处理流程。其核心思想是生成多种类型的、未标注图表及其对应的指令数据。
具体流程如下:
1)数据收集。为了设计反映现实场景的图表,我们从Kaggle收集适合科学研究的主题和数据,并匿名化所有真实姓名和可识别实体以确保隐私。此外,为了确保图表类型的多样性,我们还利用大型语言模型生成真实的虚拟主题和数据,以补充较为少见的图表类型。
2) 数据过滤。我们为42种图表类型建立了标准的JSON格式,并过滤掉所有不符合这些标准的表格数据,以确保图表生成的正确性。
3)图表生成。通过有效的数据过滤,我们使用各种绘图库(如Matplotlib,Echart等)绘制各种图表。我们随机应用不同的绘图风格和配色方案,以确保图表的多样性,提供9大类和42个子类的图表。
4) 数据集划分。我们随机从每种图表类型选择50个样本来形成评测集。我们在保持基本设置一致的情况下,选择了部分数据通过在线绘图网站进行绘制,以保证图表的风格多样性。
5)人工审查。为了保证数据集质量,我们对所有的测试集图表进行了人工审查,以去除有缺陷的或者不显著的图表。

指令数据的自动化生成:

ChartBench由5个任务组成,包括感知和推理任务。感知任务主要需要感知和处理原始数据来提取有价值的特征和信息。推理任务涉及处理和理解抽象概念和更高级别的信息。
感知任务主要包括两种类型的问答:
1)类型识别任务旨在评估模型准确识别图表类型的能力。
2)数值提取任务旨在评估模型在面对复杂的视觉逻辑时是否可以正确提取相关值。在没有注释数据的情况下,模型需要依赖于图例、坐标轴和其他图表元素来提供答案。概念任务包括两种类型的问答:
3) 数值比较任务通过要求模型仅依赖于图形元素而不是元数据(表格数据)来确定答案。
4) 全局推理任务评估了感知全局指标(例如最大值)的能力。
5) 数值问答任务。对数值提取任务采用了容差评估,以避免数值提取任务中负样本数量过多的问题。

评测指标

Acc+: 我们改进了MME的评测方法,以避免昂贵的大模型评估。对同一个问题采用正反两种提问方式,只有模型能同时正确回答这两种提问,才被认为正确回答了问题。
我们从三个角度改进了这个方法:
1)两个问题只在真值上有区别;
2)两次问答是独立进行的;
3)不正确的值不是随机生成的,而是从真值的邻域采样的。
Confusion Rate: 我们发现,许多模型对两个提问产生相同的输出,可能是因为它们没有利用图表的视觉信息。为了评估这种情况,我们引入了混淆率(CoR)作为度量标准。如果模型没有使用图表中的信息,它往往会生成相同的答案,从而导致CoR接近100%。GPT-acc: 虽然Acc+是一种评估模型响应的有效方法,但它在特定的数值问题上有所不足,因为正确回答负样本并不能完全证明模型的泛化能力。
为了解决这个问题,我们改进了ChartQA中的误差范围评估。我们的改进包括:
1) 使用大模型来过滤回答并提取数字答案,避免由于额外文本而导致的模式匹配错误; 
2) 数值问答任务排除了年月等元素,这类问答可能因为误差范围变得过于宽松,使评估缺乏意义。

基线模型

ChartBench主要评估模型理解无数据点标注图表的能力。我们提出了两个简单而有效的基线,可以显着提高模型的性能。ChartCoT:如下图所示,我们提出了基于思维链的有效基线,在不调整模型的情况下增强视觉推理能力。我们设计了一系列的问题以分解用户查询,并使用提示来模拟人类的视觉推理来进行图表识别。此外,我们使模型能够生成自己的思维链,或者寻求更大模型的帮助来生成思维链。这种方法有效地帮助模型理解图表,特别是在视觉逻辑更复杂的情况下。

模型微调:我们基于几个较为优秀的模型进行了两阶段监督微调。
在第一阶段,我们使用图表CSV样本对进行对齐训练,以更新连接器参数。在第二阶段,我们利用指令数据对对语言分支进行微调。考虑到图表与中性图像相比并不复杂,我们在微调过程中冻结视觉编码器的参数。实验结果表明,对齐训练有效的提升了模型对无标注图表的理解能力。

实验结果

对 18 个开源大模型和 3 个闭源大模型的评测结果

模型在有无数据点标注的图表上的性能差异

模型应用不同的思维链方法的提升对比

模型使用ChartBench对齐微调后的性能提升

ChartBench评测流程案例的部分可视化结果

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅