CharXiv：评估 MLLM 图表理解能力的新基准测试集

发布日期：2024-06-30 11:20:32 浏览次数： 2946

作者：奇点智源

微信搜一搜，关注“奇点智源”

普林斯顿大学、威斯康星大学和香港大学的研究人员推出了 CharXiv，这是一个全面的评估套件，旨在提供更真实、更具挑战性的多模态大型语言模型性能评估，该套件包含从 arXiv 论文中提取的 2,323 个图表，涵盖各种主题和图表类型，并配有需要详细视觉和数值分析的描述性和推理性问题，旨在弥合当前基准与实际应用之间的差距。

论文介绍

多模态大型语言模型 (MLLM) 正在推进 NLP 和计算机视觉的融合，这对于分析视觉和文本数据至关重要。这些模型对于解读科学论文、财务报告和其他文档中的复杂图表特别有用。主要的挑战在于增强这些模型理解和解释此类图表的能力。然而，当前的基准测试通常需要更加准确才能证明这项任务的合理性，这导致高估了 MLLM 的能力。这个问题源于缺乏能够反映现实世界场景的多样化和现实数据集，而这对于评估这些模型的真实性能至关重要。

MLLM 研究中的一个重要问题是现有基准测试中存在的过度简化。FigureQA、DVQA 和 ChartQA 等数据集依赖于程序生成的图表和问题，这些图表和问题缺乏视觉多样性和复杂性。这些基准测试需要捕捉现实世界图表中的真正复杂性，因为它们使用基于模板的问题和同质化的图表设计。这种局限性导致对模型图表理解能力的评估不准确，因为基准测试必须充分挑战模型。因此，迫切需要更真实、更多样化的数据集，以便为 MLLM 解读复杂图表的能力提供可靠的衡量标准。

来自普林斯顿大学、威斯康星大学和香港大学的研究人员推出了 CharXiv，这是一个全面的评估套件，旨在对 MLLM 的性能提供更真实、更具挑战性的评估。CharXiv 包含来自 arXiv 论文的 2,323 个图表，涵盖了各种主题和图表类型。这些图表与描述性和推理性问题配对，需要进行详细的视觉和数值分析。该数据集涵盖八个主要学科，并以多样化和复杂的图表为特色，以全面测试模型的能力。CharXiv 旨在通过为 MLLM 提供更准确、更严格的评估环境，来弥合当前基准测试与实际应用之间的差距。

CharXiv 的独特之处在于其精心策划的问题和图表，旨在评估 MLLM 的描述能力和推理能力。描述性问题侧重于基本的图表元素，如标题、标签和刻度，而推理性问题则需要综合复杂的视觉信息和数值数据。所有图表和问题都经过人工专家挑选、策划和验证，以确保高质量和相关性。这种细致的整理过程旨在提供一个真实的基准测试，比现有数据集更有效地挑战 MLLM，最终提高模型在实际应用中的性能和可靠性。

在评估 CharXiv 时，研究人员对 13 个开源模型和 11 个专有模型进行了广泛测试，结果显示出巨大的性能差距。最强的专有模型 GPT-4o 在推理问题上达到了 47.1% 的准确率，在描述性问题上达到了 84.5% 的准确率。相比之下，领先的开源模型 InternVL Chat V1.5 在推理问题上的准确率仅为 29.2%，在描述性问题上的准确率为 58.5%。这些结果突出了当前 MLLM 在图表理解方面面临的挑战，因为人类在这些任务上的表现明显更高，推理问题的准确率为 80.5%，描述性问题的准确率为 92.1%。这种性能差异表明需要更强大、更具挑战性的基准测试（如 CharXiv）来推动该领域的进一步发展。

CharXiv 的研究结果为当前 MLLM 的优势和劣势提供了重要的见解。例如，专有模型和开源模型之间的性能差距表明，前者能够更好地处理现实世界图表中的复杂性和多样性。评估结果显示，描述能力是有效推理的先决条件，因为具有较强描述能力的模型往往在推理任务上表现更好。模型还需要在组合任务方面获得帮助，例如计算轴上的标记刻度，这对人类来说很简单，但对 MLLM 来说却很有挑战性。

总之，CharXiv 解决了现有基准测试的关键缺陷。通过提供更真实、更具挑战性的数据集，CharXiv 能够更准确地评估 MLLM 解读复杂图表的能力。该研究发现的巨大性能差距凸显了持续研究和改进的必要性。CharXiv 的综合方法旨在推动 MLLM 能力的未来发展，最终为实际应用提供更可靠、更有效的模型。