2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

文档表格结构识别技术与数据总结:兼看多模态表格理解基准设计及数据构建思路

发布日期:2024-06-16 13:24:11 浏览次数: 3847
作者:老刘说NLP

微信搜一搜,关注“老刘说NLP”


我们今天继续来看看文档智能领域的表格结构识别问题,通过一个工作整理进行论述。

另一个是多模态表格理解MMTab的设计以及数据构造方式【数据增强】,还推出了一个表格理解模型,其思路也很有趣,可以看看。

供大家一起参考并思考。

问题1:文档智能领域中的表格结构识别问题

在完成版式分析之后,如果识别文档元素是表格,那么则需要对表格进行处理。而表格结构识别又是其中的一个重点

一般而言,表格处理分成三个部分:

TD任务,Table Detection,表格识别

TSR任务,Table Structure Recognition,表格结构识别

TCD任务,Table Content Recognition,表格内容识别

因此,我们有必要熟悉下表格结构识别的工作,可以参考:https://github.com/MathamPollard/awesome-table-structure-recognition。

其中,可以重点看看其中的两个综述:

《A Study on Reproducibility and Replicability of Table Structure Recognition Methods》,https://arxiv.org/pdf/2304.10439

《Deep Learning for Table Detection and Structure Recognition: A Survey》,https://dl.acm.org/doi/abs/10.1145/3657281

其中几个点可以看看。

一个是目前提供表格结构识别数据集的工作,主要有:

1、ICDAR2013,https://paperswithcode.com/dataset/icdar-2013,数据量156
2、SciTSR,https://github.com/Academic-Hammer/SciTSR,数据量15K;
3、TableBank,https://doc-analysis.github.io/tablebank-page/,数据量145K

4、PubTabNet,https://github.com/ibm-aur-nlp/PubTabNet,数据量1M+;
5、PubTables-1M,https://github.com/microsoft/table-transformer?tab=readme-ov-file,数据量1M+;

6、FinbTabNet,https://developer.ibm.com/exchanges/data/all/fintabnet/,数据量91596

7、WTW,https://github.com/wangwen-whu/WTW-Dataset,数据量14581;

8、SynthTabNet,https://github.com/IBM/SynthTabNet,数据量600K;

9、TabRecSet,https://github.com/MaxKinny/TabRecSet,数据量38177;

10、iFLYTAB,https://github.com/ZZR8066/SEMv2?tab=readme-ov-file,数据量12104

一个是当前近几年的一些代表性的模型工作,主要有:

1、《Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling》,https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Improving_Table_Structure_Recognition_With_Visual-Alignment_Sequential_Coordinate_Modeling_CVPR_2023_paper.pdf

2、《LORE: Logical Location Regression Network for Table Structure Recognition》,https://ojs.aaai.org/index.php/AAAI/article/view/25402/25174

2、《Robust Table Detection and Structure Recognition from Heterogeneous Document Images》:https://www.sciencedirect.com/science/article/abs/pii/S0031320322004861

3、《Scene table structure recognition with segmentation collaboration and alignment》,https://www.sciencedirect.com/science/article/abs/pii/S0167865522003828?via%3Dihub

4、《TableVLM: Multi-modal Pre-training for Table Structure Recognition》,https://aclanthology.org/2023.acl-long.137/

5、《TableFormer: Table Structure Understanding with Transformers》:https://openaccess.thecvf.com/content/CVPR2022/papers/Nassar_TableFormer_Table_Structure_Understanding_With_Transformers_CVPR_2022_paper.pdf

6、《Split, Embed and Merge: An accurate table structure recognizer》:https://www.sciencedirect.com/science/article/abs/pii/S0031320322000462

7、《TSRFormer: Table Structure Recognition with Transformers》:https://dl.acm.org/doi/abs/10.1145/3503161.3548038

8、《UniTable: Towards a Unified Framework for Table Structure Recognition via Self-Supervised Pretraining》:https://arxiv.org/abs/2403.04822)

9、《Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representation》:https://link.springer.com/chapter/10.1007/978-3-030-87626-5_8, https://github.com/Psarpei/Multi-Type-TD-TSR

问题2:多模态表格理解MMTab的任务及数据设计思路

当然,当前,多模态表格理解也可看看一个工作,多模态表格理解:《Multimodal Table Understanding》,https://arxiv.org/pdf/2406.08100,代码放在:https://github.com/SpursGoZmy/Table-LLaVA,其提出的背景在于,以往的表格理解方法取得了巨大进展,包括基于大型语言模型(LLMs)的最近方法,但这些方法通常需要将给定的表格转换成某种文本序列(如Markdown或HTML)作为模型输入。

然而,在现实世界的一些场景中,获取高质量的文本表格表示可能比较困难,而表格图像则更容易获取。因此,如何直接使用直观的视觉信息来理解表格是一个关键且迫切的挑战。

因此,这个工作提出了多模态表格理解问题,并构建了一个名为MMTab的大规模数据集,涵盖了广泛的表格图像、指令和任任务,如下所示:

我们可以看其中几个点:

1、其数据构造的方式:

其中比较有趣的是做的数据增强方案:

其一,表格级别增强(Table-level augmentations):现实世界的表格具有不同的结构和样式。为了使模型能够处理各种样式的表格,设计了脚本来渲染具有三种不同样式的表格图像:网页风格(Web-page,占比70.8%)、Excel风格(占比19.4%)和Markdown风格(占比9.8%)。还考虑细粒度的调整,如字体类型和单元格颜色。

其二,指令级别增强(Instruction-level augmentations):用户对于同一任务的指令可能会有所不同。为了提高模型对这种变化的鲁棒性,作者使用GPT-4生成新的指令模板和关于JSON输出格式的描述,基于几个手动注释的示例进行少量样本(few-shot)学习。生成的指令模板如果包含语法错误或与原始任务偏离,将被过滤掉。

其三,任务级别增强(Task-level augmentations):尽管收集的14个公共数据集突出了9个学术表格任务,这些任务需要基于表格的推理能力,但现有的多模态大型语言模型(MLLMs)是否真的理解基本的表格结构仍然是一个问题。 为了进一步加强MLLMs对基本表格结构的理解能力,设计了6个表格结构理解任务,例如表格大小检测(TSD)任务。

除了上述策略,作者还将同一表格的单轮样本结合起来,构成了37K多轮对话样本。

2、其数据的具体统计,包括用于微调的数据集以及测试

MMTab数据集包括150K样本用于预训练,232K样本用于指令微调,以及45K和4K样本分别用于内部和外部评估。

数据集中包含了105K张表格图像,这些图像覆盖了广泛结构(例如,具有平坦结构的简单表格以及具有合并单元格和分层标题的复杂表格)。数据集中的表格图像不仅结构多样,还具有不同的风格(网页、Excel、Markdown表格)和来自不同领域的数据(如维基百科和财务报告)

3、其benchmark的计算方式

4、其进行对应的微调路线

其开发了一个通用的表格MLLM Table-LLaVA,使用MMTab-instruct数据集,该数据集包含了多种与表格相关的任务,例如问题回答(TQA)、事实验证(TFV)、文本生成(T2T)等,模型基于之前提出的LLaVA-1.5模型

当然对于具体的性能指标,可以看原论文,这里就不展开介绍了。

总结

今天我们主要看了两个问题,一个是文档智能领域中的表格结构识别问题;另一个是多模态表格理解MMTab的设计以及数据构造方式。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅