张宇童,李启元,刘树衎,2
1.中国人民解放军海军工程大学 电子工程学院,武汉 430033
2.东南大学 计算机科学与工程学院,南京 211102
表格作为数字文档页面的主要组成部分,具有半结构化的特性和复杂多样的版式。然而,在数字文档图像中,表格所蕴含的信息难以被直接使用。为了实现表格的智能处理,获取和利用表格内的数据信息,需要进行表格检测与结构识别。
表格检测与结构识别是表格分析领域的关键问题。表格检测是指在各式各样的版面中准确找到表格所处的区域;结构识别是指在已确定的表格区域上,定位表格的行、列及单元格的空间坐标和逻辑坐标。
由于早期表格使用频率不高,结构较为单一,简单的规则可以满足表格区域的检测和结构信息的提取。文献[1-3]依托手工制定的规则来分析表格。随着计算机技术的飞速发展,电子文档的使用已非常广泛[4],表格的使用频率不断提高,样式也越来越丰富。仅仅依靠规则的方法已经无法满足现有表格的处理需求,于是基于机器学习[5]的方法被提出。文献[6]提出使用支持向量机(support vector machine,SVM)[7-8]结合规则来判别表格区域,实现表格区域的检测。文献[9]使用多个分类器进行融合以达到对表格区域的检测。
图形处理器(graphics processing unit,GPU)[10]的改进带来了计算能力的提升,依靠大规模数据集的深度学习技术也迎来了发展,这也使得表格研究领域的关注度越来越高。
通过大量的文献调研,对表格分析领域的发展状况进行总结,具体研究工作可分为以下几个方面:
(1)介绍了表格检测任务的发展现状,并对所述方法进行分类介绍,总结其优点和局限性,注明相应方法所使用的实验数据集。
(2)介绍了表格结构识别任务的发展现状,并对所述方法进行分类介绍,总结其优点和局限性,注明相应方法所使用的实验数据集。
(3)对目前表格分析领域的部分公开数据集进行整理和解释,总结各类数据集的来源、规模和数据类型,便于后续研究人员的了解和使用。
(4)介绍了几种表格分析领域的评价指标,并针对特定的下游任务给予相应的评价标准,同时展示了文中提及的各种表格检测及结构识别方法的实验结果。对实验结果进行整理和分类,展示了各类模型的效果。
(5)展望了表格分析领域的未来研究方向,针对表格结构识别任务和表单元格间关系探究提出了几点建议。
对表格进行信息抽取的第一步是识别文档图像中的表格边界,各种深度学习方法已被应用于表格检测任务,本章对文档图像中的表格检测方法进行了整理。通过相关文献调研,Hao等人[11]提出了采用深度学习方法解决表格检测任务,除了使用卷积神经网络提取图像特征外,还借助PDF元数据,应用了一些启发式方法。该方法使用了PDF文档的部分结构信息,并非仅仅依赖文档图像,因此未对此方法进行效果分析。
1.1.1 Faster R-CNN
Gilani等人[12]采用深度学习方法在图像上检测表格。将图像变换作为预处理步骤,然后进行表格检测。在图像变换部分,将二值图像作为输入,在其上分别对图像的三通道应用欧氏距离变换(Euclidean distance transform)[13-14]、线性距离变换(linear distance transform)和最大距离变换(max distance transform)。后来,Gilani等人使用了一种基于区域的物体检测模型,称为Faster R-CNN[15-16]。其区域候选网络(region proposal network,RPN)[17]提供了候选边框提取的功能,该网络的主干基于ZFNet[18]。他们的检测模型在UNLV[19]数据集上取得最优结果。Schreiber等人[20]利用深度学习技术对文档图像进行处理,提出了基于Faster R-CNN结构的端到端系统DeepDeSRT。该系统不仅可以检测表格区域,还可以识别表格的结构。将模型在Pascal VOC[21]数据集上进行预训练,并分别使用ZFNet和VGG-16[22]两种不同的骨干网络,对模型效果进行测试。文献[23]设计了一系列图像处理步骤,包括染色与距离变换,通过染色使得文本区域与非文本区域划分更加明显,通过距离变换使得背景特征与目标前景特征区分开。结合Faster R-CNN框架,同时考虑图像的前景和背景两类特征,以提升表格区域检测的效果。
随着GPU内存的增加,大规模数据集的应用成为可能。Li等人[24]在此基础上提出了大规模表格数据集TableBank,其中包含41.7万标记的表格及其各自的文档图像,并通过使用传统的Faster R-CNN模型来完成表格检测任务,以证明该数据集的有效性。同时,他们还将该数据集中原始的XML信息转化为HTML序列文件,以提供该数据集的结构识别功能。
Sun等人[25]提出结合Faster R-CNN,进一步提升角点定位法的检测效果。他们将角点定义为围绕表格顶点绘制的大小为80×80的正方形。通过使用Faster RCNN模型检测角点,结合大量启发式规则进一步筛选角点,过滤不准确的角点后保留剩余角点。作者认为,大多数情况下,表格边界不准确主要是由于表格左右边界检测不准确。因此他们仅限于对检测到表的左右边界进行筛选,通过获取表格边界和相应角点之间的平均值来移动表格的水平点。相较于传统的Faster R-CNN框架,将改进的角点定位法与之结合,进一步提升了边界框检测的性能,并在ICDAR 2017 POD[26]数据集上进行评估,最终结果表明该方法显著提升了表格检测任务的精度。
1.1.2 Mask R-CNN
随着各种检测框架的提出和改进,表格检测任务的效果显著提升。He等人[27]提出了Mask R-CNN模型,扩展自原有的Faster R-CNN,是一个概念上简单、灵活和通用的对象实例分割框架。该方法能够高效地检测图像中的对象,同时为每个对象生成高质量的分割掩码。这种方法通过添加一个用于预测目标掩码的分支来扩展检测框架,并使之更快,可与现有的边界检测分支并行。
Prasad等人[28]发表了CascadeTabNet,这是一种端到端的表格检测和结构识别方法。作者利用Cascade Mask R-CNN[29]与HRNet[30]的混合作为基础网络,结合文献[12]中使用的RPN结构,进行候选框的提取。同时提出了两步数据增强策略,首先对原始图像进行文本区域的膨胀变换,其次对膨胀区域进行“涂黑”变换,即将图像的文本区域进行灰度的强化,使其与空白区域的区别更加明显。他们提出的端到端模型CascadeTabNet能够在ICDAR2013[31]、ICDAR2019[32]和TableBank[24]数据集上取得最佳结果。Zheng等人[33]发表了一个文档图像中表格检测和结构识别的框架GTE(global table extractor)。GTE是一种基于视觉的通用方法,可以使用多种目标检测算法,通过将原始文档图像提供给多个目标检测器,并行检测表格和单元格,借助额外的惩罚损失和已检测到的单元格边界来进一步细化目标检测器的检测结果。
1.1.3 YOLO
YOLO(you only look once)[34-36]作为一种典型的单阶段目标检测框架,将提取候选区域与检测合二为一,高效地检测图像中的各种目标。Huang等人[37]首先将YOLOv3模型应用于表格检测任务中。在训练过程中使用了锚框优化策略,将原始标注边框进行聚类,以获取最适合该任务的锚框尺寸。同时提出了两种后处理步骤:一是对检测区域中的空白区域进行删除,以提升区域检测的精度;二是制定部分规则对图像页面中的页眉、页脚、分割线等影响因素进行消除,以减少假阳样本,避免对检测效果产生不利影响。
图神经网络(graph neural network,GNN)[38-40]作为新型结构,在表格分析领域已受到越来越多的关注。Riba等人[41]在发票文档上使用图神经网络进行表格检测。作者认为,由于发票图像上可用信息有限,图神经网络依靠其特有的特征提取方式,可以更好地对图像中的特征进行聚合,更适合解决有限信息下的表格区域检测任务。同时,发布了公开数据集RVL-CDIP的标注子集。
文献[42]拓展了图神经网络的应用,将表行检测与信息提取相结合,解决了表检测问题。通过行检测方法,表中任何单词都可以清晰地划分到其所属行。在对所有单词进行分类后,表格区域可以被有效地检测到,相较于发票中的文本区域,表格行划分更加清晰。作者声称他们的方法具有良好的鲁棒性,不仅可以在发票文档上实现表格检测,同时也可应用于PDF等其他类型的文档中。
生成对抗网络(generative adversarial network,GAN)[43]是一种包含两个网络的深度神经网络结构,将内部两个网络相互对立,因而称为“对抗”。由生成器网络生成新的实例,通过判别器网络去评估实例的真实性,目前该网络已被应用于表格分析领域。文献[44]提出一种基于GAN的特征生成器,确保生成网络无法察觉出全框线表和部分框线表间的差异,并尝试在这两种情况下以相同策略提取特征。将基于GAN的特征生成器与Mask R-CNN或U-net[45]等语义分割模块相结合,进行文档图像中表格区域的检测,并在ICDAR 2017 POD[26]数据集上进行了评估。文献[46]采用基于条件GAN和CNN的架构来检测表格。Wang等人[47]提出了pix2pixHD结构,利用条件GAN的生成器以及多尺度判别器,加入改进的对抗损失,在原始图像基础上获得高分辨率图像。通过CNN进行特征抽取,实现图像内表格区域的精准检测。
在文献[20]提出的DeepDeSRT框架基础上,Siddiquie等人[48]在2018年提出将原始框架包含的Faster R-CNN模型中的传统卷积替换为可变卷积网络(deformable convolutional network,DCN)[49-50]来进行表格检测。由于文档中表格有多样的版式和尺寸,可变形卷积的性能超过了传统卷积。他们提出的Decnt模型在ICDAR 2013[31]、ICDAR 2017 POD[26]、UNLV[19]和Marmot[51]数据集上进行评估并取得了最佳效果。Agarwal等人[52]提出CDeCNet模型来检测文档图像中的表格边界。该模型表明不需要添加额外的前/后处理技术也可以获得优异的表格检测效果。这项工作基于一种Mask R-CNN的复合主干网结构(两个ResNeXt101[53])。在复合主干中,作者用可变卷积代替传统卷积,以解决检测具有任意版式的表问题。通过将可变形复合主干和CascadeMask R-CNN相结合,在表格检测任务中取得了性能的提升。
表1总结了部分基于深度学习的表格检测方法的优点和局限性。
表1 表格检测方法的优点和局限性Table 1 Advantages and limitations of table detection methods
在检测到表格区域的基础上,可以进行表格的行列及单元格识别。本章总结了近期应用于表格结构识别任务的各种方法,并根据神经网络的结构对这些方法进行了分类。
鉴于目标检测算法[54]的不断改进和所取得的良好效果,研究人员开始尝试将目标检测算法应用于表格结构识别任务。Hashmi等人[55]通过检测表中的行和列来实现表结构识别。通过将Mask R-CNN与锚框优化(anchor optimization)[56]策略结合,提升行和列的检测精度,并在TabStructDB[57]和ICDAR2013[31]数据集上进行了评估,结果表明锚框优化策略显著提升了表格结构识别任务的效果。
除了检测表格行列来进行表格结构识别外,Raja等人[58]引入了一种回归单元格边界的表格结构识别方法。作者使用Mask R-CNN框架和在MSCOCO数据集[59]上预先训练的ResNet-101主干网,并将扩张卷积(dilated convolutions)[60]应用于RPN结构中,随后使用图卷积网络(graph convolutional network,GCN)[61]进行行列关系预测,但由于表格中的空白单元格缺乏相应的特征信息,导致该检测框架难以进行处理和分析。而文献[62]提出了一种基于Mask R-CNN的边界检测框架
LGPMA(local and global pyramid mask alignment),分别检测表格的局部边界和全局边界,并对结果进行对齐和融合。随后加入单元格匹配、空白格搜索、空白格合并三个后处理步骤,很好地解决了空白单元格难以检测的问题。
模型CascadeTabNet中介绍了一种直接定位表格中单元格边界的方法,将表格图像直接输入Cascade Mask R-CNN结构中,获取单元格掩码的预测结果,并将表格分类为有边界或无边界。随后对有线表和无线表分别进行后处理,以检索最终的单元格边界,实现表格结构识别的目标。
文献[33]提出的系统GTE是一个端到端框架,它不仅可以检测表格区域,还可以识别文档图像中表格的结构。与文献[28]中CascadeTabNet模型的设计方法类似,GTE中也提出将表格分为有线表和无线表两类,分别使用两种不同的单元格检测网络。首先将带有表格掩码的完整文档图像输入到分类网络,其次根据预测的类别,图像被输入到相应的单元格检测网络,最后返回单元格边界检索的预测结果。
Long等人[63]并未使用传统的目标检测框架,而是选择了CenterNet[64]检测网络,以各目标框的中心点为基础,回归得到相邻单元框的公共顶点位置,从而得到边界框尺寸和位置信息,通过连接得到表格的结构信息。但这种基于CenterNet的检测方法在无框线表格的结构预测上存在不足,因为其依赖于使用边界框中心点去推测相邻边界框的公共顶点,然而无框线表格的公共顶点难以准确定义,无法衡量预测结果的有效性。
在上述基于目标检测的方法中,文档图像中的表格结构识别问题都是用分割技术处理的。2019年,Qasim等人[65]首次利用GNN进行表格识别。该模型由深度卷积神经网络和图神经网络组成,前者用于提取图像特征,后者用于提升各顶点之间的关联性。这种基于GNN方法的提出,拓展了表格结构识别任务的解决方式,为后续的结构识别方法提供了新思路。Chi等人[66]提出了一种基于GNN的表格结构识别结构GraphTSR。该结构从PDF文件中获取表单元格的边界框和内容,以单元格为顶点,单元格间关系为边进行无向图的构建,借助GNN进行边分类预测,判断任意两个单元格属于垂直或水平关系,以此获得表格的结构信息,实现结构识别目标。同时发布了一个大规模表格结构识别数据集SciTSR。
文献[67]借助GCN结构对单元格相对位置关系(包括水平和垂直关系)进行预测。借鉴多模态融合的思路,将图像、位置和文本三类特征进行融合,极大提升了单元格间相对位置关系的预测效果,同时提出了一个中文的金融表格数据集FinTab。
文献[68]提出了TGRNet模型,利用CNN提取表格的行、列及原始图像的特征图并进行融合,实现表内单元格的空间坐标预测;结合空间坐标的预测结果,对齐并提取相应的图像特征进行融合,使用图卷积网络对表中单元格特征聚合,从而预测单元格的逻辑坐标。
到目前为止,已经介绍了CNN和GNN在表格结构识别任务中的实现方法。Khan等人[69]尝试使用循环神经网络(recurrent neural network,RNN)[70-72]的变种门控循环单元(gated recurrent units,GRU)[73]来提取表格的结构。CNN的感受野不足以在一步中捕获完整的行和列信息,因此采用RNN可以有效地弥补这一缺陷。在对比了两种改进的RNN模型,即长短时记忆网络(long short-term memory network,LSTM)[74]和GRU后,GRU显示出了更大的优势。因此作者选择使用一对双向GRU,一个GRU用于行检测,而另一个用于列检测,并在ICDAR 2013[31]数据集上进行了评估,其实验结果超过了文献[20]提出的基于Faster R-CNN的DeepDeSRT模型。同时还表明了基于GRU的序列模型不仅可以改善结构识别问题,还可以用于表中的信息提取。
与传统卷积相比,可变卷积与扩张卷积拥有更加广阔、灵活的感受野,可以更好地适用于版式复杂多样的表格,因此可以将上述两类卷积应用于文档图像中的表格结构识别任务。
2.4.1 可变卷积
文献[57]提出了DeepTabStR模型,该模型是对文献[48]中提出的Decnt模型的改进。由于表格布局存在多样性,而作为滑动窗口运行的传统卷积并不是最佳选择。DCN允许网络通过考虑对象的当前位置来调整感受野。因此,可变卷积更适合于完成表格结构识别任务。相较于原始的Decnt模型,该文提出的DeepTabStR模型将主干网和ROI(region of interest)中的传统卷积均替换为可变卷积。同时还发布了一个公共的基于图像的表格识别数据集TabStructDB。该数据集基于ICDAR 2017 POD[26]数据集,在原有基础上添加了结构信息注释,使得该数据集可以适用于表格结构识别任务。
2.4.2 扩张卷积
Tensmeyer等人[75]提出了一种名为SPLERGE的表格结构识别方法。该方法由两个独立的深度学习模型组成:第一个模型用于预测输入图像的实际网格结构,将图像特征提取部分的卷积层替换为扩张卷积,充分提取目标特征,对表格图像进行划分;第二个模型将原始输入图像与第一个模型输出的预测结构相结合,用于判别已划分的网格结构是否可以进一步合并为新的网格,解决表格中存在跨多行和多列单元格的问题。通过在ICDAR 2013[31]数据集上进行评估,SPLERGE方法实现了最佳结果,显著提升了表格结构识别任务的准确率。
表2展示了各类方法的优点及其局限性。
表2 表格结构识别方法的优点及局限性Table 2 Advantages and limitations of table structure recognition methods
本文对当前表格分析领域的常见数据集进行总结。
ICDAR 2013数据集由2013年国际文档分析与识别会议(ICDAR)组织的比赛发布。该数据集具有用于表格检测和表结构识别的注释。数据集由PDF文件组成,共有238张图像,其中128张包含表格。
ICDAR 2017 POD数据集用于2017年ICDAR中的页面目标检测竞赛,主要用于评估表格检测任务。该数据集比“ICDAR 2013”规模更大。它由2 417幅图像组成,包括表格、公式等,其中训练集1 600幅图像(731幅含表格区域),测试集817幅图像(350幅含表格区域)。
ICDAR 2019数据集在“ICDAR 2019”表格检测和识别竞赛中提出。数据集包含两部分:现代数据集和历史数据集。现代数据集包含来自科学论文、表格和财务文件的样本。历史数据集包括手写的会计分类账、火车时刻表等。在现代数据集中,训练集600张,测试集240张。在历史数据集,训练集600张,测试集199张。数据集包含了表格边界和单元格区域注释的信息。
“WTW”数据集由Long等人在文献[63]中提出,包含10 970张训练数据和3 611张测试数据,涵盖了自然场景下的各种类型表格,如表单、发票等。数据集中包含表单元格边界和逻辑位置注释。
“Marmot”数据集由北京大学提出,该数据集由1970年至2011年的中英文会议论文组成,共有2 000幅图像。由于数据集具有多样性和非常复杂的页面布局,对于训练网络非常有用。在数据集中,正负样本比例大约为1∶1。该数据集包含表格边界的注释,主要用于训练表格检测任务。
2019年初,Li等人发布了“TableBank”,这是一个由41.7万张带有表格信息的标记图像组成的数据集。该数据集数据来源是在线爬取可用的.docx格式文档和从arXiv数据库收集的LaTeX文档。数据集中包含表格区域标注及表格结构的HTML标注序列,可用于表格检测和结构识别任务。
“SciTSR”数据集由Chi等人[66]发布。该数据集由15 000个PDF格式的表格及其注释组成。数据集是通过从arXiv中抓取LaTeX源文件构建的,大约25%的数据集由跨多行或多列的复杂表组成。该数据集具有表单元格空间位置信息、逻辑位置信息及单元格内容注释。
“PubTabNet”是Zhong等人[76]发布的数据集,是目前最大的公开数据集,包含超过56.8万个图像,每个单元格中都有相应的表和内容结构信息。该数据集是通过从PubMed Central开放存取子集(PMCOA)收集科学文章创建的,可在表格结构提取或表格识别任务中独立训练深度神经网络的完整参数。
Nassar等人[77]将“FinTabNet”数据集应用于结构识别,该数据集由S&P500家公司的公开利润报表和IBM公司的注释组成,其中包含89 646个页面,112 887个表格,91 596个用于训练,10 656个用于测试,10 635个用于验证。该数据集包含表格边界框和单元格边界框注释,可以用于表格检测及结构识别任务。
TNCR数据集由Abdallah等人[78]发布,是一个从开放访问网站收集的具有不同图像质量的表格数据集。“TNCR”包含9 428个带标签的表格,约6 621幅图像。该数据集可用于电子文档图像中的表格检测任务,并可将其分为5类,包括全框线表、跨行列单元格表、无框线表、半框线表、半框线且跨行列单元格表。
表格数据集的详细信息如表3所示。表3中提及的数据集均已开源,相应的下载地址已上传至GitHub,具体链接为https://github.com/xb012/Table-Datasets。
表3 公开表格数据集信息Table 3 Information of public table datasets
本章首先介绍一些常用的评价指标,并分别列举在表格检测和结构识别任务中的评估方法。其次,对上文提到的各类表格检测与结构识别方法进行结果对比。
(1)准确率(precision,P)
准确率定义为属于真实区域的预测区域的百分比,公式如下:
其中,TP表示预测区域与真实区域交集的面积,FP表示未与真实区域有交集的预测区域面积。
(2)召回率(recall,R)
召回率为预测区域中存在的真实区域的百分比,公式如下:
其中,TP表示预测区域与真实区域交集的面积,FN表示未被预测的真实区域的面积。
(3)F1分数(F1 score)
F1分数是通过准确率和召回率的调和平均值来计算的,具体公式如下:
其中,P表示准确率,R表示召回率。
(4)交并比(intersection of union,IoU)
IoU是目标检测中最常用的指标,通过将目标的形状属性(如宽度、高度、位置)编码成归一化度量来衡量预测框与目标框之间的相似度,因此具有尺度不变性[79]。其定义如下:
其中,AOR表示预测区域与真实区域交集的面积,AUR表示预测区域与真实区域并集的面积。
表格检测问题的本质是定位文档图像中的表格区域,回归表格区域的边界框坐标。图1展示了表格区域检测准确性的判定标准,其中绿色实线框表示真实区域,红色虚线框表示预测区域。
图1 表格检测标准示意图Fig.1 Sketch map of table detection results
表4展示了表格检测任务中各类方法的具体表现,以实验所用数据集和IoU阈值两方面对实验结果进行分类展示,以准确率、召回率及F1分数作为任务的评价指标。可以看出,随着思路方法的不断拓展,表格检测任务的实验结果也越来越好。在UNLV数据集上,其准确率由78.6%提升至91.4%(IoU=0.5);在ICDAR 2013数据集上,准确率由2018年的94.5%提升至了100%(IoU=0.5),分析原因,可能是由于数据规模较小,样本分布较为简单;在ICDAR 2017 POD数据集上,准确率由96.5%提升至97.8%(IoU=0.6),由94.6%提升至97.5%(IoU=0.8)。
表格结构识别任务是为了理清表格内行列及单元格的位置信息,采用准确率、召回率和F1分数对识别结果进行评估。图2分别展示了表格结构中行、列和单元格的检测标准,其中绿色实线框表示真实区域,红色虚线框表示预测区域。
图2 表格结构识别示意图Fig.2 Sketch map of table structure recognition
表5展示了表格结构识别任务中各类方法的实验结果。依据实验数据集和相应的IoU阈值对结果进行分类,以准确率、召回率及F1分数作为任务的评价指标。随着深度学习技术的不断发展,表格结构识别任务的实验结果也在逐步提高。在ICDAR 2013数据集上,结构识别的准确率已经高达97.5%。在ICDAR 2019数据集上,相应的F1分数也有了十分显著的提升,在2021年已达到了80.8%(IoU=0.6)和51.1%(IoU=0.7)。相较于其他数据集,各模型在该数据集上表现略差是由于该数据集包含现代与历史两种表格数据,且历史表格数据结构极为复杂,存在大量的行列信息,因此现有模型的效果并不理想,未来还有较大的提升空间。在SciTSR数据集上,其准确率已由2020年的92.7%提升至98.2%,提高了5.5个百分点。
表5 表格结构识别方法的实验结果Table 5 Results of table structure recognition methods
通过介绍当前表格分析领域的发展现状,结合表格检测与结构识别任务中模型的路径方法及实验效果,给出几点具有研究意义的发展方向。
(1)表格结构识别任务的改进建议
由于表格检测任务已实现极高的准确率,这里仅针对表格结构识别任务提出几点改进建议。借助于深度学习技术衍生出了很多方法,包括基于目标检测的方法、基于GNN的方法、基于RNN的方法等,并在上述方法中已取得了较为显著的成效。当前表格结构识别模型应该注重几点改进:①为有线表与无线表制定统一的特征提取方式。当前很多方法针对表格框线类型的不同,设计多处理分支提取表格特征,这无疑会导致模型参数量的增加。设计统一的特征提取方式,最大可能减轻框线差异带来的影响,将有助于模型的轻量化,降低模型的复杂性。②减少或去除图像的预处理步骤,降低额外的工作量。当前结构识别方法大多要求对图像进行预处理步骤,如图像增强、图像二值化等,这将导致实验过程的繁杂,无法实现端到端系统的设计思想。在网络设计时应考虑能够直接适应原始图像的需求,减少或去除预处理步骤。③提升模型的泛化能力。表格类数据包括科学论文表格、发票、收据、表单等多种类型,当前模型仅能够针对某一类表格进行处理,模型的泛化性不足。后续进行模型设计时应综合考虑各类数据特性,设计泛化能力强、鲁棒性高的通用模型。
(2)探究表单元格间关系的建议
当前表格分析领域重点针对表格结构识别任务,研究表格行列及单元格分布情况,对于表内单元格的内在关联鲜有研究。表格由单元格组成,单元格之间并非只有空间关系,还隐含着内容上联系。每个表格内的单元格都可以划分为标题格与内容格两类,而这两类单元格间存在着隶属关系,即内容格的内容受到相应标题格的影响,标题格对其所控制的单元格内容起到决定性作用。因此探究表单元格内部联系将有以下几点优势:①提升表格理解任务的效果。当前表格理解任务主要依据表单元格内的文本进行,通过文本编码,借助自然语言处理工具实现表格内容理解。在理清表格内单元格间关系后,可以将这类关系显式地加入表格理解任务,为表格问答等应用提供有力支持。②解决表格图像数据的存储与利用问题。通过表格检测和结构识别任务,可以将表格的整体结构理清,但仅仅有行列关系只能将表格按原始格式进行存储。借助于单元格内在关联的抽取任务,可以将表格内单元格按照键值对的结构进行存储,这将对后续数据的取用、表格的智能填写等打下坚实基础。
本文从表格研究领域的表格检测和结构识别任务出发,按照基于目标检测的方法、基于GNN的方法、基于DCN的方法等对上述任务的实现原理进行介绍,同时对上述方法进行路径方法和局限性分析。其次给出目前表格领域常用的表格数据集,并对数据集来源、规模、适用范围和数据类型进行了详细分析。同时列举了几类表格任务的评价指标,并对上文提及的表格检测和结构识别方法按实验数据集进行分类对比和展示。最后针对当前领域的发展现状对未来发展方向进行了展望。