便携式文档格式(PDF)由于其跨平台的通用性和文档原稿完全再现的独特优势,广泛应用于各行各业的电子文件交互中,成为了不可替代的电子文档标准格式之一,特别是各领域的科学出版物(如期刊杂志、学位论文和会议论文集等)的电子文献普遍采用PDF传输和存储。其中,表格作为最常见的可视化、高信息密度表示和构造数据的方法之一[1-2],经常作为PDF文献中数据呈现的主要方式和载体,如材料科学文献中材料成分数据、实验结果的表达、财经文献中金融数据的表达等。为提高对这些数据的处理效率,实现对数据的系统管理、共享和重复有效综合利用(如实现数据挖掘、构建数据驱动服务)及知识提取,经常需要设法取得这些表格中数据,即进行表格抽取。尤其是随着大数据技术的成熟和在各行业的渗透,这些PDF中的表格数据作为相关领域大数据的主要来源,越来越受到对应领域的大数据应用的重视,对PDF电子文件(特别是科技文献)进行表格抽取的需求也愈发强烈,推动了对PDF文件表格抽取技术的研究。
为此,本文通过综合中国知网、万方数据、Web of Science、ACM Digital Library和IEEE/IEE Electronic Library中有关PDF表格抽取技术的相关文献,收集了近二十年来关于PDF表格抽取研究的成果,介绍了最新的表格抽取系统研究进展,总结了PDF文献的表格抽取的主要方法,分析了不同方法间的优势和不足,指出了存在的问题和发展方向。
表格抽取虽是信息抽取(Information Extraction,IE)中必不可少的一环,但相关技术的发展远不及IE全面和成熟,特别是针对PDF文件的表格抽取技术仍存在较多的缺陷。由于表格可存在于不同数据源中,而在不同格式类型的数据源中表格对象的存储特点完全不同,因此针对不同格式进行表格抽取的方法也基本不同。目前绝大部分表格抽取研究集中在图像和Web数据源格式,而涉及PDF表格抽取的研究占比相对较少。国内有少量文献和专利研究了PDF表格抽取[3-17],但更多是关于PDF实体信息抽取。
表格既是一种可视化的知识表达模型,也能够简单明了地传达复杂数据之间的逻辑关系,同时具有物理结构和逻辑结构。物理结构描述了表格区域在文本中的具体位置,逻辑结构定义了表格的类型和单元格之间的关系。因此,表格抽取的过程主要包括:
② 表格结构还原,即重构表格的行和列,确定单元格数据之间的逻辑关系。对这两个过程用不同的处理方式便形成了表格抽取的不同思路。当前针对PDF的表格抽取研究出现了图1所示的三种主要的思路。
(1) 转化为标记语言格式来提取表格数据。PDF是无标记的文档结构,对表格没有明显的标识符,仅仅是文字和线条的无序集合。但标准通用标记语言(Standard Generalized Markup Language,SGML)对表格有明确的标签,因此,可借助工具将PDF转换为HTML或XML等标记语言的Web格式,然后依赖标记构建隐马尔可夫等模型(Hidden Markov Model,HMM)识别表格[18-20]并抽取信息。Pdf2table[1]是以这种思路研发的、较早的、完整的表格抽取系统,通过pdftohtml工具获得PDF表格并以结构化数据格式(XML)存储表格数据,但该系统严重受限于pdftohtml返回的结果。根据标记数据进行表格信息抽取的方法又大致可以分为基于启发式规则、基于本体知识、基于语义或数据特征三大类。这种研究思路依赖于学者自己对表格特征的理解和定义,需要在恰当的位置为表格内容加
标签,转换的过程中很容易丢失必要的信息,从而导致单元格数据之间的逻辑关系错误。(2) 将PDF转换为图片格式,依赖图像处理和字符识别技术进行抽取。由于图像处理相关技术日益成熟,从图像中分离表格信息的研究最多,主要根据表格框线特征和像素特征实现表格区域检测定位[21],利用光学字符识别(Optical Character Recognition,OCR)技术提取表格数据[22-27],当前越来越多的研究引入机器学习模型对表格抽取过程中的关键技术(如表格定位和表格重构算法)进行改进和完善。但该方法对文件转换后的清晰度有较高要求,且必须有表格实线才能正确地分离单元格信息[3],对三线表和表格行列不规则合并的情况却不能实现理想的表格结构和数据逻辑关系还原,而这样的表在科技文献PDF中比较常见。
(3) 直接针对PDF文件的元数据设计表格抽取算法。PDF1.7在2008年1月正式成为ISO标准(ISO 32000),其格式本身包含了大量计算机可读的元数据信息。比如PDF内容流(Content Stream)中包含了一系列描述页面外观和其他图形实体是如何呈现给用户的指令。直接利用这些信息设计算法,可定位表格区域并实现表格抽取。一般需要借助PDF文件处理工具解码PDF流对象,依赖于PDF元数据中的文本特征和图形特征进行表格识别并提取。
前两种研究思路需要对PDF格式进行转换。其中HTML需要对表格增加特别的标记,过程相对繁琐。而图像处理的相关技术比较成熟,因此也是当前表格抽取的主要技术,金山WPS等众多软件或百度供应商都提供了对应的支持工具,但也正因为其依赖于图像技术,一般需要通过手动[4]或人机交互方式[5]识别表格,自动化程度也受到影响。同时文件格式转换的过程中难免丢失信息或引入噪声,使抽取效果大打折扣。相比之下第三种思路更容易保证表格数据结构信息的完整性,容易实现自动化。尤其是自2005年Adobe推出PDF1.6以来,出现了很多直接利用PDF文件信息即第三种思路的表格抽取研究,又主要集中在表格抽取的算法设计和性能评估两个方面,以下重点总结第三种思路下这两方面的研究进展。
2 基于PDF元数据的表格抽取研究进展
2.1 表格抽取的算法设计
有效检测文档中的表格区域,实现表格准确定位是进行表格数据提取的关键一步。根据表格定位算法设计的出发点不同,可将现有的基于PDF元数据的表格抽取研究分为基于表格布局特征和基于启发式与机器学习结合的方法两大类。
2.1.1基于表格布局特征的抽取方法
表格具有强烈的视觉效果和完全不同于正文的内容布局,人们一眼就能从数千万个页面中迅速判断并定位表格,但是计算机不具备这样的识别能力。目前PDF中的表格按照框线类型可分为三大类:同时具有横线和竖线的全框线表格,只包含横线的表格(比如常见的三线表)和横竖线任意缺失的表格。同一领域内的表格在结构和布局上具有一定程度的相似性,如行或列中的数据类型和精度保持一致、行和列的完全填充、单元格之间大量的留白等,学者们试图根据这样的内容布局特征实现表格抽取。通过将文本按一定规则切分为文本块,聚类成候选表格区域,然后结合预定义的表格布局规则实现对候选区域筛选。如2018年6月更新的Tabula表格抽取系统[28]是这种方式的代表,但其自动定位表格区域的准确性不高,更依赖于手动框选表格区域。
根据每个人抽象出的不同纬度的内容布局特征,定义不同的文本分割、聚类和筛选规则,可大致分为图2所示的三类表格抽取方法。
图2 基于表格布局特征的表格抽取原理示意图
(1) 基于表格的整体布局。从整体上看,表格就是由若干数据格子分门别类进行排序组合,以便于统计和查阅。相比正文段落的字符密度,表格行的数据密度相对较小,呈现松散且有序。根据松散性和行间距,可将页面上文本的字符按照一定规则分割为不同的文本区域,预设表格布局定义[6-7]对其进行筛选,获得可能的表格区域。如文献[27]定义了三种常见的表格布局,提出了一种基于矩形包容原则的搜索方法。根据表格布局规则(比如表格的行在高度上应该是一致的)来过滤已找到的候选表。但是该算法受限于预先定义的表格布局,而且输出结果存在大量的假性表格。
(2) 基于表格框线。表格的框线形式存在多样性,但实际应用(尤其是科技文献)中一般不存在没有任何一条横竖线的无框线表,应用最多的是三线表。线条可能作为单元格数据间的分割线,也可能是划分表格区域和其他内容的边界,因此可利用表格框线界定表格区域[9]。PDF标准规范中的线条被单独封装在图形对象中,可通过筛选直线或矩形绘制命令[7-8]找到相应的线条特征。该方法相比于只利用布局特征的方法有更大的优势,但是对图形对象绘制路径信息提取的完整度有较高要求,否则会出现表格误判。
文献[8]结合了视觉分隔符(包括横竖线和表格中无规则的空白)和内容布局结构分析实现表格定位。总体来看,基于表格框线特征的抽取方法[8-11]都依赖于线条绘制命令,要求准确地获取PDF图像绘制命令中的表格框线部分,对于无关线条(如页眉、页脚)的筛选和过滤直接影响表格定位的结果。尤其是文献[12]特别依赖横竖线的交点来划分单元格,无法处理只有横线的表格。为弥补单一的表格框线筛选存在的不足,文献[13]增加了表格标题行的语义检索,采用区域并行生长的思想同时对文本行和表格线进行筛选,一定程度上减少了表格区域的漏判和误判。
(3) 基于PDF文本流。PDF文件以页为单位,页与页之间彼此独立,每页中与文字相关的信息(如文本位置、字体字号等)以流对象的形式存储,即文本流(Text Stream),是PDF内容流的重要组成部分之一。由于PDF是面向显示的,页面上的每一个对象都有确定的位置坐标,保证其在不同平台上显示的唯一性。文本确定的外观特征和先后顺序在PDF文本流中都有对应的操作符和操作数,解码文本流即可得到每一个字符详细的文本状态参数信息,包括字体、字号、字符间距、位置坐标等。因此基于PDF文本流可将表格内的文字流节点从水平和垂直两个方向分别进行栅格化[14-15],把无结构化的文字信息归位形成文本块,从而筛选得到表格内容[16-17]。文献[29]研究了针对无标记PDF的表格结构识别的系统配置,开发了一个PDF表格抽取实验Web应用程序。
基于PDF文本流的表格抽取方法不依赖表格框线的识别,但是需要用户在屏幕上手动框选待重现的表格区域[14],是在已确定表格物理位置的情况下完成表格重构的工作,而且对于单元格合并的情况其理解程度也不高。
2.1.2基于启发式与机器学习结合的抽取方法
不同于基于内容布局特征的方法完全预定义了表格可能的呈现形式,启发式是根据表格的某些特征提供一些可能的假设,引入机器学习模型训练数据集来帮助系统做决策,其灵活性和适应性大大增加。相比之下,基于启发式与机器学习结合的抽取方法[30]对于常规的清晰表格可以获得更好的结果,因此被更多学者应用到表格抽取的研究当中。如最新的基于Tabula库设计的Table-Pedia[31]系统,结合了启发式和机器学习方法,实现从PDF收集、表格抽取到实验数据库构建和操作的全过程。
文献[32]基于表格的“稀疏线”特征,引入条件随机场和支持向量机来优化表格定位的算法;而文献[33]首先设计启发式规则来标记数据集,利用远程监控技术自动生成带注释的数据。通过标记的训练集来训练监督朴素贝叶斯、逻辑回归和支持向量机模型对表格区域的边界预测;文献[34]则结合松散规则选择一些类似于表格的区域,通过构建和改进的卷积神经网络来确定所选区域是否为表格。文献[35]提出的基于启发式和无监督学习的表格识别方法不需要手动标记任何的训练集,可以灵活地适应新的输入统计数据,而不需要重新培训模型。但其只能定位到存在表标题的表格区域,并且在表格结构抽取阶段,行和列以相同的对称方式进行分割的方法对提取多样性的表格布局来说不够灵活。
总体来看,支持向量机能够对非线性可分或不可分数据集进行分类,而且所需的训练样本数量较小,正好满足了PDF表格抽取无法提供大规模训练样本的现状,因此被最多地采用。
综上所述,基于表格布局特征的抽取方法受限于规则的预定义,其灵活性不高。一般基于项目本身的需求来设计算法,不会将表格布局所有可能的情形都考虑周全,导致算法在一定情形下的实现效果可能较好,但适应性不强。基于启发式与机器学习结合的抽取方法通常需要较复杂的后处理环节,启发式特征的选择和训练数据集的质量决定了最后输出结果的好坏。
2.2 表格抽取性能评估的研究现状
表格抽取作为IE的子任务之一,表格抽取算法或系统的性能评估是一个不可忽略的问题。绝大部分的文献在算法研究之后以常规的召回率、精确度或F-Measures为评价指标验证其性能。由于表格结构的特殊性,这些常用的指标并不能准确反映表格抽取算法的性能。专门研究表格抽取算法性能评估的文献较少,以下总结相关的研究成果并分析存在的问题。
国际文档分析和识别大会(International Confe-rence on Document Analysis and Recognition,IDCAR)组织的同名竞赛是关于文本识别和分析问题的最重要的国际赛事。IDCAR于2013年设立了一项在原生数字PDF文档中进行表检测和结构识别的竞赛[36],该赛事提供了统一的数据集,第一次尝试客观地评估表格抽取技术的性能。但IDCAR提供的PDF文件数量较少,而且每一个文档对应一个XML文件以确定表格的位置,无法衡量其评估的系统对无注释无标记的文档是否也具有相同的性能。
现有的表格抽取技术性能评估框架主要集中在表格定位和表格结构识别的过程[3],试图分阶段建立表格处理的输出模型[37]和评价指标,而忽略了单元格数据的类属关系是否被正确解释。针对表格抽取的结果,文献[38]提出了一种新的度量方法,称为表格一致性,自动生成计算关于单元格的数量、内容、拓扑结构和索引结构的查询,用于识别器输出和基本事实的逻辑表格结构编码,通过搜索其他表格编码来验证或反驳查询,定义已验证查询的百分比。
Silva[39]基于召回率和精确度引入了一致性和纯度的概念,作为定义所有分割任务的评价指标。Shahab等[40]提出了分别在多个级别使用精确度和召回率测量的方法,包括单元格、行、列和区域。Hu等[41]提出基于编辑距离的方法,以“插入”“删除”“替换”分别描述表格区域的误识别、未识别、合并拆分错误,用被操作的行数表示代价函数。但该方法的局限性在于最后的输出只有唯一的代价值,不便体现各种错误类型发生的情况。Li等[42]和Wang等[43]提出了相似的评估方法,通过比较检测到的表格区域面积与文档基准中的表格区域面积,计算其重叠率或面积比率作为评价指标。但是不同的表格抽取算法对表格区域的定义存在差异,比如是否包含表格标题等,造成抽取的表格面积具有多样性,会直接影响计算结果。房婧等[6]构建了一个公开的等比例中英文数据集,并对数据集标注基准结果,建立了一套面向应用的细粒度评估准则。定量描述了6种表格定位错误类型,计算新意义下的准确度和召回率。但是该评估方法没有考虑具体的表格物理和逻辑结构。
总的来看,表格抽取还没有标准的评价程序和方法,相关研究不够系统和深入,也可以说是还没有得到重视。更多的研究是停留在解决表格抽取的问题上,至于抽取性能的好坏带有研究者较多的主观意识。
3 现有表格抽取技术的发展需求分析
3.1 表格抽取的发展需求
(1) 急需全自动化的表格抽取方法和系统。实现全自动化PDF文献表格提取是主要需求趋势之一。“表格”没有客观的、确定的、唯一的定义,只是一种组织整理数据的手段,一种可视化的数据表达模型,无法用数字或公式来量化,这无疑增加了计算机“读懂表格”的难度。而随着大数据的构建需求,需要高效地从大量的PDF文献中提取表格,不可能对每一个PDF文献的表格进行手工定位、交互式选取和再提取,因此需要诉诸自动化提取方法和系统。如Rastan等[44-46]推出了完全自动化的表格处理系统TEXUS,该系统融合了一个端到端的表格处理框架,扩展了传统表格处理概念的范围,增加了PDF包装器模块和表格理解模块,以帮助语义上正确的数据抽取。
(2) 不同的表格抽取研究思路仍将并存发展。从目前的研究进展来看,图1提及的三种表格抽取研究思路各有优劣,皆不能完美地解决所有的PDF表格抽取问题。尤其是在表格重构的过程中,还没有一个高效、成熟的算法或系统能够实现对所有单元格类型和结构的正确还原。因此,从不同的研究角度出发(如标记数据、转为图片或直接解码PDF文件),应用不同的工具和技术手段来解决表格抽取问题,多个研究思路仍将并存发展。受需求(1)的驱动,基于PDF文件元数据的抽取方式可能更适合自动化,具有更大的发展前景。而第二种思路由于可与提取PDF文献的主要文字内容结合,也将被广泛应用。而无论哪种思路,如何提高提取的准确性(数据正确、逻辑正确)仍然是主要需要解决的问题。
(3) 结合机器学习等人工智能算法是未来的发展趋势。表格布局的多样性:① 每一张表格的数据格式和结构布局,并没有统一确定的标准;② 不同的数据类型,不同作者的表达习惯和不同受众的需要,单元格存在不同级别的若干行或列合并,表格横竖线可能任意缺失;③ 表头的具体位置也不确定,可能是第一行或第一列,可能是复合表头,也可能和表格内容交替出现。对表格重构和单元格间逻辑关系的理解增加了难度。用一般性来概述表格布局的任意性,其结果肯定差强人意,适应性不强。为此,随着与机器学习有关的科学研究空前活跃,相关算法日益成熟,结合机器学习等人工智能算法来提高表格抽取灵活性已成为趋势和手段。比如:第一种研究思路通过无监督学习或半监督学习对PDF元数据进行标记和注释[32,47],实现从标记数据中抽取表格;第二种研究思路利用深度神经网络等算法模型直接作用于图像,检测表格;第三种研究思路以支持向量机为主要方法应用于表格抽取过程中。接下来,通过合理改进和优化人工智能算法,结合表格独有的显示特征,以构建更完善的表格抽取技术仍是未来的发展趋势之一。
(4) 实现学科领域性的表格抽取是重要的技术需求。对同一张表格,不同人的理解并不相同,不同学科应用背景下表格标题、框线和内容三部分不一定都完整存在。不同的算法中会限定不同需求的表格形式,如文献[2]定义的表格区域包括表格标题,文献[29]不关心表格框线,而文献[32]既不关心表格框线也不考虑表格标题,只对满足“稀疏线”特征的低密度文字行进行标记。故最后的表格抽取结果受限于学科背景和学者自身对表格的主观理解和定义。
更为突出的是,随着数据的积累和大数据技术的发展,行业(或者特定领域)大数据的复用和应用将居首位,但各行业间的知识、数据特征等各不相同。而现有的表格抽取方法考虑的都是常规的表格特征和布局,显然通用的表格抽取技术在特定的学科领域实现表格抽取的效果并不好。因此,面向特定的学科领域和特定需求构建有针对性的PDF表格抽取算法将是未来的研究方向。以制造行业为例,基于数据驱动材料研发,发展材料信息学(Materials Informatics)[48],助力先进制造已成为重要的议题。材料信息学强调对材料科学中的知识和数据,特别是对已有的计算数据和实验数据进行系统管理,需要高效地从已有PDF材料研发文献中获取实验数据。在生物学、物理学、军事、金融、通信互联网等各行业同样重视数据信息的管理,故表格数据的抽取是不可忽视的技术需求之一。
未来的研究可具体到某一个特定的学术领域或者基于学术领域知识的表格提取方法,结合其特定的理论知识和公理,设计领域内的知识情景模型(如制造领域的工艺参数范围可用于判断提取数据的重构)、本体(可应用于侦测表格的内容)和表格抽取算法,增加语义,不但能提高效率,也能有效避免表格多样性带来的表格预定义不完全的问题、表格提取数据的逻辑正确性问题等。这相比通用的表格抽取技术也许会有更显著的优势。
3.2 性能评估的发展需求
表格抽取的标准评价方法还没有得到很好的发展[45],多年来应用最为广泛的是信息抽取中的召回率、精确度和F-measure来衡量系统的性能。但是单从以上指标来比较两个算法的优劣并不恰当,因为表格抽取不仅要求准确获得表格数据,还涉及到单元格数据的对应关系是否准确,跨页表格的提取是否完全等更多结构上的细节内容。特别是在单元格识别中,单元格的结构和组织方式直接决定了表格的逻辑关系和数据之间的联系,会出现各种需要单独考虑的错误。比如:单元格可能向任意一个方向拆分,也可能向另一个方向合并,错误的识别和重构会导致歧义[49]。 因此,构建一套完整的、客观的、适用于表格抽取的评价指标体系是未来性能评估发展的迫切需求和研究热点之一。
此外,不管是算法测试还是性能评估,各研究都是基于各不相同的PDF数据集,有的是扫描PDF图像文件,有的是PDF早期的版本标准。没有统一的数据集使得不同研究的实验结论无法直接用于比较不同算法之间的差别和优劣。目前公开公用的数据集UW-3中包含一部分表格区域的基准[6],但是该数据集是针对图像页面而设计,适用于页面布局分割领域,不适用于版式文档的表格定位。北航和微软亚洲研究院联合创建了一个多达41.7万数据量的开源表格检测和表格结构识别数据集TableBank[50],但是该数据集是对Word文档和LaTex文档进行弱监督而建立的,主要针对从图像中检测和识别表。因此,构建一个公开的标准数据集成为未来性能评估工作的基础。
4 结 语
大数据时代是信息科学技术发展的必然。数据不仅仅是存储在计算机中的一个符号,它已经完全渗透到了当今社会的每一个行业和个人,与人们的生产生活息息相关。表格作为传达数据的重要形式之一,存在于海量的PDF文件中,是大数据的重要数据来源。研究获取PDF中的表格数据能有效地帮助学科构建数据库和实现数据系统管理,特别是对于科学研究方面更是如此。
现有的表格抽取技术主要形成了转化为标记语言格式,转化为图片和基于PDF元数据三种研究思路,但各有优势,未来仍将并存发展,而基于PDF元数据更易实现自动化。基于PDF元数据的方法主要是根据表格内容布局设计筛选规则,或选择表格特征设计启发式算法,利用机器学习训练数据集。现有方法在提取准确性,尤其是科技文献的表格数据逻辑性方面都还达不到要求,无法适应多学科领域的专业的表格提取,而对于表格抽取算法的性能评估尚处于探索阶段。
随着复用PDF文件中的数据和基于PDF文献来构建大数据等需求的推动,未来更需要全自动化的高效提取方法和系统。同时,需要结合各学科领域的公理、知识,构建情景模型、学科背景的表格特定规则等方式来提高表格提取算法对学科语义的理解能力,满足对学科领域的表格的提取需求,并将其模块化,便可以灵活地更改应用到其他的领域。辅之机器学习等人工智能方法加强不同领域情景知识的学习,以提高其智能适应性。在此基础上,结合学科知识搭建语言兼容、性能稳定、精确度高的人工智能PDF表格抽取系统。这对实现国内外大量科技文献中表格数据的重用和共享具有重要的现实意义和价值。