丁培 叶兰
收稿日期:2020-10-10
基金项目:广东省哲学社会科学规划学科共建项目“支持深度知识发现的文内数据与文献关联研究”(项目编号:GD18XTS07);教育部人文社会科学研究青年基金项目“基于成熟度视角的高校图书馆科学数据管理服务能力评价研究”(项目编号:19YJC870028);国家社会科学基金项目“科技论文全景式摘要知识图谱构建与应用研究”(项目编号:19BTQ61)。
作者简介:丁培(1987-),男,馆员,博士研究生,研究方向:知识组织,科学数据管理。
通讯作者:叶兰(1983-),女,副研究馆员,硕士,研究方向:数字图书馆,科学数据管理。
摘要:[目的/意义]科研用户需要学术图表助力精准知识发现服务。图表标注是学术图表融入学术知识发现体系需要解决的核心问题。[方法/过程]定义学术图表标注范畴,以历史研究为脉络,梳理学术图表发现研究及实践发展阶段,重点研究图表标注的两个核心问题:图表标注组织和图表标注实现。[结果/结论]总结现存研究问题,指出基于本体的学术图表自动语义标注是支撑未来大规模学术图表精准语义发现的图表标注形态。未来还需要在学术图表本体构建、学术图表异构信息抽取等方面深入开展研究。
关键词:科技文献;学术图表;图表标注;知识组织;信息抽取;语义标注
DOI:10.3969/j.issn.1008-0821.2021.04.017
〔中图分类号〕G254〔文献标识码〕A〔文章编号〕1008-0821(2021)04-0165-13
Research Progress of Academic Figures and
Tables Annotation in Scientific Literature
Ding PeiYe Lan*
(Library,Shenzhen University,Shenzhen 518060,China)
Abstract:[Purpose/Significance]Researchers need academic figures and tables to facilitate precise knowledge discovery services.Academic figures and tables annotation is a core problem to be solved when academic figures and tables are integrated into academic knowledge service system.[Method/Process]The authors define scope of academic figures and tables annotation.Taking the historical research as the context,the paper sorted out the development stage of academic figures and tables discovery in research and practical dimension,and then focued on the two core issues of academic figures and tables annotation:annotations organizational structure and annotating implementation.[Result/Conclusion]On the basis of summarizing the existing research problems,the paper pointed out that ontology-based automatic semantic annotation of academic figures and tables was the form of academic figures and tables annotation supporting the accurate semantic discovery of large-scale academic figures and tables in the future.In next,further research should be carried out in academic figures and tables ontology construction and heterogeneous information extraction of academic figures and tables.
Key words:scientific literature;academic figures and tables;academic figures and tables annotation;knowledge organization;information extraction;semantic annotation
學术图表大量存在于科技文献中。相关研究统计发现,学术图表正成为STEM期刊论文标配内容[1-2]。学术图表是一系列、多步骤科学研究过程的最终产物。它被作者用于体现不同的用途,如多维指标对比(表),复杂对象论证(复合图),特殊对象展示(DNA图),直观实验展示(照片、成像图),对比/趋势/统计数据分析等,助力读者直观理解论文,提供比正常摘要更多的信息内容。通常STEM论文中,重要的科学研究结果需要借助图表解释说明;另一方面,读者通过阅读查看文献内学术图表评估文档的相关性,并借助图表信息来提高检索效率。同时,相当部分的学术图表和学术研究中产生的科学数据同源,甚至是科学数据精华所在,因而学术图表成为科技文献和科学数据间关联的纽带。总之,提供给定信息快速发现相关学术图表成为科研发现中越来越重要的需求。
学术图表具有表现类型多样化、信息内容高度浓缩、与科学文献内容高度相关的特征。类型多样化带来图表识别挑战,信息内容高度浓缩需要构建有效的模型来帮助知识呈现,而与科学文献内容高度相关则带来异构内容融合发现及建立文本内容与图表间关系的问题。这些致使学术图表检索发现难以融入当前学术知识发现体系。
未来学术知识服务体系需要细粒度知识组织、基于语义的知识关联、面向全资源类型的知识发现以及有效支持智能问答、意图精准刻画的认知计算。学术图表作为重要的学术知识表现对象,要融入未来学术知识服务体系,则需要解决学术图表标注这一關键瓶颈问题。
1学术图表标注
“标注”一词的含义很多,如标注是对文本特定部分所添加的形式注释[3],又如附加数据到其他类型的数据[4],笔者认为标注是为数字对象(包括文本对象和非文本对象)添加注释数据,这些注释或是自身内容语义深度挖掘,或是系统化组织,或是与其他对象关联,其目的是增强人或机器对数字对象理解。学术图表标注指为科技文献中的学术图表添加形式化或形式化语义注释内容的过程及结果,其目的是理解学术图表,发现学术图表。
根据形式不同,标注可分为非形式化标注(如手写笔记)、形式化标注及语义标注3种。形式化标注和语义标注按照一定的信息组织模式,均可用于机器理解,其中元数据组织标注作为一类形式化标注,已广泛应用于计算机信息处理和信息资源发现过程中。形式化标注解决简单的图表语义描述问题,但其灵活性同时产生“信息孤岛”,因此无法解决资源集合之间的相互关系问题,这需要语义标注的帮助。
语义标注是指为信息资源增加形式化、语义注释,其形式化语义内容来源于本体(此处本体涵盖领域叙词表等语义组织体系),为信息资源提供标准化、形式化、抽象化的描述,也称之为基于本体的语义标注。语义标注既是表示本体知识转化为语义注释的过程(包括信息抽取和实例标注),也是上述过程产生的语义注释数据。通过语义形式化描述,它能帮助解决不同资源集合因不同描述产生的难以关联问题,同时它将信息资源所隐藏的语义知识显现地揭示出来,使这些内容更加容易被发现、关注及应用。学术图表的语义标注是指基于本体对科技文献中图表信息内容实施语义组织、揭示语义关联,形成语义标注内容。
2学术图表发现历史
早在20世纪末数字图书馆兴起之时,Bishop A P研究者就尝试通过搜索特定期刊文章组成部分(图、表格标题以及表格文字)来支持检索科技期刊文章[5]。Futrelle R P发现在生物学领域中将近50%的论文文本内容与图形相关[6]。Stelmaszewska H等研究计算机科学家阅读文章行为及需求时发现,用户阅读文章时会重点查看图、表、公式等非文本内容,以此快速评估论文是否符合自身需求[7]。CSA通过期刊论文组件索引及检索系统用户需求的调查发现,在检索系统内搜索表格、图形、图表和地图对研究、教学均非常重要,期刊文章中包含的表格及图像能使判断文章的相关性变得更加容易。此外需求分析还发现用户要求在支持图表检索的系统应具有高精准度、灵活的检索页面、支持联邦检索、提供无缝的论文获取、提供用于处理符号和支持符号检索的标准化解决方案等功能[8]。
学术图表的文本及视觉异物特征致使学术图表的发现研究演进分化成两条研究路径。路径一以学术图表所涉及的文本信息为语义来源,通过信息抽取、知识组织将来源信息转换为形式化标注内容,进而实施图表发现。路径二以学术图表自身的特征内容(既包括图像视觉特征,也包括图表内文本特征)为语义来源,借助信息抽取和视觉识别等技术,并通过知识组织将来源信息转换为形式化标注或语义标注内容来实现图表发现。表1对部分学术图表发现研究进行了对比。
历经数十年的发展,学术图表发现经历了三方面的转变,分别是发现对象从单一表或图转向综合性的图表,语义来源从简单的标题等内容扩展到多模态信息复合,检索支持从单一的关键词检索到关键词检索复合图表分类及关联发现。从发展历史看,学术图表发现总体经历三阶段的发展变化。
第一阶段的发现研究主要关注于单一图或单一表的发现,语义来源较为简单,如标题、表条目、图特征等,通过元数据方式组织所抽取信息,并提供基于关键词的检索发现。第二阶段的发现研究将学术图表作为统一发现对象,语义来源扩展到图表上下文,图表所在论文的元数据信息。此阶段以元数据组织方式为主,配合以关键词检索。第三阶段尝试融合路径一和路径二,将学术图表的文本特征、视觉特征、外部关联信息综合为语义信息来源,借助信息抽取、视觉识别、机器学习等技术,基于元数据、图表分类等组织方式形成形式化标注,并提供关键词、简单分类、主题语义等多维的图表发现方式。
通过历史研究发现,无论哪个阶段,学术图表发现需要借助标注实现,而标注需要解决两个核心问题:图表标注组织和图表标注实现。前者为学术图表标注提供结构化、形式化内容组织框架,帮助人和机器理解图表的语义,后者通过技术建立学术图表语义来源信息和组织模型间关联,并转换为结构化标注内容。
3学术图表标注组织
学术图表发现过程需要将图表涉及的将杂乱无序的语义信息来源内容转化为有序、结构化的形式标注内容,这一过程需要标注组织框架的帮助。现有学术图表标注组织框架涉及元数据组织、图表分类组织及本体组织3种方式。
3.1元数据
元数据通过结构化描述,对具体的情境进行定制化的解释,实现对资源的组织、发现、互操作、归档和保藏等。基于其表达的多样化、灵活、门槛低的优势,元数据是最早应用于学术图表标注的信息组织方式,也是实践中应用最多的方式。
TableSeer[13]将学术表格信息组织为表格环境元数据(如文档类型,表格所在文档页码,文档标题等)、表格框架元数据(记录表格四周是否有框)、表格附属元数据(表格标题、脚注、参考文献)、表格布局元数据(如表宽、表长、行数、列数、分割线等)、表格内容元数据(表格中的值)、表格内容类型元数据(数值或非数值)等五类元数据。
CSA[14]通过深度索引技术,抽取文献中的表格、图片等数据,人工标引其元数据。标引的元数据框架包括图表标题、图表类别、DOI、地理术语、文献作者、文献标题、文献摘要、期刊名称、文献主题等。
PMC[18]同样基于元数据方式对论文中的学术图进行增强表示,其学术图的元数据包括图标题、图注、图所在文章DOI、文章出版时间、同文图片等。
CNKI[19]单独抽取科技文献中的学术图片,使用15个元数据项描述图片信息,包括图片ID、图片标题、图片说明、图片关键词、图词、分类、图片尺寸、图片大小、图片清晰度、图片页码、图片地址、同文图片、语义相关图片、读者推荐图片。
Open-i[22]是NIH开发的科研图片数据库,综合来自Pubmed Central、Medpix、USC Orthopedic Surgical Anatomy、Images from the History of Medicine(NLM)、Indiana U.Chest X-rays等来源的科研图片,其中Pubmed Central集合均是科技论文中的学术图。其元数据组织内容包括图片标题、图片注释、图片上下文提及文本、图片分类、论文标题、论文摘要、所属机构、期刊名称、MESH主题扩展等。
3.2图表分类组织
图表分类组织针对图表视觉特征,从图表类型上组织学术图表信息。早在20世纪80年代,遥感领域[25]以及医学领域[26]就研究各自领域中的学术图像分类。图表分类组织依赖计算机视觉识别和机器学习技术,而组织体系尚无通用性的标准,研究人员基于任务需求、领域特征、分类算法建立不同的图表分类组织模型。表2列举部分研究使用的图像分类组织模型等信息。
3.3本体组织
本体是一种形式化组织方式,通过赋予异构数据以统一的语义信息,使得机器能够理解信息并自动处理信息之间的语义联系,从而提高异构数据之间的互操作性。
学术图表作为文献的重要组成部分,较早出现于文献组织本体中。DoCo[32]、Discourse Elements Ontology(DEO)[33]等文献本体将学术图表作为单独类目描述。学术图表类目仅描述图表标题、注释(Lable、表格框Box)等内容。科学论文功能单元本体[34]尝试组织学术图表上下文内容,将其组织数据分析、数据描述内容,并匹配学术图表的知识类型属性(如确定性程度、情感倾向、来源),但未进一步细粒度分解学术图表内容。
学术表格有固有组织特性(横纵坐标分明),因而部分研究者采用自定义本体或者领域本体来对其进行语义组织。Madin J等构建了可扩展的观测本体(Extensible Observation Ontology,OBOE),该本体由观测、度量、实体、特征和度量标准5个核心概念构成,不仅可以描述每项观测变量的上下文环境以及观测值之间的相互关系,还支持鲁棒性的单位描述和换算以及领域词汇扩展[35]。开放城市数据平台利用城市数据模型本体(City Data Model Ontology)将不同来源的数据转换为RDF数据,转换时根据一维表数据的特点(每一行对应一个城市和每一列对应一个统计指标),将每一行的数据映射到CityDataContext类的一个实例,每一列映射到一个属性[36]。
领域叙词表利用“用、代、属、分、参、族”等关系对领域知识实施形式化组织,可看作一类简单的领域知识本体。部分研究人员尝试利用机器视觉识别、自然语言处理、机器学习算法等技术,结合领域叙词表对学术图表实施语义标注。结构化文本图片发现系统(Structured Literature Image Finder System,SLIF)最早尝试利用叙词表语义组织图表。它关注生物文献中的显微镜成像图,通过机器视觉识别的方法来发现成像图中的基因、蛋白质概念[11]。Human Brain Project(HBP)将大脑成像图片的特定区域和受控词表中的概念关联[37]。EMAP(The Edinburgh Mouse Atlas Project)利用解剖学词表概念对老鼠胚胎的3D图片和2D组织切面进行标注[38]。
笔者早期研究学术图表的专门本体组织,将学术图表的视觉信息、内外文本信息、学术图表的外部关联信息作为增强信息来源,梳理异构信息间语义关系,基于Protégé工具构建简单文内数据本体框架[39]。后续基于语义标注任务构建水稻领域的学术图表知识库,并将其应用于学术图表发现任务中。
3.4知识图谱
知识图谱(Knowledge Graph)是近年以来的热点,它是一種知识表示方式。学界对于知识图谱并没有明确的定义。有研究者认为知识图谱是一个知识库,如Rospocher M等认为知识图谱是从结构化知识库或百科知识中抽取实体组成的事实知识库[40]。部分研究者认为知识图谱是基于图的知识表示方式,如阮彤等定义知识图谱是模式图、数据图及两者关系组成的图[41]。还有研究者把知识图谱认为是一个本体,如认为知识图谱是由实体、实体类型、属性及关系构成的大型网状网络[42]。Paulheim H等认为图谱包括实例A-box和模式T-box,其中A-box数据量远大于T-box[43]。
本研究认为知识图谱是包含大量实体、关系、属性的结构化知识系统[44],它既包括模式层面的本体组织,也包括数据层的语义标注知识库。简而言之,知识图谱包括本体和本体约束的实例内容(可称为知识库),本体为图谱提供抽象表达,知识库是本体的实例化。基于知识范围,图谱分为通用知识图谱和行业知识图谱两大类[45]。通用知识图谱如普林斯顿大学的Wordnet、谷歌的Freebase、维基百科的Dbpedia、微软的Concept Graph等。行业知识图谱如地理领域的Geonames、生物领域的UniprotKB、脑科学领域的Linked Brain Data知识库、旅游领域的中国旅游景点知识图谱等。学术资源领域也有知识图谱应用,如微软学术知识图谱(MAKG)[46]、Springer Nature SciGraph[47]、学者网知识图谱[48]、TechKG科技知识图谱[49]等。目前暂未发现面向学术图表知识组织的知识图谱。
图表标注实现的2个重点问题分别是学术图表语义来源信息如何获得,如何将无序的来源信息转换为结构化语义内容,简单而言,即信息抽取和实例标注。
4.1图表信息抽取
信息抽取的覆盖面及精准度直接影响到学术图表标注的范围和效果。学术图表语义来源信息构成较为复杂,包括3个方面内容。第一方面内容来自图表本身,如图表类型、图表内文本及数据(数据点、坐标轴、图例、图内对象)等;第二方面是图表内容信息,包括图表标题、图表注释、图表上下文等;第三部分是图表扩展信息,此部分信息能够扩展图表发现范围,发现更多隐性关联。包括论文信息、数据信息等。不同研究者基于不同来源信息对图表实施信息抽取任务,具体而言可分为学术图表自身信息抽取、学术图表内容信息抽取、学术图表扩展信息抽取。
4.1.1学术图表自身信息抽取
学术图表自身具有视觉信息和文本信息共存的特性。视觉信息一方面可用于增强表示为学术图表类型;另一方面部分类型图像视觉信息可以用于实体或概念标注(如成像图、蛋白质序列图)。文本信息(如坐标轴、图例、图内注释等)则用于细粒度的知识描述。
1)图像视觉信息抽取
视觉信息的抽取和标注通常结合在一起。抽取视觉信息标注图表类型在3.2部分已有阐述。部分研究者针对照片、医学图像、成像图等类型学术图像,基于底层视觉信息,将视觉特征和文本特征共同考虑,利用视觉单词或者领域术语来对图像进行标注。Shamna P等将视觉信息位置信息补充到主题模型算法LDA中来抽取图像视觉单词,提高医学成像图的检索精准度[50]。Kurtz C等基于图像的颜色、位置、边缘等特征,使用支持向量机(SVM)和Riesz小波自动学习方法,从医学本体中自动注释放射图片[51]。深度卷积神经网络在大规模视觉对象识别任务中获得了广泛的普及,尤其是在通用图像检索和医学图像检索任务的多模(文本特征、图像特征)特征学习上表现优异[52-54]。
2)图像文本信息抽取
图像文本信息抽取可归纳为4个步骤。
第一步是文本检测,测定图像中文本存在。蒋梦迪等总结现存6种文本区域检测算法:基于边缘、基于纹理、基于连通分量、基于笔画、基于深度学习和其他算法[55]。
第二步是文本定位,确定图像中文本位置并且生成文本边界框。颜色、边、纹理特征及文本特征是文本定位常规使用的特征,点、区域、角色外观等特征也被部分研究者关注和探索[56-57]。
第三步是文本分割阶段,从图像背景中分割文本,提取字符块精确轮廓[58]。鉴于学术图像分辨率偏低的特点,此过程容易产生噪音,需要进行文本图像增强。
第四步是使用光学字符识别OCR技术将提取的文本图像转换成纯文本。
3)图像数值信息抽取
对于统计类型图像,研究者不仅研究文本抽取,还研究图内数据提取。学术图像的数据提取可以分解为多个任务。在经过文本检测和识别步骤获得坐标轴标签、图例、数据点值后,需要建立数据标签和数据内容之间的对应关系。已有学者研究不同类型图表的数据内容提取,并尝试开发相应的数据提取工具。数据提取工具对比如表3所示。
4)表格文本信息抽取
表格中文本抽取分两类方式。一类是将表格转换为图片格式,基于圖像文本抽取步骤实施;一类是基于表格特征抽取表格文本。
表格特征指表头、数据区的布局、文本特征,当前基于表格特征抽取文本内容又分为:
1)基于布局和样式特征的自动抽取:将表格分为不同类型的布局,采用贝叶斯分类算法或者树形遍历算法,基于单词间距、空格位置、文字大小、文字粗细、文字位置、缩进等特征,对表格的标题、表头、数据区域做区分[64-65]。
2)半监督学习的抽取:通过人工干预,确定表格的部分特征,利用机器分类算法来帮助识别表头、数据区域。如Nagy G等早期使用半自动的方式,借助WNT、TAT、VeriClick工具来协助表格结构内容的理解[66]。
4.1.2学术图表内容信息抽取
学术图表的文本型信息包括图表标题、注释、上下文(论文正文中提及图表的段落)。学术图表的文本信息抽取的难点在于需要保证尽可能找到图表所涉及的文本内容,同时尽量少引入无关的文本信息。
早期研究关注图表标题的抽取。例如ACM检索系统[67],MARIE项目[68]。随着对图表精确检索需求显化,与此同时自然语言处理技术取得突破进展,研究人员更关注正文中图表提及文本内容的抽取。Demnerfushman D等强调分析与图像关联文本以理解图像,并抽取医学图像的标题及论文中讨论部分的图表提及文本来增强医学图像的图像注释及检索[69]。图形摘要系统FigSum尝试从医学文献中抽取出图形的结构性文本摘要,并将文本分类为简介、方法、结果和讨论[70]。
现有研究提出了几种图表上下文抽取的方法,分别是:
1)明确提示法:基于标示性文字来识别明确引用图表的句子或者段落,例如借助Fig、Table等关键词,识别图表所引用的句子或者段落。
2)基于信息检索的方法:以图表标题、图例信息、参考语句或段落(明确引用的语句)为基准,基于主题相关性来查找与图表标题最相似的句子来查找与图表关联的语句。
3)基于位置的抽取方法:以明确引用语句为参考语句,抽取与参考语句间距离为N句的内容。
Balaji P R等在生物学领域的图像文本标注实验中对比不同方法,发现明确提示法在精准度上获得最好表现,而基于信息检索的方法在召回率上表现最佳,而混合两者方法则在F值上表现最佳[71]。
4.1.3学术图表外部关联信息抽取
学术图表外部关联信息主要是指论文中的与图表发现相关但并非对图表进行直接描述的内容,如论文信息(论文标题、论文作者、作者机构、论文引用、论文关键词等),数据信息(如补充数据标题、补充数据描述)和图表引用信息(图表引用文献、图表引用数据)等。
针对论文信息抽取,薛欢欢[72]总结论文信息抽取3种方式,并指出基于规则的论文信息抽取方法准确度高但可扩展性差,基于模板的论文信息抽取方法下效率高但受制于模板构建,基于机器学习的论文信息抽取方法灵活性、鲁棒性最佳,但需要构建训练语料。李朝光等利用正则表达式直接从PDF文档中抽取首页元数据,包括标题、作者、摘要和关键字[73]。更多的研究者利用工具将PDF转换为XML格式文档,基于XML规则来抽取论文信息,抽取信息有标题、作者名、地址、电子邮箱、摘要、关键字、引文[74-75]。Day M Y等采用模板匹配方法,设计层次化知识描述框架的InfoMap抽取论文中的引文元数据[76]。黄泽武也基于模板的方法识别与抽取标题、作者、摘要、参考文献等信息[77]。机器学习的兴起为论文信息抽取带来新格局,研究者们采用包括SVM[78]、条件随机场[79]、隐马尔可夫模型[80]、深度神经网络[81]等分类算法,通过训练语料并建立样本的输入与输出之间的关系来预测论文信息所属分类。
数据信息主要指论文中补充数据材料信息。由于现有科技文献中补充数据并非必须字段,且不同数据库平台对补充数据表示不一,因而尚未有人专门研究补充数据信息抽取。Kafkas S等挖掘Europe PMC FTP上41万篇XML格式论文,通过元素和数据库登录号等方式筛选,发现16.8%的文章包含可转换格式的补充数据[82]。Li J等[83]、Zhao M N等[84]均基于XML全文分析模式对文章中引用科学数据情况实施统计,但未针对补充材料项实施抽取。
尽管尚未有专门针对图表引用信息的抽取研究,但此任务与文本中引文发现和抽取类似。多数学者关注引文数据的抽取,如Cortez E等从已经存在的领域训练集元数据中自动生成模板,从而实现无监督的引文元数据抽取[85],Peng F C等基于条件随机场算法从Cora数据集中抽取引文元数据取得不错效果[86]。部分学者对引文发现进行研究,如高良才等通过构建融合序号规则、内容规则、标点符号规则的特征集合从文本中发现、分割及标注引文信息[87]。还有学者研究引文上下文的抽取,如He Q等采用语言模型来定位引文内容,并采用了文献不同部分的上下文相似度以及给定的引文内容聚类及概率模型的主题相关性来计算引文相关度值[88]。
4.2图表实例标注
图表实例标注是建立图表标注组织模型和图表语义信息内容关联,产生标注数据的过程。其中图表标注组织模型为实例标注提供语义描述框架。不同组织模型产生不同的图表标注数据。学术图表元数据标注采用元数据组织模型描述学术图表的语义信息来源,以形式化标注方式展示于HTML或XML页面中,例如CNKI学术图片知识库中的图片条目。学术图表分类标注是将图表视觉信息标注为人和机器可读的文本型形式化标注内容,例如ReVision工具产生的图类型标注结果。学术图表语义标注以本体为组织模型,通过语义标注产生形式化语义标注内容,最终以XML、RDF、关联数据等方式呈现。
元数据标注是目前主流的学术图表标注方式。上文研究提到的CSA llustrata、Open-i、TableSeer、CNKI图片检索等均实践了元数据标注方式。图表分类标注通常会和元数据方式结合,共同展示于图表发现平台中,例如CNKI图片检索提供学术图像分类的元数据标注。语义标注方面,现有研究多数以领域叙词表或者领域本体为语义组织框架对学术图表进行语义标注。
从实现方式看,图表实例标注可分为人工标注和自动标注两大类型。学术图像的实例标注多采用人工标注方式。例如CSA llustrata[21]、Human Brain Project(HBP)[37]、EMAP(The Edinburgh Mouse Atlas Project)[38]。自动实例标注在学术表格中实践较多。例如SemAnn利用PDF文档解析工具PDF.js和自定义抽取算法将PDF文档中人工选中的表格转换为CSV格式,然后利用CSV-To-RDF转换工具结合嵌入本体(如DBpedia、FOAF或自定义)实现对抽取出来的表格数据进行自动的语義标注[89]。Cao H等通过构建观测事件模型,借助本体工具,利用规范化的观测术语、实体对象,将观测数据表格转化为可理解的事件,进行自动语义标注[90]。Berkley C等对生态学领域用EML描述的一维表数据进行语义描述,采用的方法是首先采用OBOE本体描述数据的结构(即区分观测、度量、上下文和实体并识别它们之间的关系),然后识别每个度量的特性、标准、度量值和条件,最后进行领域本体扩展[91]。
5学术图表标注的未来研究展望
学术图表是一个复杂的数字对象,其兼具视觉及文本两方面特征,同时与科技文献、科学数据存在紧密关联。未来图表发现需要融入支持全类型资源发现、支持语义关联、支持细粒度精准知识发现的学术知识服务体系,图表标注作为图表发现的基础,需要采用支持上述需求的图表标注组织框架,并需要在面向海量图表资源的自动图表标注实现方面有所突破。
5.1构建支持全类型资源发现、语义关联、细粒度精准知识发现学术图表本体
图表标注组织框架方面,现有3种图表组织模式各有所长,适用于不同阶段、不同需求的图表发现任务中。元数据组织表达多样化、灵活、门槛低,但不同领域元数据模型造成的“信息孤岛”阻碍了知识融合和交互。图像分类组织方式解决学术图表视觉特征语义表示的问题,但无法凸显学术图表的综合知识内容。本体组织以一种明确、形式化的方式表示信息资源,统一语义信息,但目前图表的本体组织依托于其他学术知识本体或领域叙词表知识组织,描述粒度粗,或仅表示领域知识,或未建立图表与其他类型学术资源语义关联,难以满足支持全类型资源发现、语义关联、细粒度知识组织、精准知识发现需要。
从组织方式看,本体有支持跨学科形式化表达、支持细粒度语义关系扩展及支持语义推理等优势。本体结合知识图谱等技术应用,可形成结构化、语义化、富关联、可发现、可应用的知识库。故而本文以为基于本体对学术图表实施语义组织更适应未来发展趋势。
一方面,可结合自上而下及自下而上的方式探索构建内容完整、关系清晰、知识可扩展、动态进化、机器可理解的学术图表本体。通过解构学术图表的形式结构(图表本身、图表内容、图表关联信息),按照图表语义逻辑重新构造为图表类型、图表论证对象、图表论证维度、图表论证实验内容(如实验背景、实验目的、实验方法、实验结果、实验结论)、图表论证关键特征(如对比、观察、流程、分布等)、图表外延内容(如同文图表、同证图表、同项目图表、同作者图表、同被引图表、同数据来源图表、同主题图表、引用文献、引用数据等)等内容,根据图表语用逻辑,描绘学术图表本体应用于图表发现场景,定义核心概念、关系、属性,形成学术图表本体,丰富本体实例,在领域学术图表语义标注实践中应用本体,构建可用于图表发现的学术图表领域知识库,并基于本体的标注任务中对本体不断进化;另一方面,可以采取自下而上的知识图谱构架模式,抽取图表的实体、关系、属性,对异构数据进行实体消歧、实体共指消解、实体链接、关系融合等步骤,最后通过知识推理、逻辑公理总结形成学术图表本体。
5.2深入研究面向海量图表资源的自动图表语义标注实现
海量学术图表资源标注需要自动技术的支持。这包含图表信息自动抽取和基于本体的自动标注。
图表信息抽取是图表标注的内容基础,需要从工程化、自动化实现方面深化研究。PDF格式文档中的图表信息抽取要解决图表的识别与提取的问题。将文档转换为图片,基于图像识别的位图分割技术、区域分类或连接组件等技术方法可解决部分类型学术图像和表格识别及提取问题,可以在新的神经网络算法支持下研究不同类型图像识别的特征。
图表自身信息抽取的4个子任务中,图像中文本抽取、表格内文本信息抽取两个任务的技术相对更加成熟,自动抽取准确度较高。而另外两个任务则还有较大的发展空间。
在图像视觉信息抽取及标注任务方面,目前未有工具实现所有类型图表的分类标注,并且部分类型图像的分类准确度不足以用于大规模应用。因而在图表类型覆盖以及分类精准度等方面还需深入研究。鉴于图表类型在不同领域分类和分布不一,可结合图表展示的视觉特征和图表论证的内容特征,形成特定领域的图表分类,再从领域分类中归纳出部分通用图表分类,并基于机器学习算法提取相关特征。此外,图像分类中要关注复合图识别和子图分类问题。可从基于复合图文本特征、复合图视觉特征、混合特征等角度来研究复合图识别。复合图的子图识别是多标签的分类任务,可从复合图分割并分类或多标签学习方法的角度识别子图类型。分类精准度方面,新的卷积神经网络算法相比传统基于图像低层特征的算法而言,可以获得更高的分类精准度,其可扩展性和稳定性都优于传统的分类算法。可以将图像底层特征和图表文本特征(如图像的标题及图注文本等)结合,基于神经网络学习算法提升图表类型分类精准度。
学术图像中数值信息抽取是一个具有挑战性的任务,已有研究多数针对折线图、条形图、散点图、饼图等图像,其他图像类型(如直方图、气泡图、箱形图、雷达图、面积图)的数据抽取精准度较低,需要基于这些图形特征研究其数值信息的自动提取。此外,上述图像数值抽取工具以半自动方式为主,需要人工输入或者确定图像的坐标轴信息(如起点、终点、截距等),应进一步结合图像视觉识别技术,研究图像内数值信息的全自动抽取。
图表内容信息抽取技术相对成熟,在以下3个方面需要继续研究。图表标题和图表本身匹配是重要的研究问题。自动抽取PDF格式论文内图表标题时需要基于不同的图表—标题布局(如1-to-1、N-to-N、N-to-M)确定对应关系。注释内容抽取,需要关注学术复合图中子图标题和子图注释抽取问题,可总结和构建相关规则帮助抽取。重点关注图表上下文提及内容自动抽取的准确率及召回率,深入研究图表所在篇章位置和抽取模式的关系。
当下,论文中的补充数据信息抽取和论文文本中的图表引用信息抽取暂且空白,可借鉴现有论文元数据抽取及论文引文抽取的思路,通过构建抽取规则、定义抽取模式或基于文本特征的机器学习方法来实现论文内数据信息自动抽取和图表引用信息自动抽取。
基于本体的自动标注是建立抽取內容和学术图表本体间关联的过程。自动语义标注过程需要综合图表不同特征及本体中的概念、属性、关系定义实施不同的语义实例标注方式。例如图表标题、主题、图表实验信息等内容的自动语义标注可基于文本特征或利用规则或借助机器学习分类算法来获得,而图表类型的语义标注要融合视觉特征及文本特征来实现。
6结语
基于本体的学术图表自动语义标注是支撑未来大规模学术图表精准语义发现的图表标注形态。它通过学术图表本体对科技文献中图表信息内容实施多角度、深度语义组织,揭示学术图表—论文—人—机构—项目—基金—补充材料等科学实体间语义关联,借助自动信息抽取、自动语义标注等技术支持,最终形成支撑图表内容精准发现,异构科学实体的统一发现的语义标注内容。现有研究和技术为基于本体的学术图表自动语义标注创造部分条件,未来还需要在学术图表本体构建、学术图表异构信息抽取等方面深入开展研究。
参考文献
[1]Siegel N,Lourie N,Power R,et al.Extracting Scientific Figures with Distantly Supervised Neural Networks[C]//ACM IEEE Joint Conference on Digital Libraries,2018:223-232.
[2]Lee P S,West J D,Howe B,et al.Viziometrics:Analyzing Visual Information in the Scientific Literature[J].IEEE Transactions on Big Data,2018,4(1):117-129.
[3]米杨.基于顶级本体整合的医学领域语义标注研究[D].长春:吉林大学,2012.
[4]于晓繁.基于本体和元数据的语义标注平台模型与系统架构研究[D].淄博:山东理工大学,2012.
[5]Bishop A P.Document Structure and Digital Libraries:How Researchers Mobilize Information in Journal Articles[J].Information Processing and Management,1999,35(3):255-279.
[6]Futrelle R P.Handling Figures in Document Summarization[C]//Proceedings of the ACL-04 Workshop:Text Summarization Branches Out,2004:61-65.
[7]Stelmaszewska H,Blandford A.From Physical to Digital:A Case Study of Computer Scientists Behaviour in Physical Libraries[J].International Journal on Digital Libraries,2004,4(2):82-92.
[8]Sandusky R J,Tenopir C,Casado M M.Figure and Table Retrieval from Scholarly Journal Articles:User Needs for Teaching and Research[J].Proceedings of the American Society for Information Science and Technology,2007,44(1):1-13.
[9]Pyreddy P,Croft W B.TINTIN:A System for Retrieval in Text Tables[C]//ACM International Conference on Digital Libraries,1997:193-200.
[10]Futrelle R P.Summarization of Diagrams in Documents[J].Advances in Automated Text Summarization,1999:403-421.
[11]Murphy R F,Velliste M,Yao J,et al.Searching Online Journals for Fluorescence Microscope Images Depicting Protein Subcellular Location Patterns[C]//Bioinformatics and Bioengineering,2001:119-128.
[12]Wang Y,Hu J.A Machine Learning Based Approach for Table Detection on the Web[C]//The Web Conference,2002:242-250.
[13]Liu Y,Bai K,Mitra P,et al.TableSeer:Automatic Table Metadata Extraction and Searching in Digital Libraries[C]//ACM/IEEE Joint Conference on Digital Libraries,2007:91-100.
[14]Carol T,Robert J S,Margaret C.The Value of CSA Deep Indexing for Researchers(Executive Summary)[EB/OL].https://trace.tennessee.edu/cgi/viewcontent.cgi?article=1001&context=utk_infosciepubs,2020-08-31.
[15]Hearst M A,Divoli A,Guturu H,et al.BioText Search Engine:Beyond Abstract Search[J].Bioinformatics,2007;23(16):2196-2197.
[16]Ahmed A,Arnold A,Coelho L P,et al.Invited Paper:Structured Literature Image Finder:Parsing Text and Figures in Biomedical Literature[J].Journal of Web Semantics,2010,8(2):151-154.
[17]Charbonnier J,Sohmen L,Rothman J,et al.NOA:A Search Engine for Reusable Scientific Images Beyond the Life Sciences[C]//European Conference on Information Retrieval,2018:797-800.
[18]PMC[EB/OL].https://www.ncbi.nlm.nih.gov/pmc/,2020-08-31.
[19]CNKI學术知识图片库[EB/OL].http://image.cnki.net/Default.aspx,2020-08-31.
[20]Kim D,Ramesh B P,Yu H,et al.Automatic Figure Classification in Bioscience Literature[J].Journal of Biomedical Informatics,2011,44(5):848-858.
[21]Simpson M S,Demner-fushman D,Antani S K,et al.Multimodal Biomedical Image Indexing and Retrieval Using Descriptive Text and Global Feature Mapping[J].Information Retrieval,2014,17(3):229-264.
[22]Open-i[EB/OL].https://openi.nlm.nih.gov/,2020-08-31.
[23]Ramesh B P,Sethi R J,Yu H,et al.Figure-associated Text Summarization and Evaluation[J].Plos One,2015,10(2).
[24]Siegel N,Horvitz Z,Levin R,et al.FigureSeer:Parsing Result-Figures in Research Papers[C]//European Conference on Computer Vision,2016:664-680.
[25]王一達,沈熙玲,谢炯.遥感图像分类方法综述[J].遥感信息,2006,(5):67-71.
[26]李莉,木拉提·哈米提.医学影像数据分类方法研究综述[J].中国医学物理学杂志,2011,28(6):3007-3011.
[27]Savva M,Kong N,Chhajta A,et al.ReVision:Automated Classification,Analysis and Redesign of Chart Images[C]//User Interface Software and Technology,2011:393-402.
[28]Prasad V S,Siddiquie B,Golbeck J,et al.Classifying Computer Generated Charts[C]//Content Based Multimedia Indexing,2007:85-92.
[29]Huang W,Zong S,Tan C L,et al.Chart Image Classification Using Multiple-Instance Learning[C]//Workshop on Applications of Computer Vision,2007:27-27.
[30]Tang B,Liu X,Lei J,et al.DeepChart:Combining Deep Convolutional Networks and Deep Belief Networks in Chart Classification[J].Signal Processing,2016:156-161.
[31]Kim D,Ramesh B P,Yu H,et al.Automatic Figure Classification in Bioscience Literature[J].Journal of Biomedical Informatics,2011,44(5):848-858.
[32]Constantin A,Peroni S,Pettifer S,et al.The Document Components Ontology(DoCO)[J].Semantic Web,2016,7(2):167-181.
[33]The Discourse Elements Ontology(DEO)[EB/OL].https://sparontologies.github.io/deo/current/deo.html,2020-05-02.
[34]王晓光,李梦琳,宋宁远.科学论文功能单元本体设计与标引应用实验[J].中国图书馆学报,2018,(4):73-88.
[35]Madin J,Bowers S,Schildhauer M,et al.An Ontology for Describing and Synthesizing Ecological Observation Data[J].Ecological Informatics,2007,(2):279-296.
[36]Bischof S,Martin C,Polleres A,et al.Collecting,Integrating,Enriching and Republishing Open City Data as Linked Data[C]//International Conference on the Semantic Web-ISWC 2015.Berlin:Springer,2015:58-75.
[37]Gertz M,Sattler K U,Gorin F,et al.Annotating Scientific Images:A Concept-based Approach[C]//Scientific and Statistical Database Management,IEEE,2002:59-68.
[38]EMAGE.Data Annotation Methods[EB/OL].http://www.emouseatlas.org/emage/about/data_annotation_methods.html#auto_eurexpress,2015-11-02.
[39]丁培.科学论文内的科学数据组织和发现研究[J].现代情报,2020,40(2):34-43.
[40]Rospocher M,Erp M V,Vossen P,et al.Building Event-Centric Knowledge Graphs from News[J].Web Semantic:Science,Service and Agent on the World Wide Web,2016:132-151.
[41]阮彤,王梦婕,王昊奋,等.垂直知识图谱的构建与应用研究[J].知识管理论坛,2016,(3):226-234.
[42]Kroetsch M,Weikum G.Journal of Web Semantics:Special Issue on Knowledge Graphs[EB/OL].http://www.websemanticsjournal.org/2019/05/cfp-jws-special-issue-on-language.html,2020-11-16.
[43]Paulheim H,Cimiano P.Knowledge Graph Refinement:A Survey of Approaches and Evaluation Methods[J].Semantic Web,2017,8(3):489-508.
[44]Su Y,Zhang C,Li J,et al.Cross-Lingual Entity Query from Large-Scale Knowledge Graphs[C]//APWeb 2015 Workshops,2015:139-150.
[45]白林林.基于知識图谱的领域知识结构构建方法研究[D].北京:中国科学院大学,2019.
[46]Microsoft Academic Knowledge Graph[EB/OL].http://ma-graph.org/,2020-11-10.
[47]SN SciGraph[EB/OL].https://www.springernature.com/gp/researchers/scigraph,2020-11-10.
[48]SCHOLAT学者网[EB/OL].http://www.scholat.com/,2020-11-10.
[49]东北大学-知识图谱研究组[EB/OL].http://www.techkg.cn/,2020-11-10.
[50]Shamna P,Govindan V K,Nazeer K A,et al.Content Based Medical Image Retrieval Using Topic and Location Model[J].Journal of Biomedical Informatics,2019.
[51]Kurtz C,Depeursinge A,Napel S,et al.On Combining Image-based and Ontological Semantic Dissimilarities for Medical Image Retrieval Applications[J].Medical Image Analysis,2014,18(7):1082-1100.
[52]Frome A,Corrado G S,Shlens J,et al.DeViSE:A Deep Visual-Semantic Embedding Model[C]//Neural Information Processing Systems,2013:2121-2129.
[53]Weston J,Bengio S,Usunier N,et al.Large Scale Image Annotation:Learning to Rank with Joint Word-image Embeddings[C]//European Conference on Machine Learning,2010,81(1):21-35.
[54]Pereira J C,Vasconcelos N.Cross-modal Domain Adaptation for Text-based Regularization of Image Semantics in Image Retrieval Systems[J].Computer Vision and Image Understanding,2014:123-135.
[55]蒋梦迪,程江华,陈明辉,等.视频和图像文本提取方法综述[J].计算机科学,2017,(2):8-18.
[56]Bschen F,Scherp A.A Comparison of Approaches for Automated Text Extraction from Scholarly Figures[C]//Conference on Multimedia Modeling,2017:15-27.
[57]Ye Q,Doermann D.Text Detection and Recognition in Imagery:A Survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(7):1480-1500.
[58]De S,Stanley R J,Cheng B,et al.Automated Text Detection and Recognition in Annotated Biomedical Publication Images[J].International Journal of Healthcare Information Systems and Informatics,2014,9(2):34-63.
[59]Jung D,Kim W,Song H,et al.ChartSense:Interactive Data Extraction from Chart Images[C]//Human Factors in Computing Systems,2017:6706-6717.
[60]Ankit Rohatgi.WebPlotDigitizer[EB/OL].https://automeris.io/WebPlotDigitizer,2020-09-02.
[61]Méndez G G,Nacenta M A,Vandenheste S,et al.iVoLVER:Interactive Visual Language for Visualization Extraction and Reconstruction[C]//Human Factors in Computing Systems,2016:4073-4085.
[62]DataThief III[EB/OL].https://www.datathief.org/,2020-09-02.
[63]Gross A,Schirm S,Scholz M,et al.Ycasd-A Tool for Capturing and Scaling Data from Graphical Representations[J].BMC Bioinformatics,2014,15(1):219-219.
[64]Nagy G.Learning the Characteristics of Critical Cells from Web Tables[C]//International Conference on Pattern Recognition,2012:1554-1557.
[65]Seth S C,Nagy G.Segmenting Tables via Indexing of Value Cells by Table Headers[C]//International Conference on Document Analysis and Recognition,2013:887-891.
[66]Nagy G,Tamhankar M.VeriClick:An Efficient Tool for Table Format Verification[C]//Document Recognition and Retrieval,2012.
[67]Guglielmo E J,Rowe N C.Natural-language Retrieval of Images Based on Descriptive Captions[J].ACM Transactions on Information Systems,1996,14(3):237-267.
[68]Rowe N C.Precise and Efficient Retrieval of Captioned Images:The MARIE Project[J].Library Trends,1999,48(2):475-495.
[69]Demner-fushman D,Antani S,Simpson M S,et al.Annotation and Retrieval of Clinically Relevant Images[J].International Journal of Medical Informatics,2009,78(12):59-67.
[70]Agarwal S,Yu H.FigSum:Automatically Generating Structured Text Summaries for Figures in Biomedical Literature[C]//American Medical Informatics Association Annual Symposium,2009:6-10.
[71]Balaji P R,Sethi R J,Hong Y,et al.Figure-associated Text Summarization and Evaluation[J].Plos One,2015,10(2).
[72]薛欢欢.基于条件随机场的中文期刊论文信息识别与抽取[D].北京:中国农业科学院,2019.
[73]李朝光,张铭,邓志鸿,等.论文元数据信息的自动抽取[J].計算机工程与应用,2002,38(21):189-191.
[74]Constantin A,Pettifer S,Voronkov A,et al.PDFX:Fully-automated PDF-to-XML Conversion of Scientific Literature[C]//Document Engineering,2013:177-180.
[75]陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007,(2):18-23.
[76]Day M Y,Tsai R T H,Sung C L,et al.Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework[J].Decision Support Systems,2007,43(1):152-167.
[77]黄泽武.基于语义的科技文献共享平台的信息抽取系统[D].武汉:华中科技大学,2007.
[78]Kovacevic A,Ivanovic D,Milosavljevic B,et al.Automatic Extraction of Metadata from Scientific Publications for CRIS Systems[J].Program:Electronic Library and Information Systems,2011,45(4):376-396.
[79]Lopez P.GROBID:Combining Automatic Bibliographic Data Recognition and Term Extraction for Scholarship Publications[C]//European Conference on Research and Advanced Technology for Digital Libraries,2009:473-474.
[80]Cui B,Chen X.An Improved Hidden Markov Model for Literature Metadata Extraction[C]//International Conference on Intelligent Computing,2010:205-212.
[81]Liu R,Gao L,An D,et al.Automatic Document Metadata Extraction Based on Deep Networks[C]//Natural Language Processing and Chinese Computing,2018:305-317.
[82]Kafkas S,Kim J H,Pi X,et al.Database Citation in Supplementary Data Linked to Europe PubMed Central Full Text Biomedical Articles[J].Journal of Biomedical Semantics,2015,6(1).
[83]Li J,Zheng S,Kang H,et al.Identifying Scientific Project-generated Data Citation from Full-text Articles An Investigation of TCGA Data Citation[J].Journal of Data and Information Science,2016,(2):32-44.
[84]Zhao M N,Yan E,Li K.Data Set Mentions and Citations:A Content Analysis of Full-text Publication[J].Journal of the Association for Information Science & Technology,2017,69(1):32-46.
[85]Cortez E,Silva A S D,Mesquita F,et al.FLUX-CiM:Flexible Unsupervised Extraction of Citation Metadata[C]//Proceedings of the 7th ACM/IEEE-CS Joint Conference on Digital Libraries,ACM,2007:215-224.
[86]Peng F C,McCallum A.Accurate Information Extraction from Research Papers Using Conditional Random Fields[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2004:329-336.
[87]高良才,湯帜,陶欣,等.一种自动发现、分割与标注引文元数据的方法[J].北京大学学报:自然科学版,2010,46(6):893-900.
[88]He Q,Kifer D,Pei J,et al.Citation Recommendation Without Author Supervision[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining,ACM,2011:755-764.
[89]Takis J,Islam A Q M,Lange C,et al.Crowdsourced Semantic Annotation of Scientific Publications and Tabular Data in PDF[C]//Proceedings of the 11th International Conference on Semantic Systems.ACM,2015:1-8.
[90]Cao H,Bowers S,Schildhauer M P.Approaches for Semantically Annotating and Discovering Scientific Observational Data[C]//Database and Expert Systems Applications.Springer Berlin Heidelberg,2011:526-541.
[91]Berkley C,Bowers S,Jones M B,et al.Improving Data Discovery for Metadata Repositories Through Semantic Search[C]//International Conference on Complex,Intelligent and Software Intensive Systems.Fukuoka:IEEE,2009:1152-1159.
(责任编辑:孙国雷)