,, ,
在科研文献呈指数增长的大背景下,文献中的非文本型(图片、表格、数据等)文件逐渐累积。随着数字出版技术的兴起,随之而来的是科技期刊、文献及其包含的非文本文件的全新展现形式和交互方式:在线阅读、图片的展示与检索、表格的动态操作、数据的外部链接等等[1]。非文本型文件的内容大多简单易读,能直接反映文献所涉及的研究内容、研究方法和研究结果,对文献内容的描述具有不可替代的作用。尤其是在生物医学领域,图片等是医学知识传播的重要载体。研究人员在阅读医学类文献时,首先会关注到文献中的图表信息,对图表信息的感兴趣度也会直接影响到研究人员阅读科技文献的方式。
由于全文文献中的非文本型文件类型多样、描述信息复杂,对其管理造成了困难。到目前为止,各大出版社、图书馆在基于非文本型文件的文献聚类与检索领域的工作已开展相关研发工作[2]。本文以生物医学领域全文期刊为研究对象,量化分析多类型文件的类型与规模等信息,并寻求有效的管理和利用方法,进而充分利用文献的各类资源。
数字出版是期刊文献中多类型文件量化分析的前提,其相关技术的不断发展丰富了科技期刊的出版形式,使文献的阅读不仅限于面上文字。视频、外部链接等附件形式的出现,提升了读者的阅读兴趣。20世纪 90 年代互联网技术快速崛起,数字出版技术也随之兴起[3]。在经历了多年的迅猛发展之后,全球数字出版产业发展势头趋于平稳,我国数字出版产业继续保持强劲增长势头。2014年国内数字出版产业整体收入规模为 3 387.7 亿元[4],2015年为4 403.85亿元,比2014年增长30%。其中,互联网期刊、电子图书、数字报纸的总收入为74.45亿元,比2014年增长了6.66%[5-6]。
数字出版的兴起和发展,使得科技期刊的出版形式、传播手段、阅读方式、市场主体等都发生了巨大变化[7]。国际上领先的出版商,包括 Thomson、John Wiley、Springer、Elsevier 等都已依托数据库,建立了成熟的专业化数字出版模式。与此同时,图书馆和机构知识库作为科技期刊和科技文献的重要载体,也在着力研究数字出版技术、数据库存储和管理技术等。
华盛顿大学的Po-shen Lee等人[8]对科技文献中图片类文件的存在现状进行了统计,并对其进行了识别和分析:按照方程、示意图、照片、线性图和表格将PMC文献中的图片分为5类(包括对组合图的拆解),其中线形图占比最多,为35.0%;其次为照片,占22.7%。为了方便文献中图片文件的检索和查询,该团队还在此研究基础上开发了VizioMetrix检索系统,支持对PMC文献的图片文件按照方程、示意图、照片、线性图和表格进行分类检索和阅读,并可以通过点击图片获得其所在文章的相关信息,如作者、摘要、链接和相关文件等。
美国密歇根大学的Zhe Chen等人[9]研发了一种科技文献中图片的分析与识别工具DiagramFlyer。该工具能够识别出153 000篇文献中的319 000个图片信息,并解析出图片的文本标签,如图片的坐标轴信息、图例信息等。用户可使用关键词检索的方法对图片进行检索。
本文对生物医学领域全文文献所包含的所有文件类型进行了解析和量化分析。
本文以PMC(PubMed Central)收录的1 815种期刊中包含的891 334篇文献作为研究数据。PMC将期刊全文按照JATS(Journal Article Tag Suite)标准存储[10]在nxml文件中,其他附件如图片、压缩包、数据文件、视频等附在对应的nxml文件所在文件夹中。通过对JATS标准的文件内容进行标签解析,将提取出所需标签内的数据存储到MongoDB数据库中,附件则以文章名称命名的方式与该期刊全文进行映射,同时进行结构化存储。
一篇PMC的全文文献可以大致分为3个主体部分,分别用,,back>标签[11-12]标记。为了能够实现文献中所有附件的相互映射,实验通过提取
表1 科技文献图表结构化描述信息的提取方法研究所使用的JATS标签及其含义
对数据集进行了初步结构化存储之后,共获得891 334篇文献,其附件数量为9 613 877。根据附件后缀名和附件表现形式将其分为几个大类以便对期刊全文多类型附件能进行更直观的分析。分类方法如表2所示。
表2 全文期刊附件类型分类统计表
经统计,图片在附件中所占的比例为80.91%,表格在附件中的比例为14.89%,分列附件所占比例的前两位,二者共占附件总数的95%以上,而文档、数据、视频、网页、压缩包等其他格式则只占附件总数的5%。由此可见,图片和表格是期刊文献中对实验流程及实验结果的主要展示形式。因此,图片和表格是本文中多类型文件量化分析的重点。为了对生物医学领域全文期刊中多类型附件进行进一步分析,本文根据JATS数据存储标准,对全文文献进行解析,并将提取出来的标签信息存储在MongoDB数据库中。再从附件多样性、附件数量、出版时间、出版来源覆盖面等方面进行期刊遴选,最终筛选出30种目标期刊。
选取这30种期刊1996年至2015年期间刊载的文献作为下一步实验数据。期刊种类的权重筛选方法如下:首先通过
图1 多类型文件量化分析的实验流程
如图2所示,压缩包、视频、数据和文档这4类附件的坐标轴为左侧主坐标轴,图片使用的坐标轴为右侧副坐标轴。该柱状图展现了30种目标期刊在1996-2015年附件类型的变化趋势。
从图2可以看出,在2006年之前,全文期刊中的附件数量是比较少的,从2006年以后才开始快速增长;在2014-2015年期间出版的文献中,压缩包的数量为3 949个,视频的数量为8 516个,数据文件的数量为31 862个,文档的数量为52 545个,图片的数量为1 445 167个。
图2 1996-2015年目标期刊附件数量的变化趋势
由图2可以看出,2014-2015年的数量是其他4类附件总数的15倍左右,可见图片在当前的生物医学领域全文期刊附件中占比相当高。相比其他附件,作者更倾向于使用图片作为论文内容的展示形式。同时, doc/docx格式在文档类附件中所占比例在80%以上,jpg/jpeg格式在图片类附件中所占比例在50%以上,说明这两种格式在科技论文的发表及展示过程中尤为常见。因此对于我们后续的分析有较高的研究价值。
为了获悉每篇科技文献中图片的出现频率,统计了这30种期刊每年的文章数量及图片数量,得出文章数量变化趋势图和图片/文章数量变化趋势(图3、图4)。
图3 1996-2014年目标期刊文章数量变化趋势
图4 1996-2014年目标期刊图片/文章数量变化趋势
2005年以前PMC收录这30种期刊的文章数比较有限,从2005年开始呈现大幅度的增长,2006年收录4 635篇文章,2014年增至42 374篇。图片/文章数也从2006年的平均10.7张/篇,增长到了2014年的20.69张/篇。由于2005年之前每年的文章数量比较少,因此统计出的图片与文章数之比参考意义不大。
统计分析结果显示,自2005年期刊文章数量与篇级图片数均有有显著增长,这与数字出版行业的发展密切相关。生物医学领域开放获取期刊电子化程度也越来越高,存储PMC的相关文章也开始逐渐增多。通过对统计数据的调查研究发现,PMC的图片附件中一般对于图片都保存有低分辨率和高分辨率两个版本,低分辨率图一般作为网页缩略图展示使用,而高分辨率图一般在作为图片解释页使用。同时,在部分期刊中有大部分的数学公式是以图片的形式存储的。这些因素导致我们统计结果中图片与文章数之比相对较高,但众多的图片数量仍然体现了图片在文献中的重要作用。
本文发现非文本型(图片,表格、视频等)文件急剧增长,且图片和表格的占比较高、增速较快。科技文献中的图片和表格将作为下一步研究对象,将从图像和表格管理与利用、图片和表格标签信息提取与挖掘等方面开展的研究,如图片和表格类型的识别,图片和表格文本以及语义标签的提取等。通过对文献的非文本文件的分析,将提高全文科技文献的存储管理及挖掘利用。