基于JATS标准的医学期刊电子资源格式处理与转化

2018-09-06 08:38康宏宇
中国科技期刊研究 2018年8期
关键词:医学期刊结构化文档

■康宏宇 李 姣 侯 震 侯 丽

中国医学科学院医学信息研究所,北京市朝阳区雅宝路3号 100020

随着信息技术和数字技术的迅猛发展,读者的阅读行为从纸质阅读逐渐转至计算机(Personal Computer,PC)端和移动端阅读。出版资源也以PDF、超级文本标记语言(Hyper Text Markup Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)、图片、视频等形式存储,并将相应的内容呈现给读者。统一的期刊存储标准将会促进期刊资源整合,提高数据存储质量,方便数据管理;同时可使期刊资源与国际接轨,提升期刊自身的国际影响力。截至2017年年底,Medline收录了全球范围内5200多种期刊、2400万篇文章,涉及40多种语言。其中,2016年共新增86.9万多篇生物医学领域的优秀文章[1]。 目前,在Medline收录的期刊中,中国期刊有93种,仅占所有收录期刊的1.8%。中国科技期刊出版社/编辑部呈现小而散的特点[2],期刊之间的存储格式缺乏统一的标准,导致国内期刊在申请国际知名检索时遇到困难,无法实现与国内外同行的深度交流。因此,我国出版社和相关科研人员在加强医学科学研究、撰写高质量研究论文的同时,也应注重资源积累过程中的资源存储标准构建,规范电子资源的存储流程及方式,使期刊的资源存储与管理方式与国际接轨,让更多生物医学期刊进入包括Medline检索和PubMed Central(PMC)检索在内的国际知名索引中[3]。

国际上较为通用的标准是由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)创建的Journal Archiving Tag Suite(JATS)数据标准。该标准已成熟地运用于Medline和PMC检索中,用于存储和管理科技期刊的电子资源。

本研究以医学类期刊的资源存储为切入点,以JATS数据标准为例,分析国外医学期刊的电子资源存档格式,调研国内医学期刊资源的存储格式,总结资源存储现状及存在的问题,制定面向医学类科技期刊资源存储的格式处理与转化流程,并开展相关实践,以提升国内相关期刊的影响力,让更多读者了解并能够迅速检索到中国的高质量期刊。

1 国外期刊资源存储标准——以JATS数据标准为例

JATS数据标准被应用于Medline检索的文章摘要信息和PMC检索的全文信息中,推动了期刊电子资源规范化存储与管理的进程。

1.1 JATS数据标准概况

JATS(http://jats.nlm.nih.gov/)数据标准是PMC检索中较为通用的资源存档和交换标准,其定义了一系列描述期刊、文章特征的元素及属性,并对文章中的图片、表格、术语[4]等有特定的说明。标签集共包含了250余个元素和130余个元素属性。

1.2 JATS数据标准在医学期刊检索中的应用

(1) Medline检索。Medline 数据库创建于 1879 年,是由美国国立医学图书馆(National Library of Medicine, NLM) 创建的综合性生物医学文献书目数据库,也是目前国际范围内使用最为广泛和权威的生物医学文献数据库[6]。Medline重点收录对卫生和生物医药具有卓越贡献的研究性期刊、临床和实践性期刊、评论性期刊以及相关领域的综合性刊物。Medline遴选过程中重点关注期刊的学术水平和质量,同时要求被收录的期刊提供符合基于JATS标准的XML格式的文章摘要信息。期刊可以向NLM提供自己网站上所有文章的PDF全文链接,让读者在Medline检索时能够通过索引链接到全文。

(2) PMC检索。PMC是由美国国立卫生研究院(National Institutes of Health, NIH)和NLM创建并维护的生物医学全文文献资源,在国际生物医学领域开放获取和知识共享方面享有较高的学术声誉[7]。到目前为止,PMC 检索共收录6900余种期刊,460万篇全文文献。

期刊文章的内容和质量以及文章存储格式是进入PMC检索的2个关键点。文章内容应在原创研究论文、临床病例报告、数据分析文章和临床或外科手术描述的范围内。同时还会考量期刊编辑的独立性和读者多样性。之后,PMC会对期刊的资源存储格式进行严格审查。期刊必须以符合文档类型定义(Document Type Definition,DTD)约束方式的XML/标准通用标记语言(Standard Generalized Markup Language,SGML)格式向PMC提供文章的全文,PMC不接受HTML格式的文章。

资源存储格式的审查在整个PMC检索收录的申请流程中尤为重要。NLM建议所提交的数据要符合JATS 数据标准的XML格式,同时也可以接受符合期刊出版领域广泛使用的其他全文文献DTD约束方式的XML文档。XML文档中应包含文章的基本元数据信息(如ISSN、期刊出版商或杂志社、卷号、分页/文章序号、发行日期等)、文章的正文信息(如段落、文字、图表、数学公式等)以及参考文献和其他辅助信息。在提交过程中,每篇文章的数据提交包必须完整,包含XML / SGML、PDF、高分辨率的数字图像文件、电子表格、视频文件等涉及文章出版的所有文件。如果审查过程中发现错误,PMC会反馈给出版商或杂志社,让其进行修改[8]。但如果再次提交之后仍有错误,PMC则会拒绝该期刊的申请。

1.3 JATS数据标准的其他应用场景

JATS数据标准除了被应用于NLM的电子资源存储与管理,也为众多出版社、研究机构、公司等提供了资源管理的基础条件,这些机构已在JATS标准的基础上开展了相关研究。

Penev等[9]对通用的JATS DTD进行扩展,开发了TaxPub工具,用于生物系统学领域的期刊资源标记和出版。Nakanishi等[10]设计了一种自动转换流程,能够将日文期刊转换为符合JATS数据标准的XML文档,并对文中的表格和数字做特殊处理,以完成表格的准确定位和内容转换。Gebhard等[11]则更加关注文章中的数学公式,他们尝试将Word文本文档中的数学公式直接转换成符合JATS数据标准的XML文档。INERA公司也开发了一款名为eXtyles NLM的工具,试图完成Word文档向符合JATS数据标准的文档的转换[12]。

2 国内医学期刊资源存储现状

随着数字出版技术的发展,结构化文档在电子期刊存档过程中体现出更多的优势。由于国内医学类期刊众多且出版机构分散,缺乏统一的资源存档格式及标准,格式转换工作较难开展。

2.1 结构化文档在国内期刊中的应用

随着数字出版行业的发展,国内科技期刊的出版已由传统的纸质出版逐渐向电子存档与出版转变。期刊的电子存档和出版可以分为3个阶段,即PDF全文展现阶段、HTML阶段和XML阶段。目前,大多数期刊都可以先经过专业的纸质排版,再通过软件或专业操作人员转成一般的非结构化或半结构化的电子版,如 Word/PDF或HTML文档[13]。其中,HTML为一种半结构化文档,极大地提升了读者的阅读体验。而XML结构化文档的出现,可以实现资源的规范化存储与管理,节省期刊出版及资源管理的物力和人力。相较于HTML,XML文档的另一优势在于这种存储技术更注重元素和属性的具体内容,更多地用于描述数据,而不提供数据的显示方法[14],更加保证了内容的可复用性和存储稳定性。上述3种资源出版与存储格式对比情况如表1所示。

为了推动期刊电子资源存储的规范与统一,已有少数研究团体开始使用结构化文档实现期刊电子资源的存储与出版,并构建与自身期刊特点相符的资源存储标准;但大部分出版社仍处于使用结构化文档的探究阶段。2014年10月,中华医学会杂志社发布了CMA JATS 0.1版,它在继承NLM DTD大部分元素的基础上,对一些元素进行了重构[15]。目前CMA JATS被应用于中华医学会杂志社旗下的141种期刊和10种非中华医学会期刊,已完成超过9.6万篇论文的全文结构化数据处理。

2.2 国内医学期刊资源存储差异

由于各期刊的排版样式和网站呈现方式不同,其文档的出版格式和存储格式也不尽相同,缺乏统一的资源管理标准,最终导致资源之间的格式转换无法快速实现,影响了国内医学类期刊申请Medline检索或PMC检索的进程。国内医学期刊之间资源存储差异如表2所示。

表1 3种资源出版与存储格式的对比

表2 国内医学期刊资源存储差异对比

(1) 作者姓名。不同期刊作者姓和名的前后位置不同,如《中华医学杂志》等期刊将“陈万青”表示为Chen Wanqing;而ChineseJournalofCancerResearch等期刊则将其表示为Wanqing Chen。

(2) 作者机构。有些期刊在数据存储过程中使用作者机构的全称,如中国医学科学院医学信息研究所;有些期刊则采用机构简称,如医科院信息所。

(3) 期刊信息。有些期刊在存储论文的收录情况时直接采用参考文献格式,如中华医学杂志,2013,126(14):2705-2707;而有些期刊则将收录时间、卷、期等信息分类别存储,如Received: 2 October 2017; Accepted: 19 January 2018; Published: 24 January 2018。

(4) 参考文献。参考文献在正文中的引用方式不同,如AIMSCellandTissueEngineering等期刊采用内容右上角数字加方括号方式引用,如 First described late in the 19th century by Neuber[1],而《中华医学杂志英文版》等期刊则直接采用右上角数字的方式引用,如 the prevention of cancer invasion and metastasis.2,3。

(5) 图表、视频等附件。附件的差异表现在两个方面:一方面是存储格式的要求,如文件类型、像素、大小等;另一方面是附件在文中的引用方式,具体形式与参考文献在文中的引用差异相似。

3 医学类期刊资源存储的格式处理与转化

通过上述分析可以看出:一方面,XML结构化文档在电子期刊存档和出版过程中具有数据结构化良好、展示性较强、复用性强、压缩比高等优势,而国内仅有少数出版社能够以结构化文档对资源进行全面的存储与管理;另一方面,期刊或出版社资源存储没有统一的标准,存储格式之间差异较大,这将影响国内科技期刊的资源规范化管理和期刊申请进入国际有影响力的检索数据库的进度。所以,构建规范化的期刊电子资源存储标准,设计并开发格式转换工具是非常必要的。

为了加大科技期刊的资源管理力度,提升期刊影响力,本研究在分析国内医学期刊资源存储现状的基础上,结合JATS数据标准,设计了基于JATS数据标准的格式处理与转换流程,并据此开发系统,实现异构资源存储文档向规范化文档的转化。系统中各模块的运作流程如图1所示。

该系统分为4个工作模块,分别是信息采集模块、数据存储模块、信息抽取和转化模块及验证模块。根据出版社提供的数据格式,借助Dom4j/XPath、Jsoup、Apache poi等工具对文件进行解析。如果出版社已将相关信息存储到结构化数据库中,则直接进行数据抽取。根据PMC检索中通用的JATS数据标准,对采集到的信息进行规范化处理,并存储到本地数据库中。规范化处理的信息包括期刊信息(期刊名称、ISSN、版权声明等)、论文基本信息(论文标题、作者、作者单位、联系方式、出版信息等)、论文主体(摘要、关键词、段落)、参考文献及其他信息(参考文献、致谢、附录等)。对于用户提交的论文图片、表格等内容,则直接存储到服务器中。经过规范化处理的信息,按NLM DTD文件要求对内容进行抽取,并完成自动填充,生成格式统一的XML文件。最后,对XML文件是否符合要求进行验证,若通过验证,则可以按照PMC的要求继续完成XML文件和其他材料的提交;若没有通过验证,系统会反馈未通过的原因,用户根据具体原因,可返回信息采集和规范化处理的相应步骤并进行人工修改。

图1 资源格式处理与转化工作流程

在运用资源格式处理与转化系统方面,AMIS出版社的AMISPublicHealth期刊已完成资源的格式转化,如图2和图3所示,并顺利通过了PMC的格式审查。

图2 系统对AMIS Public Health进行信息采集及格式转换

图3 系统生成的符合JATS标准的XML文档

4 总结与展望

学术质量和资源存储格式是Medline检索和PMC检索申请过程中两个关键因素。学术质量代表着期刊内容的科学性、创新性、实用性和时效性;而资源存储格式的规范与否则反映了期刊资源管理的合理性和有效性,同时也是向Medline和PMC提交资源的必备因素。医学类科技期刊应在不断提升自身学术质量的前提下,管理好期刊资源,注重资源格式的规范。

JATS数据标准经过了NLM大量文献存储的验证,是一种成熟的电子期刊资源存储与管理的规范化标准。围绕JATS数据标准开展标准制定及格式转换研究,能够规范国内医学电子期刊的资源存储、管理与信息转换,加快国内医学期刊进入国际权威检索数据库的步伐。本研究在JATS数据标准的基础上开发了资源格式处理与转化系统,以探究电子科技期刊资源规范化存储方法和流程。该资源格式处理与转化系统能够帮助期刊编辑人员快速实现非结构化文本向符合JATS数据标准的XML文档的转化,提高文档转化与生成效率,确保文档格式准确性,降低人工操作的运作成本。

为了继续推动科技期刊资源格式转化的相关工作,笔者将继续深入研究NLM DTD结构及JATS标准,提高转化系统的准确率,使其能够识别各种类型以及结构复杂的科技论文;同时也将在JATS数据标准基础上,研究适用于中文医学期刊的资源存储标准,推动中文科技期刊的本地化建设,规范期刊存储与管理流程,提升国内期刊的国际影响力。

猜你喜欢
医学期刊结构化文档
山西医学期刊社简介
山西医学期刊社简介
浅谈Matlab与Word文档的应用接口
山西医学期刊社简介
山西医学期刊社简介
有人一声不吭向你扔了个文档
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习