开放环境下的数据引用探析

2017-11-27 15:39李梅
河南图书馆学刊 2017年11期

李梅

关键词:数据引用;科学数据;引用规范

摘要:文章对开放环境下国内外有关开放数据引用的研究文献进行了系统梳理和总结,包括数据引用的发展历程、数据引用的关键因素及其互动关系,在此基础上进行分析与总结,并提出一些政策意见和建议。

中图分类号:G250文献标识码:A文章编号:1003-1588(2017)11-0128-03

随着科技出版业的变革及开放运动的深入开展,科学数据开放获取的基础环境已逐步形成。海量的数据源及丰富的数据环境使研究人员得以便捷地发布、发现、访问并获取数据,如何规范地引用数据自然也受到科学界和出版界的极大关注。

科学数据引用是指提供数据参考的做法,类似于研究者为印刷型资源提供参考文献的方式。数据引用是支持数据访问、共享和再利用的一种重要方法。通过数据引用,降低科学数据发现和利用的壁垒,提高研究过程的效率和透明度,同时数据与出版物的有效链接将有助于学术出版形式的创新,促进跨学科研究,降低科研成本,验证并创造新的研究成果。

1数据引用的发展历程

20世纪60年代末期,科学界成立了第一个科学数据档案库,设计者开始关注科学数据的获取、存储、格式和信息检索[1]。之后,数据引用的理论和实践不断发展,大致经历了四个阶段(见表1)。

1.1数据可描述与检索阶段

该阶段的发展集中在引文的作用以促进描述和信息检索。比较典型的是Archive系统,Dodd[2]建议参照美国书目参考标准ASBR,以系统一致的方式来描述数据集,其核心原则是通过作者、题名和版本字段来描述信息。

1.2数據可访问及获取阶段

受美国科学基金会NSF资助,Altman等[3]开发了第一个开源和开放获取出版的数据系统Virtual Data Center,即虚拟数据中心。该中心通过联邦机构支持持续访问并获取研究数据,数据引用集成到虚拟数据中心,每个数据集被分配一个永久标识符和地址,并支持所有的研究数据都能被引用,而且这些引用应当具有有效的外部链接,即具有网络可获取性。

1.3数据可验证及再现阶段

该阶段数据引用与出版生态系统有了更广泛的整合,其核心原则是引用应当支持验证数据可链接及支持被引用数据的再现。最具代表性的是Dataverse Network系统,其被哈佛大学用作数据发布的基础平台,有数以百计的研究人员和机构通过该系统发布数据。

1.4与学术研究系统可集成阶段

该阶段重在用标准化的方式集成数据引用与学术研究。例如,Data Dryad、Figshare供科研人员分享科研数据的平台,科睿唯安(原汤森路透知识产权与科技事业部)推出数据引文索引(Data citation index)。另外,美国国家科学总院(The National Academics)、国际科技数据委员会(CODATA)、数据引用综合组(the Data Citation Synthesis Group)等组织经过多年努力,使人们认识到数据包括数据引用是研究出版物不可缺少的一部分,要求数据仓储机构/出版平台提供持久链接以保证数据的长期可访问性。

2影响数据引用的关键因素

2.1政策和机构基础设施

随着科学研究逐渐向数据驱动型发展,越来越多的国际科学组织认识到获取、重用数据可以促进研究的高效性和有效性,提高公众的投资回报。科研资助机构、研究人员、政策制订者、出版商、数据管理者等,提倡建立数据集的相关基础设施,完善基础设施机制。如:数据政策、数据管理、起源追踪、永久标识符、元数据和引用协议等。

数据引用的前提是数据共享,在数据共享的基础设施和服务方面,协同合作非常重要。如:科学技术数据委员会(The Committee on Data for Science and Techonlogy, CODATA)、世界数据系统(World Data System,WDS)和科学数据联盟(Research Data Alliance, RDA)于2015年3月达成协议[4],协议要求CODATA关注宣传、政策和流程,WDS关注数据供给和管理,RDA关注自下而上的数据共享工具和技术支持。政策制定方面,最为重要的是相关法律法规的建设,以此营造一种良好的外部环境。

2.2技术基础

数据引用的技术基础专注于处理数据的基础设施、系统及标识符。如:XML归档系统、RDF(Resource Description Framework)和数据库、永久标识的使用、定义框架和本体发布数据、创建数据库仓储及提供对数据的访问等。其中粒度问题、版本控制和唯一标识符是关键影响因素。

2.2.1粒度问题。引用粒度水平代表了数据的可重复性和可检索性。引用可以是数据集、数据集中的一个子集,也可以是一个特定记录集。引用系统应当允许多层粒度的引用,适用于数据、数据集或记录集的粒度应因上下文信息、不同规模和类型的数据等实际情况而不同。如:一组由图像组成的数据集,图像离开上下文环境仍能使用,而在特定时间点的大气测量数据集离开了上下文就会毫无意义,这时就应给予不同类型的标识符。DCC指出,数据引用粒度以满足研究者需求为准,如有不准确的地方,则需要在文章中引用数据的地方,写明引用数据集的细节信息[5]。

2.2.2版本控制。在数据的生命周期中可能会存在多版本的数据引用,如果动态数据集的变化过大或过于频繁,则难以追踪管理。好的版本控制可以解决诸如多版本系统的数据更新、同一数据集中引用多层粒度的问题,可以记录和跟踪数据的修改历史,可以使数据得以协作处理和共享。

2.2.3唯一标识符。数据引用唯一标识性,要求数据引用应当拥有一个机器可以识别的、全球唯一的、能够被广泛使用的可持续方法。随着唯一标识符方案的相继推出,出现了诸如数字对象标识符(DigitalObjectIdentifier,DOI)、统一持久资源定位符(Persistent Uniform Resource Locator, PURL)和文档资源钥匙持久标识符架构(the Archival Resource Key, ARK)等。这些方案提出了将唯一标识符与可引用的数据集建立映射关系,从而创建一组相关的元数据(如作者、版本、URL)用于引用数据。唯一标识符是数据引用的关键因素,但由于数据对象本身具有的多样性、动态性及边界模糊性,给标识符的分配带来了一定的困难,如何从根本上解决这一问题,还要冀希望于新技术的出现。endprint

3数据引用关键因素间的互动

科学数据的引用元素与传统基于文献的引用具有其相似性,但又因科学数据独特的属性而不尽相同。解决数据引用的核心问题是诸如粒度、版本、唯一标识符等技术规范问题,而数据引用规范的制订又会受到数据出版、共享政策等因素的制约。笔者把政策和机构基础设施归属于外部环境因素,良好的外部环境因素可以有效地促进数据引用及技术的发展,而技术的发展又可以影响环境及文化建设。从二者互动的关系看,环境和技术是一种相互影响,又相互促进的关系。

3.1纵向维度

从纵向维度看,开放数据不仅仅只是数据发布的过程,还包括数据发布之后的存储、管理、引用等,供除数据提供者之外的研究人员或者组织机构下载、分析、再利用,以及引用数据。规范的数据出版应包括数据提交、同行评议、数据发布和永久存储、数据引用、影响评价等五个阶段[6]。Koppenol等建立了开放数据的实践模型:数据引用与追溯、数据互操作、数据的无限制复用及数据语义互联四个阶段[7]。在开放数据的每个阶段中,良好的政策引导及共享机制,加上唯一标识符、版本控制等技术手段的实施,将促进数据共享的意愿及数据引用的良性发展。

3.2横向维度

数据引用涉及多重利益相关者,受到多维因素的影响。许多学者从多角度对数据引用进行分析或是构建模型、提出框架构想。张麗丽[8]从数据的时间属性出发,立足数据的全生命周期,剖析数据引用过程中的数据拥有者、出版商、用户、整合者、监管者的角色特征及相互关系与影响,认为灵活多样的选择数据引用规范方法,需要更多地关注数据相关利益者的行为特征,以有利于数据引用的可持续发展。

3.3兼顾纵横维度

在数据出版周期的各个节点,制定政策方的各主体旨在创设一种数据引证文化,建立数据共享机制、数据使用和复用机制、评价及奖励机制,从环境的角度对数据的获取、复用及引用产生影响;而数据引用的参与者、技术和利益相关者之间动态地对数据引用政策施以挑战,影响环境及文化建设。

4结语

基于以上对开放环境下数据引用的关键因素进行梳理和总结,笔者认为推进数据引用的发展可以从环境和技术两个方面加强,即健全发展数据引用相关机制和推进数据引用行为的规范化。环境方面,政府应当建立与数据引用相关的法律法规,要完善科研评价和人才激励机制;图书馆、数据中心、科研机构要加强对数据发布、共享及保存机制的规范要求,建立规范的管理机制。技术方面,数据发布/存储机构在发布数据时,应提供数据引用示范供使用者参考,或对使用者给出足够详细的数据属性描述信息(如唯一标识符及访问地址)。

参考文献:

[1]Bisco RL. Social Science Data Archives Technical Considerations [J].Social Science Information,1965(3):129-150.

[2]Dodd S.A. Bibliographic reference for numeric social science data feles: suggested guidelines[J]. Journal of the Association for Information Science & Technology,1979 (2):77-82.

[3]Altman ML, Andreev M. Diggory, G. King, S. Verba, et al. A digital library for the dissemination and replication of Quantitative Social Science Research The Virtual Data Center[J]. Social Science Computer Review,2001(4):458-470.

[4]CODATA. International organizations form partnership to increase the benefit of research data for society[EB/OL]. [2016-10-10]. https://www.eurekalert.org/pub_releases/2015-03/rda-iof030915.php.

[5]Ball A, Duke M. How to cite datasets and link to publications[EB/OL]. [2016-11-03]. http://www.dcc.ac.uk/resources/how-guides/cite-datasets/.

[6]张静蓓,任树怀.科研数据出版模式、流程及引用策略研究[J].图书情报工作,2015(9):21-25.

[7]Koppenol P , Divisional A. Open data in a big data world[J].Chemistry International, 2016(2):17.

[8]张丽丽,黎建辉.数据引用的相关利益者分析[J].情报理论与实践,2014(7):44-47.

(编校:马怀云)endprint