宋宁远 刘晶
(武汉大学信息管理学院,武汉 430072)
随着科学技术的发展,科学研究范式正在逐步向数据密集型科学研究过渡。作为科研活动的基本素材及产出形式,科学数据既是推动科学研究的重要支撑,也是科学交流体系的关键载体。规范化的数据描述方案一方面可以为用户提供追溯数据源的有效路径,实现科学数据的有效访问,辅助研究者发现科学数据中潜在的科学知识[1];另一方面,面向科学数据的元数据标准是实现科学数据有效复用与开放共享的基础,对促进以数据为主体的要素出版及语义出版的发展有十分重要的作用[2-3]。
目前,许多科研机构都发布了适用于特定领域的科学数据描述规范及元数据标准。其中,数据标签集(Data Tag Suite,DATS)是由美国国立卫生研究院开发的一套专门用于描述科学数据元数据及其结构的标签集[4-5],旨在为医学研究数据提供一套通用的数据描述框架,便于科学数据的表示、存储、管理和复用,具有适用范围广、粒度细等特点,能够较规范地描述科学数据。对DATS基本结构进行分析,可以更加明确数据描述机制与方法,为提出更规范、全面的数据描述方案提供参考与借鉴,进而促进科学数据的访问、分享和复用,更好地支撑数据引用。
DATS定义了用于科学数据集描述的元素(elements)、属性(property)及元素间关系(relations)。DATS元素可分为两大类,分别为核心元素和扩展元素。核心元素不受领域限制,具有普适性特征;扩展元素是根据特定领域(生命科学、环境科学及医学等)科学数据集的具体特点,制定的更为详细的描述方案,具备可扩展性,当出现新的数据描述需求时,可进一步根据具体领域的指定特征进行元素扩充。
DATS核心元素包含20个实体。按照DATS的定义,DATS核心元素被分为3类,分别是数字研究对象(Digital Research Object)、信息实体(Information Entity)和材料(Material)。数字研究对象类元素指科学研究过程中与科学数据集及其创建、存储、出版等活动相关的实体,信息实体类元素侧重对科学数据集的描述,材料类元素侧重描述与数据研究活动相关的机构、个人或物质性材料。DATS核心元素包含的子元素及其具体定义见表1。
DATS核心元素定义了179种属性,分为必选属性(M UST)、推荐属性(SHOU LD)和可选属性(MAY)。其中,必选属性23个,如标题(title)、类型(types)等;推荐属性62个,如标识符(identifier)、许可证(licenses)等;可选属性94个,如数据(dates)、空间信息(spatialCoverage)等。
表1 DATS核心元素实体定义
DATS扩展元素主要面向生命科学、环境科学及医学等领域对于科学数据集描述的特定需求,定义了13个实体。按照DATS标签集的定义,DATS扩展元素被分为4类,分别是流程(Process)、材料(Material)、疾病(Disease)和信息实体(Information Entity)。流程类元素旨在表征科学数据处理的一般过程,材料类元素旨在揭示产生科学数据的特定领域与具体来源,疾病类元素实现了生命科学、环境科学及医学等领域相关的疾病实体描述,信息实体类元素侧重对科学数据集的描述。DATS扩展元素包含的子元素及其具体定义见表2。
DATS扩展元素定义了137种属性。其包含17个必选属性,如名称(name)、输入(input)、输出(output)等;47个推荐属性,如初始数据(startDate)、结束数据(endDate)等;73个可选属性,如关键词(keywords)等。
DATS定义了30种基本元素关系。根据DATS元素关系在描述实体对象深层语义信息时的功能差异,以及关系定义域(domain)和值域(range)的不同,本文将30种实体关系进行分类。第一类为引用关系。主要描述数据集与出版物间的参考引用。第二类为归属关系。明确了对数据集、出版物等有贡献及责任的人、机构和基金。第三类为流程关系。主要描述科学数据研究过程中不同实体间的关系,揭示科学数据研究活动的执行过程;科学数据研究活动应用的仪器、软件和材料;科学数据研究活动输出的数据集。第四类为存储关系。主要描述数据集在数据仓库中的存储信息。第五类为许可与标准化关系。主要描述数据集、出版物和软件的许可信息。具体DATS元素关系见表3。
表2 DATS扩展元素实体定义
DATS在详细定义数据描述的元素同时,还对元素间关系进行较全面的描述。借助这些规范化的关系定义,更有利于实现科学数据间的关联共享。
为更好地对DATS进行分析,总结归纳其特征,本文通过与DataCite、HCLS等科学数据元数据描述方案及框架进行对比,在对比分析的基础上,总结DATS的特点。
DataCite元数据框架[6]和HCLS元数据模型[7]是目前相对主流的数据描述元数据框架。DataCite元数据框架由推进数据引用的规范化机构DataCite提出,是出于促进数据引用和数据检索的目的,为信息资源描述提供精确统一的标识而创建的科学数据元数据元素集合,适用对象为广义的科学数据集合,即涵盖各种类型的科学数据,而不局限于传统数字型数据。用户可以通过数字资源标识符(Digital Object Identifiers,DOI)永久访问数据资源。HCLS元数据模型由W3C开发,旨在描述健康与生命科学领域的数据集,强调与数据版本、来源、交换、查询和检索等相关的元素及其属性,对数据的描述分为概要层面(Summary Level)、版本层面(Version Level)和分布层面(Distribution Level),借助资源描述框架(Resource Description Framework,RDF)对数据集进行描述。表4从元素适用范围、元素属性、元素关系对DATS、DataCite和HCLS进行比较,总结DATS描述科学数据的特征和优势。
从表4可以发现,DATS、DataCite和HCLS都关注科学数据集的描述与引用问题,但是适用范围和组件结构各有不同,实际应用场景存在一定差异。通过对比分析发现,DATS的适用场景更灵活,组件定义更丰富。
通过分析DATS的元素、属性和关系,比较DATS、DataCite及HCLS的适用范围和组件结构,本文总结得出DATS描述科学数据集时具有以下4个特点。
(1)适用范围灵活,能够适应不同领域科学数据描述需求。DATS一方面通过核心元素集定义了通用领域的数据描述方案,另一方面通过扩展元素集实现对特定领域科学数据的表征。因此,DATS不仅可用于通用领域科学数据集的描述,也能够满足生命科学、环境科学及医学等领域科学数据描述的特定需求。
表3 DATS元素关系
(2)元素粒度丰富,能够更加精准地描述科学数据。相较于其他数据集描述方案,DATS定义了更丰富的元素和元素间关系,DATS通过对数据集和数据仓储等元素的定义,实现对独立数据、数据集、数据仓储、数据仓储集合等不同存在状态的科学数据规范化描述,并通过hasPart、aggregation、aggregatorOf等多种关系的定义,描述不同粒度科学数据间的语义关系。总体来说,DATS更加适应多粒度科学数据资源描述需求,描述能力更强,能够更精确地实现科学数据的描述与定义。
(3)关联外部资源,全面揭示科学数据的情境信息。DATS以数据集实体为核心,同时定义了用以描述外部资源的实体(如科学研究过程、所用材料等),并通过元素属性和关系实现数据集与外部资源的关联,共同揭示科学数据的语义信息和情境信息,便于研究人员深入理解科学数据的研究过程。
(4)描述更规范,与主流元数据标准进行映射。DATS标签集通过复用已有科学数据描述方案中的部分元素及属性,实现DATS标签集与现有元数据模型的映射。复用的元数据既包括通用领域的元数据框架,如通用标记词汇元素标签集(schema.org)[8]和DataCite元数据框架;又包含特定领域科学数据的元数据框架,如健康与生命科学领域描述数据集(HCLS)和ga4gh metadata model[9]。通过与不同元数据框架的映射,DATS实现了对现有资源的复用,对元素的定义更规范,可扩展性更强。
表4 元数据描述方案对比
通过以上对比分析不难发现,DATS在数据描述、资源关联等方面具有较强的表达能力,为进一步明确DATS的适用性,本文分别从数据描述、数据归属、数据关联、数据访问四个方面对DATS使用情况进行讨论。
实现科学数据准确复用的前提是对科学数据进行准确描述,包括对科学数据的类型、标题、关键词等详细定义与表征。DATS围绕科学数据,定义数据标准、数据类型、维度、注释、时间和地点等元素,同时对包括标题、类型等在内的属性信息进行表征,多维度地定义了科学数据及数据集。此外,DATS还分别定义了数据、数据集、数据仓储、数据仓储集合等元素,多粒度地揭示了科学数据的深层语义特征,奠定数据引用的基础。另外,通过扩展元素,DATS还可以更精确地表征科学数据的领域特征。因此,DATS多维度、多粒度、可扩展地定义领域科学数据的特点,能够更好地支撑数据引用。
Parsons[10]和Borgman[11]将归属与数据问责联系起来,从而明确“谁创造了数据价值”及“谁应该为数据负责”。有研究进一步指出,单一的数据归属机制并不适用于所有科学数据,科学数据应该归属于所有对数据有贡献的个人或机构[12]。对科学数据的归属信息进行准确定义,有助于对数据贡献者研究工作的认可与嘉奖,推动科学数据创建、出版和管理的科研信用及奖赏机制的完善。
DATS定义了机构类元素,详细定义了人物、机构、基金、出版商等实体,并对数据集与机构类元素间的归属关系进行了清晰明确的定义,能够准确表示科学数据的来源信息。DATS不仅能够满足科学数据贡献者的描述需求,而且是对数据贡献者研究工作的认可,是对贡献者所承担责任的监督,能够促进研究机构、个人更加规范地引用和分享科学数据。
数据关联侧重描述科学数据与外部资源,如出版物、数据集等多类型资源的关联。实现广泛的数据关联是支撑数据引用的关键,借助数据间的关联关系,可以准确地定位数据归属,并为数据访问提供路径。
DATS定义了数据集的citation和primaryPublicationg关系,实现了科学数据与出版物实体的关联,增强了科学数据和科技文献的互操作性;DATS核心元素定义了数据集与软件、材料等实体的关联,描述管理或获取科学数据的软件及与科学数据相关的物质实体;DATS扩展元素定义了医学领域的特定资源,揭示医学领域科学数据研究过程中可能涉及的资源实体。DATS通过科学数据与外部资源的关联描述,很大程度上增强了科学数据的情境信息,能够帮助用户获取与科学数据所属领域和研究活动相关的知识,从而更好地促进用户对科学数据的理解和复用。
数据访问侧重科学数据的检索、发现、访问和复用。通常情况下,科学数据就像科学文献中的一个隐藏知识实体,很难被研究人员发现和检索。因此,为更好地实现数据引用,科学数据描述方案尤其需要重视对数据访问的支持。
数据访问主要包括访问限制、载体媒介、存储位置和唯一资源标识符。在访问限制方面,DATS定义了许可元素,描述科学数据的合法操作类型,如重新分配、修改、复用等;DATS还定义了访问元素,如描述科学数据的访问类型(下载、远程访问、局部访问、不可访问等)、科学数据的授权类型(无授权、点击同意授权、注册授权等)、科学数据的物理访问路径(登录页面和标准URL)。在载体媒介方面,DATS定义了数据集分布的formats属性,描述了科学数据的载体媒介,如PDF、XML、Application等。存储位置和唯一资源标识符方面,DATS定义了storedIn属性,描述了科学数据的物理存储位置。然而,对于科学数据而言,物理存储位置(如URL)存在易变和缺乏持久性的问题,而唯一资源标识符能够为资源提供唯一的、独立于物理存储位置且持续不变的标识符,解决物理存储位置的问题。目前比较具有代表性的唯一标识符包括DOI[13]、统一资源标识符(Uniform Resource Name)[14]、Handles[15]等。DATS采用DOI作为数据集的唯一资源标识符,用户可以通过DOI地址持续稳定地访问科学数据,推动用户对科学数据的引用和复用。因此,借助DATS可以更准确地定义科学数据的存储位置及访问方式,更好地适用于数据引用。
本文分析了DATS的元素、属性及其关系,并将其与DataCite、HCLS元数据框架进行比较,分析总结DATS在描述科学数据时的特征和优势,最后详细阐述DATS的适用性情况。研究表明,DATS标签集具有强大的数据引用能力,能够满足通用领域和特定领域对于数据管理和数据复用的需求。本研究的不足之处在于对DATS在数据引用中的适用性研究侧重理论层面,未来将继续对DATS在数据引用中的适用性进行实证研究。
[1]IQSS. Data citation principals[R]. Boston:Harvard University,2012:1-21.
[2]黄如花,李楠. 国外科学数据引用规范调查分析与启示[J]. 图书馆学研究,2016(10):2-9.
[3]李丹丹,吴振新. 研究数据引用研究[J]. 图书馆杂志,2013,32(5):65-71.
[4]HUNGER C,VILANOVA L,PAPAMANTHOU C,et al.DATS-Data Containers for Web Applications[C]// International Conference,2018:722-736.
[5]Working Group 3:descriptive metadata for datasets-dats model[EB/OL].[2018-05-08]. https://biocaddie.org/group/workinggroup/working-group-3-descriptive-metadata-datasets.
[6]DataCite Metadata Schema 4.0[EB/OL].(2016-09-19)[2017-11-13]. http://doi.org/10.5438/0012.
[7]Dataset Descriptions:HCLS Community Profile[EB/OL].[2017-11-13]. https://www.w3.org/TR/hcls-dataset/.
[8]Schema.org[EB/OL].[2017-11-13]. https://fairsharing.org/bsg-s000593.
[9]ga4gh-schemas[EB/OL].[2017-11-13]. https://github.com/ga4gh/ga4gh-schemas.
[10]PARSONS M A. How to cite an earth science data set the National Snow and Ice Data Center[C]// AGU Fall Meeting,2012.
[11]BORGMAN C L. Big data,little data,no data[J]. Big Data Little Data,2015.
[12]宋宇,真溱,汤珊红. 数据引用的共同原则[J]. 情报理论与实践,2015,38(8):145.
[13]吴立宗,王亮绪,南卓铜,等. DOI 在数据引用中的应用:问题与建议[J]. 遥感技术与应用,2013,28(3):377-382.
[14]Uniform Resource Names(URN)Namespaces[EB/OL].[2017-06-14]. http://www.iana.org/assignments/urnnamespaces/urn-namespaces.xhtml.
[15]PANGAEA[EB/OL].[2018-03-01]. http://www.pangaea.de/.