屈亚杰 黄国彬 王传清
(1.北京舞蹈学院图书馆 北京 100081;2.北京师范大学政府管理学院 北京 100875;3.中国科学院文献情报中心 北京 100190;4.富媒体数字出版内容组织与知识服务重点实验室 北京 100038)
科学数据(Scientific data)又称“科研数据”、“研究数据”,是指在科研活动过程中产出的,能够反映客观世界本质、特征及变化规律的原始数据,以及根据科学研究活动需要而加工处理的数据集合[1]。数据密集型科学的发现,使得科学数据的价值逐步凸显,它不仅仅是研究产出,而且能够验证研究结果、佐证科学发现,还会产生新的假设、新的科学问题,成为驱动创新的源泉。然而由于科学数据来源广、数量大、种类多等特点,科学数据的获取和处理已成为科研人员面临的重大难题之一,而解决该难题的关键则是建设一个集数据存储、描述、共享、获取等功能于一身的科学数据发布平台,至此,不同类型、各具特色的科学数据发布平台应运而生[2]。其中,国家级科学数据发布平台有:美国校际社会科学数据共享联盟存储库(ICPSR)、美国国家冰雪数据中心(NSIDC)、英国数据存档中心(UKDA)、英国海洋数据中心(BODC)、澳大利亚数据存储库(ADA)、德国地球环境科学数据存储库(PANGAEA)、DANS-EASY等;机构级科学数据发布平台有:明尼苏达大学科学数据存储库(DRUM)、布里斯托大学科学数据存储库(DRDR)、利兹大学科学数据存储库(RDL Repository)、奥德姆研究所数据存储库(ODUM)、西澳大利亚数据存储库(RDO)、4TU科学数据存储库及我国的北京大学开放研究数据平台、复旦大学社会科学数据平台等,这些平台具有采集、存储、管理和发布数据等功能,在管理和共享科学数据方面发挥着重要作用。
关于科学数据发布平台建设,学者们从多个角度开展了相关研究,包括平台建设情况调查分析、平台建设具体案例介绍、平台内容建设研究、不同平台的比较研究、平台的优化与评价研究等。其中,与平台内容建设相关的研究可分为两个方面:
(1)平台内容建设只是研究中的一部分内容,比如在具体案例介绍、平台比较时会涉及内容建设问题。RADAR是一个跨学科的数字数据存储库,支持保存、管理和发布数据,Kraft A等[3]对其建设现状进行了调研分析,涉及数据范围、元数据方案等内容。王丹丹等[4]在介绍德国社会科学数据管理与服务平台Sowi Data Net|Datorium的建设经验中提到了要重视数据质量,指出该平台对数据质量有严格的控制,对提交的各类型数据都会进行数据本身、元数据及其附带文档的检查。袁梦雪[5]从建设基础和管理过程两个维度对比国内外11个健康医学科学数据管理平台的建设实践,其中,在对比数据管理过程时阐述了数据采集标准与流程、数据描述与元数据、数据存储与保护等内容建设问题。汤子钰等[6]选择了20个国外代表性数据监护平台,对其使用的数据生命周期模型、技术规范、组件、软件工具、功能等各方面进行了全面调研,并分析了数据采集、数据处理、数据保存等内容。
(2)专门探讨平台中某方面内容建设问题,比如元数据管理、数据组织、资源建设模式等。针对Dryad科学数据仓储的元数据管理,黄如花等[7]从元数据标准的选择、元数据记录的创建、元数据的收割以及元数据的复用等元数据生命周期的不同阶段进行分析;Rousidis D等在对DC进行描述性分析的基础上,阐释了Dryad的主题元数据元素和数据质量问题,并指出与缺乏受控词汇和标准化相关的质量问题非常普遍[8]。司莉等[9]从数据组织方式、数据描述、数据检索等方面分析了国家科技基础条件平台项目下的6家科学数据共享平台在数据组织方面的现状、问题并提出改进建议。李赞梅等[10]总结了国家人口与健康科学数据共享平台资源建设模式的四个特点,并分析该平台资源建设在管理、标准化、规范化方面存在的主要问题。
已有研究从多角度探讨了数据采集、数据组织、数据描述、数据保存等平台内容建设问题,但有的只属于研究的其中一小部分,提及或涉及平台内容建设,但分析不够深入;有的只是针对某方面内容展开研究,分析不够全面。因此,本文系统整理与分析平台内容建设应考虑的要素,力求全面、深入阐述科学数据发布平台的内容建设机制。
本文综合采用文献调研法、网站调研法、案例研究法等,结合国内外发展较成熟的科学数据发布平台建设实例,系统探讨平台的内容建设机制。
文献调研法是一种通过搜集各种文献资料、摘取有用信息,分析有关内容的研究方法,是科学研究中最常见的一种研究方法[11]。本文通过CNKI、万方数据库、超星发现平台、Web of Science、ProQuest、EBSCO等多个数据库,Google、Bing等搜索引擎进行相关文献的检索与搜集,对检索到的文献进行深入系统的分析,得出论文写作的数据与素材。
网站调研法是一种通过访问调查对象网站,获得有用信息并对信息进行整理分析的方法。本文对国内外发展较成熟、数据规模大、影响力大的科学数据发布平台的官网进行访问,如UKDA、ICPSR、BODC、NSIDC等,调研科学数据发布平台在数据采集、数据分类、数据描述、数据质量控制等内容建设方面的零次信息。
案例研究法,是指研究者选择一个或几个场景为对象,系统地收集数据和资料,进行深入研究,用以探讨某一现象在具体情境下的状况[12]。本文以具体的科学数据发布平台为例,如UKDA、ICPSR、BODC、NSIDC等,从数据采集、数据分类、数据描述、数据质量控制等内容建设角度加以分析和阐述。
科学数据发布平台的内容建设,指的是平台对采集到的数据资源进行序化整理的过程,具体包括数据采集、数据分类、数据描述及数据质量控制。内容建设是科学数据发布平台建设的核心,数据采集、数据分类、数据描述及数据质量控制等流程是决定平台建设质量的重要步骤,也是环环相扣的整体。其建设机制如图1所示。
图1 科学数据发布平台的内容建设机制图
科学数据发布平台内容建设的重要问题就是如何把不同层次的科学研究所产出的不同学科、不同类型、不同格式的数据采集成为本地资源,形成一个良好的科学数据管理与共享环境。所谓数据采集,指的是平台建设者收集科学数据的过程,一般应考虑科学数据采集标准、采集渠道及采集范围等因素。
3.1.1 数据采集标准
所谓数据采集标准,指的是平台建设者采集科学数据时所应遵循的一些基本准则,符合基本准则的科学数据才被纳入采集范围。例如,ICPSR收集数据的标准如下:社会科学界重视的数据、支持其使命的数据、社会科学实质领域的数据、有助于利用当前和新兴研究和统计技术的数据及允许使用定量或定性社会科学研究技术的数据。基于这些标准,ICPSR对多样性数据、复杂数据、混合方法数据、跨学科数据及国际数据特别感兴趣,同时,在其他地方不可获取的数据、公共领域的数据、版权明确的数据、遵守隐私和保密标准的数据、技术文档完整的数据、格式便于使用的数据是ICPSR优先采集的数据[13]。ODUM收集数据时考虑如下因素:数据是否对社会科学研究具有实质意义、数据是否对特定研究社区有持久的价值、数据是否是唯一的(即没有存储到另一个存储库中)、数据是否符合准确性和解释性的质量标准以及数据是否附有完整和可读的文件[14]。不同科学数据发布平台关于数据采集标准的具体规定存在差异,但总体来说,采集标准包括数据是否对科学研究具有重要价值、是否与平台使命相契合、数据本身的完整准确性等方面。
3.1.2 数据采集渠道
数据采集渠道主要探讨的是平台建设者从哪里收集科学数据的问题。一般来说,科研人员或科研机构是研究项目所产出科学数据的直接拥有者,而平台所发布科学数据的主要使用者也是科研人员,因而科研机构是平台建设者采集数据的重要渠道。例如,BODC的数据主要来源于学术机构的科学研究和检测,如海岸、海底和深海测量数据,地面取样、水柱和海底测量数据[15]。由明尼苏达大学图书馆建设和维护的科学数据发布平台DRUM,其数据来源主要是本机构内研究人员的科研产出,该平台在《数据收集政策》中明确规定,“所收集的数据必须至少由明尼苏达大学的一位研究人员产出”[16]。很多研究项目的开展离不开科研资助机构的资金支持,随着科学数据价值的逐步凸显和数据共享运动的影响,科研资助机构纷纷要求由其资助而产生的科学数据要存储到适合的平台进行管理和共享,这在一定程度上拓宽了平台建设者采集数据的渠道。例如,ICPSR与包括美国统计机构和基金会在内的许多资助者合作,收录了教育、老龄化、刑事司法、药物滥用、恐怖主义等21个专题的数据集,为社会科学研究提供数据支持[17]。另外,政府机构也是平台采集数据的重要渠道。例如,20世纪70年代以来,UKDA与英国政府机构建立了长期的合作关系,政府机构特别是中央政府机构是系列数据(data series)的主要提供者,例如国家统计局(ONS)开展的一般家庭住户调查(GHS)、劳动力调查(LFS)及英国健康调查(HSE)等所得到的普查和大型调查数据,通常都是系列数据,具有连续性。
总体来说,科研机构、资助机构和政府机构是平台采集科学数据的重要渠道,其中,国家级科学数据发布平台的采集渠道较广,三类机构可能都会涉及;而机构级科学数据发布平台较少采集政府机构数据,一般来自于机构内研究人员。
3.1.3 数据采集范围
数据采集范围主要解决采集哪些数据的问题,它主要涉及数据的学科与格式方面的内容,例如平台应采集某类学科研究所产出的数据,还是采集多学科数据?平台所采集数据在格式方面有哪些要求?
在学科方面,不同类型的科学数据发布平台采集数据时应考虑平台的建设目标与使命。例如单一型发布平台的建设目标主要是对某类科学数据进行存储、管理与共享,因而收录数据仅局限于某类学科,例如:BODC主要收录生物、化学、物理领域的海洋数据、ICPSR重点采集社会与人文学科数据;而混合型发布平台的使命是实现对科学数据的监护管理,因而在学科方面没有设限,采集的数据涉及多个学科,如DANS-EASY收录数据涉及的学科包括社会与行为科学、人文科学、自然科学、生命科学、地理科学等。
在格式方面,虽然自然科学和社会与人文科学的数据格式存在较大差异,比如调查统计数据通常是SPSS、SAS等格式,而海洋数据视图则是ODV格式,但是在数据的格式要求方面有一些共同准则,即数据格式要适合长期可持续性和可访问性。这是因为数字数据以文件格式存储,一般是标准的软件格式,而软件程序存储信息时,通常以该程序的标准文件格式保存,但是这并不能保证将来文件内容可以按照文件创建时的预期方式使用或显示。软件可能会过时或只支持某些版本的格式,特定的格式属性也可能只适用于所使用的软件,而不是任何人都可以访问。因而平台采集科学数据时应优先选择通用的数据文件格式。例如,DANS-EASY采集科学数据时,重点选择两种文件格式类别:一种是首选格式,指的是在数据可用性、可访问性和可持续性方面提供最佳长期保证的文件格式;另一种是可接受的格式,指的是除了首选格式之外广泛使用的文件格式,并且从长远来看,在数据可访问性方面具有一定的保证。DANS-ESAY采集统计数据的首选格式包括SPSS Portable (.por)、SPSS (.sav)、STATA (.dta)、DDI (.xml)、data (.csv) + setup(.txt),可接受格式是SAS (.7dat; .sd2; .tpt)、R (*under examination)[18]。
采集数据是科学数据发布平台内容建设的重要步骤,而明确数据的采集标准、采集渠道及采集范围是平台建设者的基本职责。虽然在采集标准和采集范围方面,不同类型科学数据发布平台存在一些差异,但总体来说有一些共同的要求都需要遵循,比如采集标准应考虑数据是否对科学研究具有重要价值、是否与平台使命相契合、数据本身的完整准确性等内容,数据格式要适合长期可持续性和可访问性。而数据的采集渠道一般包括科研机构、资助机构和政府机构,同时,从商业机构处购买数据、定期审查学术刊物、关注专业的科学会议、参考会员机构工作人员的建议等也是不可忽视的数据采集渠道。
数据分类,是指将平台所采集的数据按照一定的方式进行组织整合,并在平台首页或检索页分门别类地呈现给用户。该流程是对平台数据的序化,使杂乱无章的各类数据有章可循,同时,对用户而言,通过数据分类,一方面能够快速了解平台的资源概况,另一方面也能按类检索,便于查找所需数据。
针对数字资源分类,研究人员已经提出了多种方案,如按照资源类型、资源提供者、资源存储介质等[19]。从某种程度上来说,科学数据也是数字资源的一种,因而平台建设者对其采集的科学数据分类时,可借鉴数字资源的分类方式。通过对国外建设较好的科学数据发布平台数据分类方式的调研,发现主题与数据类型是划分科学数据类别的主要方式。由于科学数据发布平台的类型和性质不同,因而即便都是按照主题对数据分类,在具体的分类角度方面也存在一些差异。比如,UKDA按照主题将数据分为老龄化、犯罪、经济、教育、环境和能源、种族、食品和食品安全、健康、住房、信息和交流、劳动力、政治及贫困等13个类别[20]。主要收集来自卫星和实地观测与冰冻圈有关的数据NSIDC按照主题,将采集的科学数据分为冰川、冰盖、冻土、海冰、雪等类型[21]。在数据类型方面,DRUM将数据分为实验数据、观测数据、仿真数据、调查数据、统计数据、空间数据、软件代码等类型[22]。ADA按类型将数据分为定量和定性数据[23]。ICPSR对其收录的系列数据按照字顺A-Z的方式进行展示,每个系列名称后面标注出该系列研究数据的数量,供用户浏览和检索[24]。其中,系列数据指的是关于同一主题的系列研究所产生的数据,该类研究数据一般会持续更新。例如美国住房调查(AHS),最初是由美国人口普查局于1973年开展。该系列包括两类数据收集:全国住房调查和选定的大都市地区住房调查。其中,全国住房调查数据每两年收集一次,大都市地区住房调查数据是连续收集的,每年报告一次。收集的数据不断补充到美国住房调查数据中[25]。
另外,在进行数据分类时,地理区域、机构、时间等角度也有所涉及。地理区域主要是指科学数据所涉及的国家或地方,ADA将地理区域分为欧洲、非洲、亚洲、北美洲、南美洲等[26]。ICPSR对地理区域的划分比较详细,按照字顺A-Z的方式对国家进行了列举[27]。西澳大利亚数据存储库(RDO)提供了按数据提交机构展开分类的方式,这些机构通常是西澳大利亚大学的子研究机构,如教育学院、法律系、农业研究所、海洋研究所、地球科学学院等,点击机构名称即可浏览该机构所提交的科学数据[28]。利兹大学数据存储库(RDL Repository)从时间维度展开分类,按照由近及远的方式予以展示,并在各年度后标注出相对应的数据集数量信息[29]。
总结来说,数据分类是平台建设的重要环节,而平台建设者在对所采集数据进行分类时,可以考虑从科学数据的主题、类型、地理区域、机构等角度展开。当然,由于每个平台的建设目标、建设使命、收录数据等具体情况不同,可以综合使用多种分类方式,也可以仅采用某一种分类方式。例如,ICPSR是目前世界上最大的社会科学数据中心,维护50多万条社会科学和行为科学研究数据,其建设使命是成为全球数据管理的领先者,因而,ICPSR在对数据进行分类时,综合使用了主题、类型、地理区域三种分类方式,并在检索首页以浏览的方式予以展示,方便用户按类检索。
数据描述,是指为满足科学数据的组织需求,按照特定的标准规范,对科学数据的外在形态和内部特征进行分析的过程。在这一过程中,元数据发挥着重要作用。所谓元数据,即关于数据的数据,它对信息资源或数据进行结构化描述,具有识别、定位和检索的作用。用于描述科学数据的元数据标准有很多,例如:都柏林核心元数据元素集(Dublin Core Elements Set, DC)、数据文档计划(Data Documentation Initiative, DDI)、目录交换格式(Directory Interchange Format, DIF)、联邦地理数据委员会数字地理空间元数据内容标准(FGDC/CSDGM)等。它们可分为通用元数据标准和学科元数据标准。
3.3.1 通用元数据描述标准
通用科学数据元数据标准适用范围较广,可以对不同学科的科学数据进行描述,其元素设置具有可扩展性、弹性、模块化和可移植性等特点。例如Dublin Core、DataCite Metadata Schema是应用较广泛的通用科学数据元数据标准。其中,都柏林核心集最初是为了描述电子资源而产生的,但由于其简明易用,加之OCLC的大力推广及DC元素的不断修正补充,其描述范围不断扩大,基本可适用于任何资源类型,并已经被批准为国际标准ISO15836。它的15个核心描述项分别是题名(title)、创建者(creator)、主题(subject)、描述(description)、出版者(publisher)、其他责任者(contributor)、日期(date)、类型(type)、格式(format)、标识符(identifier)、语种(language)、来源(source)、关联(relation)、覆盖范围(coverage)、权限(rights)等[30]。由于科学数据属于电子资源的范畴,同时DC具有简明易用、语义互用、兼容性、灵活性、全面性及可拓展性等优势,因而许多科学数据发布平台在进行数据描述时优先选择元素完善且发展成熟的DC,例如英国海洋数据中心(BODC)、明尼苏达大学科学数据存储库(DRUM)、布里斯托大学科学数据存储库(DRDR)、4TU科学数据存储库、DANS-EASY、利兹大学科学数据存储库(RDL Repository)等。其中,DANS-EASY对其所采集数据进行描述的元素项包括数据集标题、数据集产出者、数据集产出日期、数据集描述信息(如摘要)、数据集所属学科、数据集地理范围、数据集类型、数据集格式、数据集语言、数据集获取权限等[31]。
3.3.2 学科元数据描述标准
学科元数据标准的适用范围一般仅为某学科领域的科学数据,例如DDI主要是用于描述社会、行为和经济科学数据的元数据标准,它以XML表示,支持整个科学数据生命周期[32]。FGDC/CSDGM是用于描述数字地理空间数据的元数据标准,由美国联邦地理数据委员会提供支持[33]。
DDI以XML(可扩展标记语言)来表达数据文档的内容、表示、传输和保存的规范,XML允许对文档内容进行标记,以便在数据生命周期内进行检索和重新使用。其目的主要是用于描述社会科学数据,该元数据标准中的元素很多,包括但不限于:主要调查者、资金来源、数据收集者/生产者、项目描述、样本和取样程序、权重、数据集的实质性、时间性和地理覆盖范围、数据源、分析/观察单位、变量、数据收集工具等。英国社会科学数据存储库(UKDA)、美国校际社会科学数据共享联盟存储库(ICPSR)、奥德姆研究所社会科学数据存储(ODUM)、澳大利亚科学数据存储库(ADA)等社会科学数据发布平台倾向于应用DDI进行数据描述。例如,UKDA使用DDI创建的元数据记录包括研究描述、数据文件描述和变量描述3部分。其中,研究描述是对数据收集背景的说明信息,包括研究和数据的参考引用书目信息、研究范围(主题、地理位置、时间)、数据收集方法、样本和处理过程、数据访问信息等;数据文件描述是对数据本身的说明信息,如数据格式、数据文件类型、数据文件结构、缺失数据、加权变量和软件等[34]。FGDC数字地理空间元数据内容标准旨在为数字地理空间数据集提供一套通用的术语和定义,它按照段(section)、复合元素(compound element)、数据元素(data element)进行组织,包括标识符信息、数据质量信息、空间数据组织信息、空间参照信息、实体和属性信息、数据分发信息、元数据参考信息等7个主要子集和引用信息、时间段信息及联系信息等3个辅助子集。并对这些子集规定了三种性质,即必需提供、一定条件下必需提供及可选提供[35]。美国国家冰雪数据中心(NSIDC)和英国海洋数据中心(BODC)对其采集的数据进行描述时都应用了FGDC/CSDGM。例如,NSIDC在数据集描述页面提供了概览(overview)、引用(citing)、用户指南(user guide)、技术参考(technical reference)及支持(support)等5个子集,其中“概览”子集中,从参数、空间覆盖范围、空间分辨率、时间范围、数据格式、传感器、版本、数据贡献者等角度描述科学数据[36]。
数据描述是平台资源建设的核心环节,其主要目的是对科学数据的相关信息予以揭示,从而便于用户理解与重用。总结来说,科学数据的外在描述项包括数据标题、数据主要产出者、数据提交者、数据资助者、数据收集时间、数据发布时间等;内在描述项包括数据类型、数据格式、数据所属学科、数据文件结构等。因而在对科学数据进行描述时,这些核心元素项应重点关注。另外,由于平台所收录数据在学科、类型等方面存在差异,因而要根据具体情况选择适合的元数据标准,比如单一型科学数据发布平台最好选择学科元数据标准。同时,元数据标准之间并不互斥,平台在进行数据描述时可采用多个元数据标准,例如英国海洋数据中心(BODC)在应用地理空间数据方面元数据标准FGDC/CSDGM、DIF的同时,还参考应用了通用型元数据标准Dublin Core,共同揭示所收录科学数据的内外部特征。
平台所发布数据质量的好坏影响着研究人员对平台的信任度,因而对数据进行质量控制显得至关重要。虽然关于数据质量的定义有不同的界定,但总体来说,高质量的数据应包含完整性、准确性、一致性、可靠性等特点。而数据质量控制,指的是为确保平台数据的完整性与长期可用性,在数据处理过程中,科学数据发布平台的工作人员对所存储数据从形式质量和内容质量方面进行的一系列审核措施。具体而言,包括但不限于以下内容:①审查数据集的完整性和准确性,包括数据文件和随附文档;②审查数据集的格式,确保数据文件和文档文件采用在将来还可以打开和使用的格式;③审查数据集元数据的完整性和准确性;④审查数据文件和元数据中存在的隐私敏感信息。质量审核的时间贯穿数据提交的全阶段,自动审核通常发生在数据集提交过程中,人工审核通常在数据提交前或数据提交后[37]。
3.4.1 形式质量控制
科学数据的形式质量指的是与数据集外在形式有关的内容,包括数据文件的可读性、数据格式的长期性、数据描述信息的充分性等。它们对用户理解科学数据、长期访问和使用科学数据等发挥着重要作用,是平台开展质量控制工作的重要方面。由于形式质量不涉及科学数据集本身,审核主体一般是平台数据管理人员。例如,PANGAEA会对元数据的完整性和一致性进行检查,以确保数据的技术质量。研究人员在将数据存入DANS-EASY后,工作人员将根据标准数据处理协议进行数据处理。该协议的目的是确保数据在长期内可找到、可访问和易于理解。审核的内容包括:①文件的可读性,包括审核上传的数据集是否能够打开、数据在传输过程中是否有损坏等;②文件格式,基于优选文件格式的列表(a list of preferred file formats)进行审核,确保数据文件和文档文件采用在将来还可以打开和使用的格式;③审核数据集元数据信息的完整性和准确性,并进行改进[38]。由于平台数据有一部分是通过自存储行为采集的,该类数据的描述性元数据一般由研究人员自行输入,因而不可避免地会出现元数据质量不合格的现象,基于此,对科学数据元数据信息的审核很有必要。例如,为了实现长期可用性和未来访问的目的,BODC对数据描述信息的完整性做了规定,指出对于所有类型的数据,都至少应提供如下元数据信息:①数据收集的位置:位置(最好是纬度和经度)、高度/深度;②数据收集的时间(UTC日期或明确指定的时区);③数据收集的方式(例如抽样方法、仪器类型、分析技术);④数据收集的主体,包括研究发起人和主要研究人员的姓名和机构;⑤对数据做了什么(例如,应用的处理和校准细节,用于计算派生参数的算法)[39]。
3.4.2 内容质量控制
科学数据的内容质量指的是数据集本身的质量,数据集质量包括技术质量与科学质量,其中技术质量是指数据集本身的完整性和描述的充分性;科学质量是指数据集收集方法的评价、科学数据的合理性和再使用的价值[40]。由于内容质量审核深入到数据集本身,专业性较强,审核主体除了平台管理人员,还应有相应学科的数据专家,同时审核数据存在疑问时,应及时与数据创建者沟通联系。这是因为无论是数据收集阶段还是数据输入或转录阶段,数据创建者都有责任确保数据的高质量。国外建设较好的科学数据发布平台在内容质量控制方面的经验值得借鉴。例如,为了确保变量和值的准确性,UKDA在处理过程中对所存储数据的内容质量进行审核,包括检查变量的数值、检查缺失值或错误值、必须检查所有分类变量的超范围值、在可能的情况下必须检查间隔变量是否违反机密性等[41]。ICPSR指出,在社会科学数据存储中可能包含研究对象机密性信息的两类变量分别是直接标识符和间接标识符,应重点审核。其中,直接标识符指的是明确揭示特定个人信息的变量,例如名称、地址(包括邮政编码)、电话号码、社会安全号码、驾驶证号码等;间接标识符指的是与其他信息结合能够揭示个人信息的变量,例如详细的地理位置(如州、县或人口普查区)、教育机构、详细的职业头衔、被调查者所在的办公室等。ICPSR对于涉及个人信息的内容会重新编码以降低识别风险,如将详细的日期转换为时间间隔、详细的地理信息编码到更广泛的层次或地理位置[42]。DANS-EASY的工作人员会对数据文件和元数据中是否存在隐私敏感数据进行审核,如果一个文件包含确切名称和确切受访者的出生日期,这些变量将被删除。受访者的确切联络资料也会被删除,只会保留邮政编码,确切的工作名称也不会提供。然而,由于可以从工作分类推断受访者的工作,因此,一般情况下所有可识别受访者个人信息的变量都将被删除。具有隐私敏感性的数据集将仅以匿名格式提供[38]。
虽然目前对科学数据的审核不如学术论文严格与规范,暂时尚未形成同行评议的机制,但并不意味着任何数据都能够被数据发布平台接收。平台的数据管理人员需要对科学数据的形式质量和内容质量进行审核。对于内容不完整、格式不通用、描述信息不充分的数据,要及时与数据创建者联系,对于涉及个人隐私信息的数据,要采取重新编码或删除变量等措施降低识别风险。
本文系统整理与分析平台内容建设应考虑的要素,从数据采集、数据分类、数据描述及数据质量控制等流程对科学数据发布平台的内容建设机制进行系统剖析。
研究发现:①采集数据时应考虑数据是否对科学研究具有重要价值、是否与平台使命相契合、数据本身的完整准确性等内容,数据格式要符合长期可持续性和可访问性等;科研机构、资助机构和政府机构是采集科学数据的主要渠道。②平台通常从科学数据的主题、类型、地理区域、机构等角度对所采集数据进行分类,平台建设者应结合建设目标、建设使命、收录数据等具体情况,可以综合使用多种分类方式,也可以仅采用某一种分类方式。③平台建设者可根据所收录数据的学科与类型来选择适合的元数据标准。通常来说,科学数据的外在描述项包括数据标题、数据主要产出者、数据提交者、数据资助者、数据收集时间、数据发布时间等;内在描述项包括数据类型、数据格式、数据所属学科、数据文件结构等。在对科学数据进行描述时,这些核心元素项应重点关注。④平台的数据管理人员须重视审核科学数据的形式质量和内容质量。对于内容不完整、格式不通用、描述信息不充分的数据,要及时与数据创建者联系,对于涉及个人隐私信息的数据,要采取重新编码或删除变量等措施降低识别风险。