, ,
科学数据是通过对自然和社会的观察、感知、计算、实验、仿真、模拟等产生的数据[1],包括观测型数据(Observational data)、计算型数据(Computational data)、实验型数据(Experimental data)、记录型数据(Records)4种类型[2]。有效地管理好这些数据不仅是科研管理的要求,更是科学再发现、社会价值再创造的需求。为了帮助科研组织科研人员做好科学数据管理工作,不同组织机构提出了若干数据生命周期模型,从不同角度描述了数据从产生、收集、描述、存储、发现、分析到再利用的整个生命周期。地球观测卫星委员会(Committee on Earth Observation Satellites,CEOS)信息系统与服务工作小组(Working Group on Information Systems and Services)2012年4月发布的调研报告显示,已经有55个不同的科学数据管理生命周期模型[3],它们会随着研究、实践的发展,不断发生新增、版本更新等变化。了解、分析这些数据管理模型的内涵和特点,不仅有利于数据管理研究人员把握相关研究与实践现状,推动数据管理研究的发展,而且也有利于数据管理需求人员找准切合实际应用的模型,落实好本地的数据管理活动。
鉴于此,本文对7个科学数据管理生命周期模型的提出机构、适用范围、结构特点、构成要素、应用实践等方面进行了分析与比较,为我国数据管理相关研究、应用人员提供参考和借鉴信息,从而促进我国科学数据管理的发展。
本文以代表性、典型性等为原则,选取了7个科学数据管理生命周期模型作为研究对象,分别是:英国DCC(Digital Curation Centre,数字审编中心)提出的DCC审编生命周期模型(DCC Curation Lifecycle Model)[4],英国数据仓储(UK Data Archive,UKDA)提出的UKDA数据生命周期(UK Data Archive Data Lifecycle)模型[5],DataONE领导团队(DataONE Leadership Team)和DataONE社群合作构建的DataONE数据生命周期(DataONE Data Lifecycle)模型[6],数据文档倡议联盟(Data Documentation Initiative Alliance,DDI Alliance)提出的DDI 组合生命周期模型(DDI Combined Life Cycle Model)[7],美国地质调查局(U.S. Geological Survey,USGS)提出的USGS 科学数据生命周期模型(The USGS Science Data Lifecycle Model,SDLM)[8],ICPSR(Inter-University Consortium for Political and Social Research,美国校际社会科学数据共享联盟)提出的数据生命周期(Data Life Cycle)模型[9],加州大学圣地亚哥分校提出的研究数据生命周期(Research Data Life Cycle)模型[10]。
从已有研究看,CEOS虽然梳理了55个数据管理模型,但主要是对模型内容的罗列,并没有进行横向分析与比较。李伟绵等[11]虽然总结和梳理了DCC审编生命周期模型等8个研究数据管理生命周期模型,但主要是从模型结构和组成要素两个角度进行分析。丁宁等[12]从研究主体、数据规模、模型结构等维度对国外科学数据生命周期模型进行了划分,分析了高校科学数据管理模型与其他主体模型的差异,但对国外高校数据管理模型的重点梳理也是停留在模型类型、提出机构和基本内容等方面。刘杨[13]对比分析了中外基于生命周期的Data Curation研究,主要是从文献入手,围绕时间、作者、主题、研究项目进展等方面开展分析,未将模型对比作为研究重点。因此,本文对科学数据管理生命周期模型的分析与比较将基于已有研究进行一定程度的深化,主要从模型的基本情况、构成要素及应用3个方面着手。其中,模型概况分析是从模型的提出机构、提出的基本思想、适用对象、模型结构、核心要素、更新与否等维度进行比较;模型要素分析主要是基于已有模型的构成要素,总结提取出数据管理的核心环节,在与各模型要素映射的基础上,分析模型要素间的异同及影响因素;模型应用分析是从面向模型应用的辅助资源进行分类与梳理,并结合应用案例分析模型的应用特点。
本文在梳理7个科学数据管理生命周期模型的基础上,从提出机构类型、模型特点、适用对象、模型结构、核心要素、模型是否存在更新等方面进行比较,以形成模型的概览(表1)。
表1 科学数据管理生命周期模型概况
注:Y表示是,N表示否。
科学数据管理生命周期模型的提出机构包括数据管理研究机构、数据管理机构、政府机构以及高校,不同类型主体在提出模型的出发点上有所差异。数据管理研究机构是为有数据管理需求的组织与机构、科研人员提供数据管理指导、标准规范、培训等,如DCC模型就是为了帮助机构或组织制定数据管理活动方案、界定角色与职责、构建标准与技术框架等;数据管理机构是出于有效管理科学数据,为科研人员提供数据管理服务,如ICPSR。参与科学数据管理研究的政府机构,通常是科学数据的主要产生方,如美国地质调查局的一项核心任务是向政府、公众提供各类宝贵的地质数据。因此模型更关注数据本身,确保产出数据的可靠、有效、可用等。而高校则以图书馆为研究主体,旨在帮助本校的科研人员做好科研过程中的数据管理工作,以满足科研管理方的数据要求,便于科研验证、促进科学再发现等。
从模型提出的基本思想看,有密切围绕科学研究的全生命周期过程,如USGS 科学数据生命周期模型、ICPSR数据生命周期模型;有面向研究数据的全生命周期过程,如UKDA研究数据管理团队(Research Data Management team)认为数据的生命周期比产生他们的研究课题长,即科研人员可能在课题结束后继续研究、分析这些数据,后续课题可能会更新数据,也会有其他科研人员再利用等,并基于这一思想构建了UKDA数据生命周期模型。
科学数据管理生命周期模型的适用对象主要以科学研究数据为主,但存在领域上的差异。如ICPSR数据生命周期模型适用于各类社会科学研究数据,涵盖定量数据、定性数据(如访谈视频、案例研究笔记)、GIS等多种数据类型;而DCC审编生命周期模型不具有领域特征,适用于各类数字对象(Digital Objects)和数据库,其中数字对象包括文本文件、图片等(包括标识符、元数据等)简单数字对象,以及由简单数字对象构成的复杂数字对象(如网页)。
从模型结构看,这7种模型均采用了图形化表示,并以收尾相接的环形结构为主。如DCC模型以数字对象为圆心,以数据管理活动为闭环的组成部分,最终形成5层的层级结构。即使是DDI组合生命周期模型在“研究概念化”到“数据分析”部分是线性结构,但从“数据处理”到“数据分发”“数据再利用”分别添加了闭环,形成了两个迭代子结构。可见,数据管理活动之间的闭合循环是生命周期模型的重要组成部分。
从模型的核心构成要素看,主要集中在6-8个关键步骤上,具体分析见模型要素分析。
数据管理模型可能会随数据管理活动的发展而有所变化。从目前发展现状看,各模型处于较为稳定的阶段,只有DDI模型存在更新。该模型的更新主要源于它是将数据生命周期概念模型(Conceptual Model)、XML Schema、DTD(Document Type Definition,文档类型定义)相结合的技术解决方案,自2008年4月发布第一版至今共发布了3.0版本、3.1版本和3.2版本。其中,3.1版本修复了3.0版本中的若干问题,解决了统一资源名称(Uniform Resource Name,URN)问题;3.2版本主要在3.1版本基础上进行了修复与精炼[14]。
值得注意的是,一些模型的提出是有其构建基础的。如DataONE模型是建立在美国国家科学基金会(National Science Foundation,NSF)在DataNet solicitation提出的生命周期模型基础上,DDI组合生命周期模型则是综合了I-lin Kuo模型和Green/Kent生命周期模型构建而成。
各机构提出的科学数据管理生命周期模型由于出发点各异,模型要素及其内涵方面既有相似性又有差异性。本文结合各模型对构成要素内涵的阐述,从“数据管理计划”“数据收集”“数据处理”“数据分析”“数据保存”“数据共享”“数据再利用”等7方面实现模型要素的逐一映射匹配,形成科学数据管理生命周期模型核心要素映射关系表(表2)。
表2 科学数据管理生命周期模型核心要素映射关系
从表2可以看出,不管是何种模型、其要素表述有何差异,“数据管理计划”“数据收集”“数据处理”“数据保存”是必备环节。如DCC模型的“概念化”内涵是计划数据创建工作,其本质仍是数据管理计划的制定。对应到各模型,各要素之间存在交叉与融合现象。如UKDA模型的“数据创建”环节包含研究设计、数据管理计划、数据共享协议、已有数据定位、收集数据、捕获和创建元数据等内容,横跨了“数据管理计划”和“数据收集”两个环节;ICPSR模型的“数据收集和文件创建”环节包含了数据整合、缺失值处理、数据分组等“数据处理”的内容。而DataONE模型的“数据发现”环节指定位、获取潜在有用数据及其相关描述数据(元数据),本质上也是“数据收集”活动,因此在该环节包含了“数据收集”“质量控制”“数据发现”3个要素。此外,有些模型要素,如加州大学圣地亚哥分校研究数据生命周期模型中的“结果出版”、ICPSR模型中的“项目启动”因无合适的管理环节与之对应,在表中未标识。
从模型类型对要素的影响看,侧重保存数据管理的模型,如DCC模型,会忽略“数据分析”等挖掘数据内容的环节。而面向科研数据管理的模型,虽然在具体流程上会有差异,但均包含了“数据管理计划”“数据收集”“数据处理”“数据分析”“数据保存”等管理环节,说明在科研数据管理方面基本达成了共识。在其中细分,基于数据生命周期设计的模型,考虑到数据在科研过程结束后对后续研究的再利用价值,会纳入“数据共享”“数据再利用”等环节,较于侧重科研过程的模型会有一定的扩展。
从模型要素内涵看,会受适用对象的影响。如DataONE模型是针对环境科学数据设计的,因此在“数据收集”部分强调通过手工、传感器或其他设备收集数据,并转存为数字形式。针对社会科学数据的DDI模型则强调数据收集方法(抽样、时间等)、设备特征、问卷调查等内容。而面向数字对象和数据库的DCC模型,则囊括了数据收集的所有情况,包括管理性、描述性、结构性、技术性元数据的创建,以及从数据提供者处接收数据等。同时,要素内涵还会受到应用场景的影响。如ICPSR作为与社会科学研究人员密切合作的数据管理机构,本身也提供数据管理服务,其提出的模型就会强调科研人员与数据仓储在数据管理方面的沟通与联系,数据准备是否符合数据仓储的要求等。USGS模型则强调数据获取是否遵循USGS的相关政策法规,是否能正确、有效地利用等。
值得注意的是,表2中列出的是各模型的核心要素,DCC审编生命周期模型和USGS科学数据生命周期模型还存在扩展要素。如DCC模型将数据管理活动划分为3类,即全生命周期行为(Full Lifecycle Actions)、顺序行为(Sequential Actions)以及偶然行为(Occasional Actions)。其中,全生命周期行为包括描述和表示信息、保存计划、群体监督与参与、审编与保存4种,偶然行为包括数据处理(Dispose)、数据再评估、数据迁移3种。可见,这两类数据管理活动是在顺序行为,即其核心构成要素基础上的补充和完善,是更为高阶的管理活动。而USGS 科学数据生命周期模型的扩展要素包括数据描述(元数据和数据文件)、数据质量管理、数据备份和安全等,是贯穿于模型的所有核心要素,强调数据管理与科研过程的关系。
科学数据管理生命周期模型是针对数据管理活动的参照性指导方略,其应用人群主要涉及图书馆员、管理人员、数据仓储、科研人员、开发人员等。不同类型人群的应用需求不同,应用方式也会有所差异。为了满足各级各类人员的应用需求,各数据管理模型的提出机构会提供一系列相关资源来辅助做好数据管理工作。本文从“指导手册”“标准规范”“技术规范”“系统工具”“管理服务”5个方面进行梳理,形成表3。
表3 科学数据管理生命周期模型应用对比
注:Y表示提供此内容,N表示不提供此内容。
从表3可以看出,“指导手册”“系统工具”是所有科学数据管理生命周期模型在应用时均会提供的。其中,“指导手册”主要是阐述什么是数据管理、为什么要管理数据,以及如何有效地管理数据等内容。如ICPSR发布的“社会科学数据准备与归档指南(Guide to Social Science Data Preparation and Archiving)”[15]就从数据管理模型的6个核心环节分别阐述了相关概念、标准、注意事项、最佳实践以及示例等;DCC则为模型中的8个关键环节明确了检查清单(checklist),便于机构制定、规划组织内的数据管理活动。在系统工具方面,存在自主研发工具和收集已有工具两种方式。如同样是帮助科研人员撰写数据管理计划,DCC是自行研发了DMPonline工具,而加州大学圣地亚哥分校则是通过提供给科研人员已有工具DMPTool。
从提供的标准规范看,主要存在两种类型。一种是数据标准规范,如DCC按照学科分类收集整理了相关元数据规范、工具以及用例(use case),以帮助数据管理者、研究人员更好地了解并使用数据标准[16];USGS主管的联邦地理数据委员会(Federal Geographic Data Committee,FGDC)则制定、出台了数字地理空间数据元数据的内容标准。另一种是诸如数据管理计划等的数据文件标准,如ICPSR面向社会科学研究数据,明确了数据管理计划的建议元素和可选元素。
从标准规范制定方式看,有联合开发的,如UKDA作为DDI技术应用组、受控词表组、定性元数据工作组的成员,参与制定了经济与社会数据的元数据标准;有独自开发的,如USGS。
从技术规范看,只有DDI和USGS提供技术规范,但二者又有不同。DDI联盟旨在面向社会科学数据、覆盖人类活动数据、基于观测获取的数据建立数据标准,并且这些标准是结构化的,便于机器处理,有利于互操作。因此,DDI将XML Schema与数据生命周期相结合,明确了各要素的内涵,形成了技术规范“Data Documentation Initiative (DDI) Technical Specification”,并且这些技术规范是会随着应用的深化而变化更新。为了解决技术规范版本不兼容问题,DDI还提供了版本迁移的解决方案。而USGS的技术文档是针对数字地理空间数据元数据标准的,明确了标准的XML Schema、DTD等[17]。
在数据管理服务方面,数据管理机构和高校出于科研人员的应用需求均提供了数据管理服务。如加州大学圣地亚哥分校为本校科研人员提供了数据的长期保存服务[18],服务采用Chronopolis系统以确保有效的管理过程和持续的监测。同时,图书馆的研究数据管理计划(Research Data Curation Program,RDCP)团队还面向科研人员提供数据管理咨询服务。而在数据管理机构中,如英国经济与社会委员会(Economic and Social Research Council,ESRC)资助的UK数据服务(UK Data Service)是为英国和国际社会、经济和人口数据提供数据管理服务[19]。为了帮助科研人员有效地管理数据,还提供了大量的指南、教程和工具。数据管理研究机构主要是提供数字研究数据存储、管理、保护和共享等方面的专业指导和建议,数据管理服务不是重点,因此DCC、DataONE、DDI均未提供。
由于模型提出的出发点不同,因此在落实到具体应用时也会有所不同。例如,DataONE提出的数据生命模型主要是作为DataONE工具、服务、教学材料研发的底层框架,所以它本身不承载DataONE成员单位的数据管理工作,但会为相关科研人员、公众提供一个环境科学数据、系统工具、学习材料等的资源发现平台。而DCC模型提供了一种操作框架,在应用的时候需要根据应用场景、实际条件等情况进行适应性调整(如操作入口环节等),才能确保数据审编活动顺利、有序地进行。因此,明尼苏达州大学图书馆在2013年5月启动了数据管理试点工程(Data Curation Pilot project)后,结合本地已采用的技术工具,在DCC模型顺序行为(Sequential Actions)基础上初步制定了本地数据管理工作流,图书馆员通过管理试点数据集获得的经验,最终明确整体科学数据管理工作流程,确定各阶段所应采取的具体步骤,各步骤应考虑的关键问题等[20]。DDI模型作为XML Schema与数据生命周期结合的技术解决方案,美国加州大学洛杉矶分校在应用时,是将DDI模型作为底层数据全生命周期管理的基础,结合数据仓储工具Colectica实现了社会科学数据的构建[21]。
通过对国外典型科学数据管理生命周期模型的对比分析,发现存在以下3方面的特点。
各数据管理生命周期模型虽然由不同类型机构组织提出,但在模型的图形化表达、适用对象、核心构成要素等方面存在诸多共通之处,呈现出趋同性的特点。在此基础上,结合提出的出发点、应用场景、数据对象特点等,在模型结构、具体管理环节、要素表述与内涵等方面呈现多样化特点。这说明科学数据管理生命周期模型在不断的探索和实践中,已经在某些方面达成了一定程度上的共识,并成为各组织机构深化、细化、变化或具象化模型的基础。
科学数据管理生命周期模型提出的最终目的是指导、帮助科研人员做好数据管理工作。模型的抽象性及科研人员在数据管理方面的非专业性,决定了相关辅助资源的重要性。而辅助资源的质量直接影响着模型有效利用的程度。因此,根据模型的应用人群,有针对性地、尽可能全面地提供各种资源,并以方便的、可理解的方式组织起来,是模型提出机构的重要工作。
通过对比分析可见,有些模型具有领域特性,其内涵和应用有专指性;有些模型是指导性框架,应用时需进行本地化的适应性改造;有些模型是面向科研过程的,科研活动结束数据管理活动就截止了;有些模型是面向数据生命周期的,数据管理活动还包含了对数据再利用的管理等。此外,不同模型在辅助资源的提供上,包括资源类型、质量、组织方式等方面也存在差异。这些因素均是数据管理人员在选择、应用模型时需要考量和权衡的。只有结合需求选择合适的模型,利用好各类辅助资源,保证模型得到合理的应用,才能达到有效管理数据的目的。