全球科研范式变革下的图书馆科学数据管理服务创新——基于数据管理生命周期的视角

2019-06-14 08:00张培风张连分河海大学公共管理学院石家庄邮电职业技术学院图书馆
图书馆理论与实践 2019年5期
关键词:数据管理生命周期图书馆

张培风,张连分(.河海大学公共管理学院;.石家庄邮电职业技术学院图书馆)

21世纪以来,许多大学、图书馆组织、科学数据中心和科研资助机构联合起来,深入开展了科研数据生命周期研究,建立了多种数据生命周期描述模型,如OAIS功能模型(Reference Model for an Open Archive Information System)、DDI(Data Documentation Initiative)数据生命周期模型、DataONE(Data Observation NetworkforEarth)数据生命周期模型。这些模型在国际上得到了广泛应用,已经成为开展数据管理服务的国际标准或规范。

1 全球科研范式变革对科学数据管理的迫切要求

1.1 全球科研范式变革的特点和要求

几千年来,人类科学研究经历了经验范式、理论归纳范式、计算模拟范式三大阶段,近年来正在形成数据密集型范式,又称第四范式。[1]19第四范式的首要特点是科研数据量大、数据处理成本高。几个世纪以来的科学史表明,世界科研产出量呈加速增长的趋势。从17世纪中期到18世纪中期,世界科研产出量每年增加不到1%;18世纪中期到二战前,每年增加约2-3%;二战后至2012年,每年增加约8-9%,大概每9年就会翻一番。[2]特别是天文观测、实验物理、基因测序这样的“大数据”学科,科学数据大约每年翻一番。[3]2016年,欧洲核子研究组织的大型粒子对撞机所产生的数据量甚至比2015年翻了5倍。[4]科研人员撞到了强大的数据墙,数据处理和分析占据了科研人员很大精力,一般占到实验成本的1/4到1/2。科研人员在获得原始数据之后,往往需要成千上万人编写几百万行代码用于处理数据,耗费了大量人力物力。[1]20第四范式的第二个重要特点是要求科研成果具备基于数据的可复制性。可复制性是现代科研的重要特征,好的数据管理是实现成果可复制的关键。研究人员应当在整个研究周期内做好数据管理,收集好研究数据,并详细记录数据生成的流程和细节,使他人能够按照研究流程重新得到结果,提高科研的公信力。第四范式的第三个重要特点是科研数据可共享。数据是现在研究的终点也是将来研究的起点。保存好数据,保证数据可分享,能够帮助研究人员获得新的发现,推动研究不断深入,这样才会提高科研成果的社会价值,提升科研的效率和效益。

1.2 国家科研资助机构的政策要求

近年来,为适应数据密集型科研范式的时代要求,许多国家的科研资助机构都制定了学术数据管理政策,将数据管理计划和数据共享作为申请科研资助的必要条件。美国国家科学基金、国家医学基金、国家人文科学基金都对数据管理提出了明确的政策要求。美国国家科学基金会(National Science Foundation,NSF)规定,基金申请人必须提供数据管理计划,说明如何保存和管理科研数据,必须遵守相关数据分享政策;美国国家医学科学院(National Institute of Health,NIH)规定,申请50万美元以上的研究项目要提供数据分享计划,产生大量数据的基因研究项目无论资助额大小都要向后续项目开放分享数据;美国国家人文科学基金会(National Endowment for the Humanities,NEH)要求立项申请书中必须包括数据管理计划,获奖申请书中也必须包括数据管理计划。[5]英国研究理事会(Research Councils UK,RCUK)和英国威康信托基金会(Wellcome Trust)已经出台了多项数据管理政策,鼓励研究人员尽可能快地以尽可能小的限制公开他们的科研数据。英国研究理事会下设的工程和物理科学研究理事会(The Engineering and Physical Sciences Research Council,EPSRC)着重对研究机构提出了数据分享责任,要求它们在全部数据生命周期上至少提供十年的数据管理服务。[6]加拿大也针对联邦资助的科研项目制定了数据管理政策。2015年,加拿大卫生研究院(Canadian Institutes of Health Research,CIHR)、加拿大自然科学和工程研究理事会(Natural Sciences and Engineering Research Council of Canada,NSERC)、加拿大社会人文科学研究理事会(Social Sciences and Humanities Research Council of Canada,SSHRC)三大国家科研资助机构,出台了关于数据管理原则的草案。该草案明确了研究者、研究机构、资助者的相关责任,支持最大限度地开放政府资助项目数据,要求制定数据管理计划,实现数据公开分享。[7]2018年3月,我国政府顺应数据密集科学潮流,汲取国外开展科学数据管理的经验,为了进一步加强和规范科学数据管理、保障科学数据安全、提高开放共享水平,更好地支撑国家科技创新、经济社会发展和国家安全,颁布了《科学数据管理办法》(以下简称《办法》)。《办法》按照分级管理、安全可控、充分利用的原则,明确了主管部门、法人单位、科学数据中心三级责任主体,制定了科学数据采集、汇交与保存的管理流程及分级分类共享利用科学数据的方式,提出了加强科学数据全生命周期安全管理的要求。从此,我国有了国家层面的科学数据管理的政策制度。[8]

1.3 学术期刊对数据管理的要求

除了科研资助机构对数据管理的要求之外,学术期刊也对论文作者提出了数据管理要求。[9]其主要目的有3个:① 保证论文成果的可复制性,可复制性是科研的重要特征,而数据是实现科研成果可复制的基础;② 对研究数据进行更严格的审查,防止有问题的论文的发表,并确保随后的任何撤回更容易识别和解决,从而提高期刊的质量和声誉;③ 促进科研成果交流和数据共享,保证科技创新的连续性。学术期刊数据共享的要求主要有两类。一种是将数据开放共享作为论文发表的必要条件,科学数据以附录等形式与论文一同发表。如,《美国政治科学评论》()杂志要求作者提供数据文档,充分详细地描述研究分析流程,便于读者了解评价科研成果的来龙去脉。另一种只要求作者提供科学数据,用于同行评审,但不要求随同论文发表数据,《科学》《自然》等国际期刊则属于这种情况。学术期刊数据开放共享的方式主要有两种:一是仅要求标明数据的出处,使读者能够访问相关数据;二是要求将数据存储到特定的数据存储库。如,英国伦敦动物学会出版的期刊《动物保护》( )规定,在该刊发布的DNA数据必须存储到EMBL、Gen-Bank、DDBJ三大核苷酸数据库之一,作者必须在论文中公布基因序列号,允许公开查询。[10]

2 国内外理论研究和实践概述

2.1 国内外理论研究概述

国外发达国家的图书馆、图书馆协会和国际性图书馆组织,对图书馆在数据管理服务中的地位和作用、图书馆数据管理服务与数据生命周期的关系、图书馆数据管理能力建设等方面进行了深入系统研究。① 图书馆在科研数据管理中的地位。2013年,联机计算机图书馆中心(Online ComputerLibrary Center,OCLC)发表报告,2015年美国图书馆与信息资源理事会 (Council on Library and Information Resources,CLIR)发布报告,都对图书馆在科研数据管理中的地位进行了系统研究,认为图书馆是科研数据管理的重要相关方和关键角色,能够发挥协调和领导作用。这是因为图书馆在科研数据管理体系中居于一个独特位置。其他相关方包括大学管理者、研究者、科研资助者都有自己机构的利益诉求,唯独图书馆不但没有特殊利益诉求,而且拥有与其他各相关方的同等密切联系,长期以来为用户服务,积累了丰富的信息管理的专业知识和经验,从而处于一个十分有利的核心位置。[11-12]② 图书馆数据管理服务与数据生命周期的关系。2013年,美国博物馆和图书馆服务研究所 (Institute of Museum and Library Services,IMLS)发布报告,对全球主要的十种数据管理生命周期模型进行了归纳总结,用于指导图书馆数据管理服务。[13]按照美国大学与研究图书馆协会(AssociationofCollege&Research Libraries,ACRL)所发布的白皮书,图书馆等机构提供的科研数据管理服务是处理完整数据生命周期的服务。[14]科学家只能计划、收集、分析他们的数据,而图书馆则要基于生命周期开展服务,包括利用元数据描述数据、实现长久和安全的数据存储、组织数据以便于发现、支持数据整合和再利用等。[15]③ 图书馆数据管理能力建设。数据管理服务是一项前所未有的创新,将推动图书馆建立新的信息基础设施,形成新的业务模式,产生新的能力素质和人才需求。国际图书馆界对图书馆的数据管理能力建设进行了不断研究探索,其中,美国研究图书馆协会 (Association of Research Library,ARL)、加拿大研究图书馆协会(Canadian Association of Research Libraries,CARL)、欧洲研究图书馆协会(Association of European Research Libraries,LIBER)以及国际开放存取库联盟(Confederation of Open Access Repositories,COAR)四大组织联合开展的研究项目最具代表性。2013年8月,这四大组织建立了一个联合工作组,研究数据密集型科研范式下图书馆职能的拓展,以及职能变化对馆员能力的新要求。该工作组于2016年发布了研究报告,针对图书馆在数据管理服务领域的三大职能,提出了相应的能力素质框架,[16]成为国际图书馆界开展数据管理能力建设的指南。

近年来,我国学者从数据生命周期的视角开展了一些关于科学数据管理的研究,其侧重点包括数据生命周期模型的比较研究、数据共享政策研究、图书馆的角色定位研究等方面。杨林等对7个科学数据管理生命周期模型的研制机构、适用范围、结构特点、构成要素、应用实践等方面进行了分析与比较。[17]丁宁等按照不同维度对科学数据生命周期模型的类型进行了划分,并总结了高校科学数据生命周期管理框架。[18]魏悦等对美、英、澳等国高校的科学数据管理政策进行了深入分析,总结出数据访问、数据组织、数据保存、数据共享和数据安全五个方面的政策内容,并以此为基础,提出了我国高校科学数据管理政策内容框架。[19]史艳芬等认为图书馆应将“科学数据管理生命周期”过程嵌入服务,承担科学数据管理协调者、元数据组织和管理机构、科学数据长期保存机构、数据质量监控者、数据信息素养培训机构五大角色。[20]吴建中认为大学图书馆正在向数字化和合作交流转型,以藏书为核心的传统图书馆已经逐渐被以知识和数据为核心的现代图书馆所取代;现代图书馆是知识连接器,围绕“数据”开展各种服务,将大学与区域、与世界连接起来。[21]顾立平认为图书馆应当基于公益服务属性,扮演居中协调的角色,与各方利益相关者合作,建立良好的数据治理生态体系,管理好各学科不同载体的知识内容,确保数据重用以及长期保存,促进数据加值,保障数据获取和数据重用的公益性质。[22]

2.2 国内外图书馆数据管理服务实践活动概述

数据密集型科研范式的兴起和公共科研资助机构的政策要求,激励图书馆开展数据管理服务,以适应深刻变化的科研需求。全球开展数据管理业务的图书馆越来越多,图书馆的业务重点逐渐从传统业务转移到数据业务,并从文献计量服务向数据管理服务深化。ARL于2010年面向57家会员馆做了一项调查,发现其中有21家图书馆已经建立了信息基础设施并面向数据密集型科研提供服务,约占37%。[23]2013年,邢文明等对世界排名前50的高校图书馆进行了网上调查,发现其中26所高校图书馆开展了科研数据服务,约占52%。[24]2015年,ARL面向124家会员馆进行调查,发现其中70%以上的图书馆拥有数字资源库等信息基础设施,并提供数据存储、数据管理计划、信息传送咨询、最佳实践咨询等服务。[9]由此看来,图书馆正在加速从以图书为主体向以科研数据管理和知识发现为中心转型。

国内学者重点对国外高校图书馆开展科学数据管理服务的实践进行了研究,总结了国外高校图书馆开展科学数据管理服务的基础设施、服务内容、工作机构等方面的实践经验。尹春晓对英国、美国、澳大利亚三国高校科学数据管理服务进行调研发现,国外高校科学地建立了信息基础设施,依据数据管理政策、基于科学数据生命周期提供全程式服务,普遍提供科学数据管理教育培训服务、数据参考咨询服务。在开展科学数据管理服务过程中,图书馆与校内不同部门开展了合作,图书馆内部设置了数据管理部门和岗位。[25]张新兴开展了大量的文献调研发现,国外高校科学数据管理平台均为开放获取平台,访问不受时间和IP限制,并且资源丰富、功能完善。国内平台数量很少,功能相对简单,有些平台还需要通过申请方能使用数据。[26]国外高校的科学数据服务是一种广义的科学数据服务,是围绕科学数据实施的一系列的数据管理、研究、利用活动,还有待向更高层次的数据分析、知识组织和知识发现服务跃升。胡雪环、陈丽君、司莉、王娟等国内学者对美国普渡大学、霍普金斯大学等高校的科学数据管理实践进行了多方面研究发现,这些高校建立了科学数据中心,根据本校学科专长开发了具体的服务项目,所提供的科学数据管理内容主要包括数据收集、数据保存、数据使用、数据管理与维护等,并为用户提供数据管理计划、数据管理教育培训、数据管理政策等服务。[27-30]

2.3 需要进一步研究的问题

在理论研究方面,目前国内外学者的研究主要集中在对生命周期模型的对比分析方面,比较系统地阐述了模型的分类、结构、构成要素等,但是尚未深入提炼出全生命周期科学数据管理的基本要求;在实践研究方面,目前国内学者侧重于对国外高校科学数据管理实践经验的总结提炼,但是对成功实践背后的原因揭示不够深刻,尚未给出全生命周期科学数据管理的实现方式。因此,还需要从以下两个方面加强研究:一是要进一步研究全生命周期科学数据管理的基本流程和要求,明确图书馆开展科学数据管理服务的着力点;二是要进一步研究图书馆开展科学数据管理服务的方式,理清图书馆开展全生命周期科学数据管理服务的技术平台和协作方式。

3 全生命周期科学数据管理服务流程和要求

3.1 全生命周期科学数据管理服务流程

地球观测卫星委员会(Committee on Earth Observation Satellites,CEOS)的信息系统与服务工作小组(Working Group on Information Systems and Services,WGISS)于2012年4月发布了调研报告,梳理出55个科学数据管理生命周期模型。从研制主体的维度来看,最高层次为国际标准模型,其次为国家科学数据中心的模型,再次为高校等法人单位的工作模型。经过多年的应用和发展,OAIS功能模型、DDI数据管理生命周期模型、DataONE数据管理生命周期模型等已经成为国际标准或规范,它们反映了数据运行的基本规律,在国际上得到了广泛应用,是其他层次的数据管理生命周期模型的编制依据和重要参考。本文主要以这三大模型为研究对象,分析其特点、异同点、适用性,揭示全生命周期科学数据管理的基本流程和要求。

3.1.1 适用于数字资源库的OAIS功能模型

为了解决数字信息长期保存问题,国际标准化组织授权国际空间数据系统咨询委员会开发空间领域的数字信息归档标准。该委员会采取开放方式创建标准,吸引了政府、企业和学术界众多机构的参与。2003年,国际空间数据系统咨询委员会开发的OAIS参考模型正式发布为国际标准(ISO14721)。[31]此后,在OAIS参考模型的基础上,研究图书馆集团(Research Library Group,RLG)和 OCLC合作研制了《支持数字对象保存的元数据框架》,对OAIS的信息模型作了进一步拓展,提供了描述性信息的结构体系。RLG还和美国国家档案记录管理局合作,以OAIS参考模型为依据,开展数字资源库认证规范的研究,于2013年发布ISO国际标准《可信性数字资源库审核与认证》极大地提高了OAIS参考模型的适用性和影响力。[32]OAIS参考模型主要由功能模型、信息模型、信息包转换三部分组成,其中功能模型对数据生命周期进行了系统描述,分为保存计划、数据收集、数据保存、数据管理、访问管理、行政管理6个功能模块。

3.1.2 适用于社会科学的DDI数据生命周期模型

DDI是为描述社会科学研究数据而建立的国际元数据标准。它由美国校际政治及社会研究联盟发起,获得了NSF的资助,于2000年首次发布DDI标准,现在已经形成了DDI系列标准。2003年建立DDI联盟,至2016年在全球拥有40个成员机构,包括世界银行发展数据中心、欧盟统计局、诸多世界一流大学,以及国家级有影响力的数据资源管理机构。[33-34]DDI把数据生命周期分为研究概念、数据收集、数据处理、数据存储、数据发送、数据公布、数据分析、数据再利用8个阶段。DDI数据生命周期不是一个线性模型,而是一个循环模型。在研究概念、数据收集、数据处理这三个步骤中,建立和遵循一套初始概念体系,据此所创建的数据集直接传送给用户或者通过数据资源库间接传送给用户;而数据再利用阶段则根据新的应用场景调整了变量、关联关系等要素,形成新的数据概念框架,创建新的数据集,再传送给用户。[35]

3.1.3 适用于“大数据”学科的DataONE数据生命周期模型

DataONE是由新墨西哥州大学主持开发的,项目获得了NSF的资助,其使命是通过广泛存取地球生态和环境科学数据促进新的科学知识的创造。这是由于地球生态和环境科学具有跨学科特征,涉及地理学、天文学、生物学、生态学、环境科学等多种学科领域,具有开展广泛数据管理协作的迫切需要。[36]2009年,DataONE在NSF等机构资助下开始建设,2014年又获得了二期资助,目前已经形成向全球用户提供服务的数据协作网络。其组织架构分为两个层次:一是协作节点,由核心信息基础设施团队直接管理,负责全网管理,维护全网健康运行;二是会员节点,由当地组织机构负责管理,负责当地的数据存储、数据检索、访问控制、元数据质量控制、本节点与其他节点之间的数据复制、用户主界面维护等业务。[37]地球观测数据网基于NSF所提供的数据生命周期模型而构建,是其开发工具、提供服务、开展培训的基本架构。DataONE数据生命周期模型包括8个阶段,分别是数据管理计划、数据收集、数据核查、数据描述、数据保存、数据发现、数据整合、数据分析。数据沿着生命周期的8个步骤运行,以编制数据管理计划为起点,从而创造新的科学知识。但并不是所有的研究活动都经过全部周期,许多只是经历周期的部分阶段。如,对以往不同研究成果的数据进行综合分析的元分析项目,只侧重于数据发现、整合、分析等步骤。

以上三种模型除结构差别外,在构成要素上也有异同。其共同要素包括数据管理计划、数据收集、数据处理、数据保存、数据发送、数据分析、数据发现等。但是每种模型相应流程要素的涵义不尽相同:OAIS功能模型突出了数据库管理功能,这是和数据存储库服务相适应的;DDI数据管理生命周期则突出了概念框架设计,这是为了适应社会调查及其数据管理特点,同时还建立具有自身特色的数据再利用环节,体现了利用科学数据发现新知识的目的和要求;而DataONE数据生命周期模型则特别加强了数据处理环节,将这个环节拓展为数据核查、数据整合、数据标引等操作,使大规模数据处理能力得到加强。

3.2 全生命周期科学数据管理服务基本要求

通过对各类数据管理模型的深入研究发现,全生命周期科学数据管理是全体系、全流程、全要素的管理,需要各相关方密切协同,使数据规范一致和安全合规,从而实现数据可用性高、可回溯性强、交换方便、检索便利的管理目标。

3.2.1 全部相关方密切协作

科学数据管理涉及数据生产者、消费者、管理者等相关方。按照研制主体又分为多个层次,一般包括法人单位、科学数据中心、国际数据管理网。其中,法人单位主要指科研院所、高等院校、企业等从事数据密集科研的单位,其内部又要求各二级单位的协同。内部各相关方密切协作开展数据管理服务,保证服务顺利通达、系统正常运转、数据安全保密、管理规范有序。在法人单位内部协作网之上,还有国际数据管理网。如,DataONE目前已经形成向全球用户提供服务的数据协作网络。

3.2.2 全体系协同

科学数据管理是一个完整体系,包括数据管理政策、数据存储库系统、数据管理活动等。其中,数据管理政策包括国家科研资助机构政策、科技期刊政策、法人单位政策等,主要对数据开放共享、知识产权授权、隐私保护等方面做出要求和规定。数据存储库系统是科学数据管理的信息基础设施,主要提供唯一数据标识码、元数据创建和转换、数据存储等方面的技术支持功能,并实现分布式数据管理协同。数据管理活动依据科研过程而开展,贯穿全生命周期,主要包括科学数据采集生产、加工整理、开放共享和管理使用等活动。数据管理政策是科学数据管理的顶层设计和运行规则,数据存储库是科学数据管理的技术平台,各项科学数据管理活动按照政策要求在数据存储库平台上有序运作。

3.2.3 数据运行全程留痕

基于全生命周期的管理方式对数据转化全程留痕,完整保存生产者的初始数据文件、管理者的存档文件、消费者的分发文件,记录各类数据文件之间的关系,可以实现不同数据版本的回溯和重用,[38]从而保证数据的完整性和可靠性。这是全生命周期科学数据管理的重要特征,针对数据管理的不同阶段,建立相应的数据文档。不同阶段的文档采用特定的描述元数据和封装方法,数据属性、数据差别、数据关联等一目了然,数据进化路径清晰可见。

3.2.4 全生命周期安全管理

① 数据安全是全流程的安全。要在数据管理计划中详细设计各项安全要求和措施,再按照计划安排和要求,在数据输入、数据处理、数据访问等环节一一落实。② 数据安全是全体系的安全。要明确各方面的安全责任,建立互相监督和制约机制,全部数据管理相关方都要严格遵守规定、履行安全职责。③数据安全是全要素的安全。需要综合考虑数据内容、硬件设备、管理规范、法律法规等多个方面的安全问题,既要采取数据加密、电源备份、数据备份、病毒防护和入侵者防护等有效技术措施,也要落实各项保护数据安全的法律措施,制定安全管理规范,从而有效保护数据完整、数据机密、知识产权和隐私权。

3.2.5 全生命周期数据交换

① 结构一致的数据便于数据交换。如,OAIS参考模型的提交信息包、存档信息包、分发信息包3种数据集具有规范的数据结构,能够在不同系统、平台之间交换和迁移,可以被不同用户、多种终端访问。② 标准化的元数据能够提高数据可用性。如,DDI标准用可扩展标记语言(Extensible Markup Language,XML)来标记数据内容,以ASCII码为内核,提供开放格式而非私有格式数据,能够一直保持可用性。[39]标准化的元数据集可以在数据生命周期内重复使用,能够有效降低数据管理成本。③ 按照生命周期模型创建的多种数据存储库产品,能够共享元数据要素、识别数据结构,便利于同一标准下不同存储库之间的数据交换和共享,实现分布式网络化数据管理协作。[40]

3.3 图书馆开展全生命周期科学数据管理服务的着力点

面对数据密集型科研范式的兴起,研究人员在数据管理计划、数据保存、数据共享等数据生命周期的重要阶段面临着越来越多、越来越复杂的困难和问题,急需专业人员提供帮助,实现与新的科研范式的对接,以便提高科研效率和效益,并满足国家、机构、出版者等层面对科研数据管理的规定和要求。在科研数据生命周期诸多阶段中,数据管理计划、数据存储、数据分享这三个阶段是图书馆提供数据管理服务的着力点。图书馆可以在其中发挥联系和服务用户的作用,成为数据资源的富集地、数据服务和技术支持的联系点、数据管理培训和指导服务的提供者。

3.3.1 提供数据管理计划服务

提供数据管理计划相关服务是图书馆的第一个着力点。数据管理计划是一份正式文档,用以说明研究者在项目研究过程中和项目完成之后如何处理科研数据。它为科研数据管理工作提供了蓝图,明确了数据管理流程和要点,改变了数据管理的无计划状态,可以有效避免数据丢失、混乱等问题,实现数据管理的规范化、流程化,保证数据质量和可复用性。同时,数据管理计划还是一份动态文件。由于科研是一种创造性活动,有时需要改变路径、调整进度,数据管理计划也应当随着科研节奏和方向的调整而调整,只有这样才能保证数据管理计划的科学性和实用性,真正发挥作用。根据一些国家的实践,图书馆可以在四个方面为用户提供数据管理计划服务。① 在线提供本国政策指导。不同国家的科研资助机构都有自己的数据管理计划编制要求,美国、澳大利亚、英国等国家的诸多学术图书馆都在线列举和详细说明了本国国家科研基金和相关科研协作机构的数据管理计划政策,供本单位研究人员了解遵循。② 在线提供外部参考资源。主要是收集整理国外的科研资助机构、大学和研究机构的资料,提供国外的数据管理计划要求和数据管理计划制作资料,供本单位的研究者参考。③在线提供模版工具。收集整理各级各类公共科研基金、各类学会、本机构、其他研究机构的数据管理计划模版,供本单位的研究者参考。④ 线下开展培训和指导。图书馆员与研究人员成立开放式的研习会,共同针对相关主题的数据管理计划进行沟通研讨,就数据管理计划提供针对性的培训指导。

3.3.2 提供数据存储服务

数据存储是图书馆开展数据管理服务的第二个着力点。这项工作由图书馆与本机构的科研管理部门、信息技术中心等协作开发和运作。数据存储服务主要包括保存、备份、长期保存三项重要内容。① 保存数据。这项功能既能实现数据存储,也能做到数据备份,还可以开展数据共享。② 备份数据。主要防止因电脑损坏、重装系统等原因导致数据丢失,保证数据安全,但是不能共享数据。③ 长期保存数据。这项服务为研究人员提供永久账号,能够实现不同时期数据版本的永久保存和安全备份,克服短期保存和备份的缺陷。所有这些数据存储服务都要依赖数据存储系统来提供,一般有以下四种存储系统。① 高校和研究机构自主运行的系统。一些高校或研究机构自主开发数据管理系统来提供长久保存服务,服务范围往往限于单位内部。如,斯坦福大学图书馆开发的数据资源库系统不会因为员工离职等原因而注销账号,可以永久访问账号的研究数据,能够实现数据的长久保存、共享和分析。② 高校或研究机构统一购买存储服务,免费提供给二级部门、员工和学生使用。③ 高校师生或研究机构的员工自费购买商业存储服务。④ 资助机构和期刊社等规定存储的数据库。

3.3.3 提供数据分享服务

数据分享是图书馆开展数据管理服务的第三个着力点。科研成果数据是研究者对社会的独特贡献,只有通过一定方式与他人分享才能发挥作用并得到社会的认可。数据分享有助于推动将来的科学研究和获得新的科学发现。在数据分享方面图书馆可以为研究者提供以下服务。① 作为数据管理服务的综合联系点,图书馆为用户提供各类数据资源库的入口,搭建数据生产者和消费者之间的桥梁,实现数据资源传送和再利用。② 在线提供数据分享政策。国家科研资助机构对所支持项目的科研成果有分享政策,要求项目成果出版物和电子化数据必须在国内分享,以促进本国企业和实体提高创新能力和竞争力,推动国家经济发展。图书馆可以比较全面地收集整理国家科研资助机构对数据分享的政策要求,在线提供给研究者遵循,有利于提高科研项目的社会效益。③ 帮助用户理清数据访问限制。图书馆可以在线提供国家关于知识产权保护、隐私保护、科研伦理等方面的法规和政策,了解用户的知识产权和隐私保护要求,帮助用户对敏感数据实行限制存取控制,从而保护科研数据安全和个人隐私。④ 在线提供元数据工具。元数据是用以揭示科研数据属性的描述性信息,有利于数据生产者和使用者对科研数据达成一致性认知,是实现科研数据准确检索和有效利用的重要基础。图书馆的工作重点是收集提供各种元数据工具,帮助研究者选择控制词用于生成各种结构化的元数据,以揭示内容数据的属性。⑤ 提供人工咨询和培训。图书馆的数据馆员可以根据用户需求提供比较集中的培训和研习,帮助用户掌握数据分享政策、数据保护要求以及数据发现方法等知识和技能。

4 全生命周期科学数据管理服务的实现方式

为了探索全生命周期科学数据管理服务的实现路径和方式,需要对国内外的实践经验进行深入研究,以便获得有价值的信息。本文甄别选取了麻省理工大学、哈佛大学、斯坦福大学、牛津大学、剑桥大学五所大学图书馆作为研究对象;同时,选取北京大学图书馆、复旦大学图书馆[41]作为研究对象,它们是国内正式开展科学数据管理服务的大学图书馆,其实践经验也具有较大的参考价值。通过对国内外一流大学图书馆的深入研究发现,构建数据平台、建立组织体系、参加国际协作、提升人力资源等是实现全生命周期科学数据管理的关键问题。其中,数据平台从技术上将资源整合起来,有效的组织体系把各部门协同起来,加入国际数据网络促进了国际合作,人力资源发展提供了人才保障。通过技术保障、组织保障、人才保障和国际协作,实现了全体系、全要素、全流程、国际化的科学数据管理协同,使高校图书馆具备全生命周期科学数据管理能力,从而能够为科研人员提供高质量的数据管理服务和数据产品。

4.1 建立数据管理服务综合平台

本文调研的7所大学图书馆都开办了专门的数据管理服务网站,拥有数据存储库系统(见下表)。其中,国外的5所大学图书馆建成了数据管理综合平台,按照全生命周期科学数据管理的要求,提供数据管理计划、数据收集、数据处理、数据保存、数据发送、数据分析、数据发现等全流程服务,提供数据管理教育、专家咨询等延伸服务。不仅拥有自己的数据存储库系统和数据备份存储系统,还提供第三方云存储、云计算服务接口;不仅提供本单位的数据管理政策,还提供国家科研资助机构的政策要求和数据管理计划模板。总的来看,技术支持有力、功能全面、服务内容丰富。从国内来看,北京大学图书馆和复旦大学图书馆都引进了麻省理工大学和哈佛大学联合开发的 DataVerse数据存储库系统,主要提供数据收集、数据处理、数据存储、数据发现等服务,服务功能比较单一,许多重要的数据管理服务尚未提供。通过对比,笔者认为国内高校应当建立科学数据管理服务综合平台,提供全生命周期服务,这是我国科学数据管理服务的发展方向。

表 一流大学图书馆开展科学数据管理服务的技术平台

4.2 构建科学数据管理协作组织体系

为了做好全生命周期科学数据管理工作,必须加强各部门协同,发挥各自专业特长,明确职责分工,形成全面服务能力。为了实现各部门的相互协同,需要建立相应的组织体系,实现各部门的信息沟通、任务分配和工作落实。实现部门协同的方法路径主要有两条,一是整合各相关部门的功能和资源,建立矩阵型数据管理小组;二是以图书馆为主导,建立数据管理服务协同网络,各部门协力提供数据管理服务。

(1)建立矩阵型数据管理小组。矩阵型数据管理小组是在一个大学垂直式职能组织形态下,为开展数据管理服务,另外成立的横向联合的专案小组。此专案小组与原组织配合,呈现行列交叉的形式,所以称为矩阵型组织。[42]牛津大学是建立矩阵型数据管理小组的代表。牛津大学成立科学数据管理服务组来提供数据管理服务,其成员来自牛津大学博德利图书馆、电子化科研中心、信息技术服务中心、科研服务中心等相关部门。科学数据管理服务组每月开一次会,共同研究处理科学数据管理相关问题,重点是发展运行牛津大学科学数据管理服务网站。科学数据管理服务组着眼于为研究者提供全程的支持和服务,帮助他们在科研项目申请阶段编制数据管理计划,在科研项目的整个生命周期内处理数据,在项目完成后实现数据长久保存。

(2)构建图书馆主导的数据管理服务协同网络。全生命周期的数据管理服务是一项极其复杂的工程,需要大学内部各相关部门大力协同,组建数据管理服务协同网络。这是一个基于任务分解的组织协同网络。其主要任务是提供全生命周期的科学数据管理服务。协同网络包括核心组织和协同组织,图书馆通过数据管理平台分发工作任务,协同组织基于自身的专业优势和职责要求,响应用户需求,完成相应的科学数据管理任务。[43]哈佛大学图书馆是校内研究者寻求数据服务和技术支持的综合联系点,它与负责科研的副教务长办公室、负责信息安全的信息技术学院、负责数据存储库开发和运维的定量社会科学研究所、负责教育培训和专家咨询的哈佛大学文理学院等密切协作,支持研究者进行数据组织、处理、存储、分享等活动,满足科研基金、出版社、哈佛大学等层面对数据管理的政策要求。

4.3 开展国际科学数据管理合作

科学数据管理国际化合作的重点有两个,一是与国际标准接轨,二是申请加入相应的国际网络。目前,世界范围内已经形成了OAIS功能模型、DDI数据生命周期模型、DataONE数据生命周期模型等具有国际影响力的规范。这些国际规范的形成过程持续了十年以上,经历了机构规范、国内规范到国际规范的发展进化,得到了国家科研资助机构的支持,调动了世界范围内图书馆组织、大学、研究机构、国家信息中心、各类相关国际组织的参与,最后成为国际通行规范,也建立了自己的常设机构和标准联盟。领导和参与数据管理国际规范制定的国家和组织都在联盟中居于重要地位,享有相应的权益,能够主导国际规范和国际合作的发展方向。得标准者得天下,这是非常重要的国际经验。我国图书馆界、数据科学界和公共科研资助机构应加强国际合作,主动支持和参与数据管理国际规范的研制,申请加入相应的国际网络,谋求我国应有的地位,分享国际科学数据资源。同时,在发展我国的数据管理服务过程中,要与国际标准接轨,站在世界的制高点上,建立开放的数据管理体系,与世界各国广泛开展交流和合作。

4.4 加强数据管理人力资源建设

面向数据密集型科研开展数据管理服务是一项前所未有的创新,将推动图书馆建立新的信息基础设施,形成新的业务模式,产生新的能力素质和人才需求。传统图书馆围绕藏书管理所生成的人力资源结构,存在信息技能缺乏、信息化人才匮乏等问题,必须认真分析开展数据管理服务的能力素质要求,弥补图书馆员能力素质短板,引进信息技术人才,促使图书馆形成较强的数据管理服务能力。全球诸多图书馆组织和研究机构已经对图书馆数据管理素质能力进行了深入研究,提供了比较系统的能力发展框架。我国应当吸收世界先进成果和国外图书馆的成功经验,结合自身实际情况,开展图书馆数据管理人力资源建设,逐步建立自己的数据管理岗位职能规范,培养数据管理人才队伍,形成可以胜任数据管理服务的人力资源体系。

猜你喜欢
数据管理生命周期图书馆
全生命周期下呼吸机质量控制
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
从生命周期视角看并购保险
民用飞机全生命周期KPI的研究与应用
企业生命周期及其管理
图书馆
去图书馆