摘 要 论文基于对124个成员馆关于数据监护服务的调查,以及研究图书馆协会发布的《SPEC Kit 354: Data Curation (May 2017)》报告,全面展示了北美高校图书馆数据监护的现状及挑战。报告内容涉及员工、学科需求、元数据标准、具体服务内容、未来面对的挑战及代表性案例等。我国高校图书馆尚处于数据监护工作的初级阶段,需要在借鉴国外图书馆实践的基础上,探索出符合国情、馆情的发展道路。
关键词 研究图书馆协会 数据监护 科研数据管理
分类号 G250.7
DOI 10.16810/j.cnki.1672-514X.2019.10.014
The Status Quo and Enlightenment of Data Curation in North American University Libraries: Based on SPEC Kit 354: Data Curation (May 2017)
Geng Manman
Abstract Based on a survey of data curation in 124 member libraries and SPEC Kit 354: Data Curation (May 2017)published by the Association of Research Libraries, this paper comprehensively demonstrates the status and challenges of data curation in North American university libraries. The report covers employees, subject needs, metadata standards, specific service content, future challenges and representative cases. University libraries in China are still in the initial stage of data curation. It is necessary to explore the working methods applicable to domestic libraries based on the successful practice of foreign libraries.
Keywords The Association of Research Libraries. Data Curation. Research Data Management.
0 引言
当今,随着科学研究范式的革命性变化,科研数据成为一种重要资源,受到科研机构的高度重视。对图书馆而言,做好科研数据的监护服务工作,既是在數据时代彰显自身作用的一个契机,也是开展创新服务的一个挑战。英国数字监护中心(Digital Curation Center,简称 DCC) 认为“数据监护是在数据的整个生命周期中,对它们的维护、保存及增值的所有活动。其目的是减少在重新研究这些数据时出现的各种威胁,以及降低因数字技术的退化而带来的各种风险,同时可以减少科研数据的重复性创建工作和共享给未来科研活动”。因此,对于数据监护管理开展的研究同科研数据一样,越来越受到重视,其研究内容得到不断补充和更新,具体有三大特点:持续性——贯穿于整个科研项目过程中;专业性——在整个过程中对数据进行专业的维护保存;增值性——通过数据服务实现数据再发现及再利用。
1 国内数据监护服务研究情况
目前,国内关于数据监护服务的研究主要分为以下几类。(1)国际综述性研究:东方[1]、杨鹤林[2]分别介绍了美国与英国图书馆界在数据监护工作上的成果与实践;吴振新[3]介绍了国际主要机构面临的挑战,并从数据评估与遴选政策、审计和认证等方面总结了这些机构的应对办法;刘佳美[4]选取美国、英国、澳大利亚中科研数据监护服务相对成熟的学校,从生命周期视角下探讨了科研数据监护的流程。(2)国外具体案例研究:彭鑫[5]利用比较分析的方法对中国科学院和康奈尔大学在科研数据服务上的实践进行了比较;刘桂锋[6]、陈丽君[7]分别介绍了伊利诺伊大学香槟分校、霍普金斯大学的科研数据管理实践。(3)热点研究:基于CNKI、万方学术论文库,张婧[8]、潘煦[9]、阳广元[10]对国内数据监护的研究热点和内容进行了分析。(4)探索比较研究:陈国兰[11]从框架体系出发构建基于大数据的国内高校数据监护的实施框架;卫军朝[12]分别从平台的建设现状、建设目标、系统平台、数据来源、经费情况、平台功能、数据管理功能等维度对国内外十余个平台进行比较分析;周宇[13-14]探析了国内数据监护平台的研究热点与进展,并构建数据监护平台评价指标体系;黄鑫[15]、宋秀芬[16]、张萍[17]、牟婷婷[18]、曹冉[19]分别从服务内容、流程管理、需求评估、岗位设置、监护教育等角度分析数据监护服务。(5)典型平台建设研究:北京大学团队[20-21]从用户需求、系统选型、元数据、系统架构等方面详细讲解了北京大学开放研究数据平台的整个建设流程;复旦大学团队[22]介绍了复旦大学社会科学研究平台的数据管理、服务、交换和监护等主要功能及服务情况;武汉大学团队[23]介绍了他们在社会科学数据管理方面的实践。
上述论文虽然从不同角度探讨了数据监护服务在国内外图书馆界发展的情况,但未涉及对北美图书馆数据监护工作整体层面的介绍。因此,本文通过选取研究图书馆协会(The Association of Research Libraries, ARL)发布的《SPEC Kit 354: Data Curation (May 2017)》[24]调查报告,选取124个成员馆来探讨北美高校图书馆数据监护的现状和挑战,期望为我国高校图书馆展开数据监护服务提供借鉴。
2 北美高校图书馆数据监护服务现状
2.1 数据监护服务背景调查
ARL是一个由美国和加拿大125个研究型图书馆组成的非营利性组织,其成员馆每年花费14亿美元在建设信息资源和开发新的学术交流模式上,因此,ARL的调查报告反映了北美大学图书馆在服务、技术、管理上的现状和未来发展趋势,被国内外大学图书馆作为制定政策及发展方向的重要参考。此次数据监护调查的目的是揭示ARL成员馆当前的数据监护服务中涉及的人员配置和基础设施(政策和技术),了解当前数据监护服务的需求水平,并发现成员馆在提供数据监护服务上面临的挑战。该调查于2017年1月在124个ARL成员图书馆中开展,其中80个(65%)图书馆在1月30日截止日期前作出回复。调查结果显示,51个(近三分之二)表示目前正在提供数据监护的服务,13个表示正在开发该服务,只有16个(占比20%)表示没有提供也没有积极开展该服务。目前,提供服务的51个图书馆中有35个是在2010年及之后开始该项服务的,故数据监护服务是相对较新的服务模式。
2.2 人力资源和学科需求情况
调查询问将图书馆从事数据监护工作的职工分为“专职工作人员”(100%的工作时间从事数据监护)和“兼职工作人员”(将部分工作时间用来从事数据监护)。回复表明大多数图书馆数据监护都是由兼职工作人员来承担。49个回复的图书馆中293名员工参与数据监护服务,其中兼职工作人员231人,每个图书馆的参与员工人数从1到15人不等;28个图书馆仅有兼职工作人员,共142人;17个图书馆同时拥有专职39人和兼职工作人员88人。这些兼职工作人员花费在数据监护工作上的时间百分比因机构而异,一些图书馆的工作人员占用时间为5%~10%,另一些则可能高达40%~50%。一些图书馆表示随着研究人员的需求不同,工作人员所花费的时间量也各不相同,来自社会科学和生命科学的研究人员最有可能需要数据监护服务(65%),其次为艺术人文(41%)、工程与应用科学(39%)及物理(37%),再者是健康学(26%)、农业与自然科学(26%)、跨学科(22%)、图书馆学(14%)和其他学科(6%)。
2.3 数据仓储库、元数据标准和资源唯一标识符
数据仓储库负责数据保存与维护,作为基础设施与工具来支持数据监护活动,是数据监护整个服务流程的重要组成部分。调查显示提供数据监护服务的51个图书馆中有46个图书馆提供数据仓储服务,与数据监护服务类似,这些仓储库大多在2010年或之后上线。有22个图书馆使用最常见的数据仓储平台DSpace,11个使用Dataverse,10个使用Fedora/ Hydra,7个使用Islandora,17个图书馆使用上述平台的组合或其他平台。
元数据(Metadata) 是“关于数据的数据”,为由各种数字化资源有机构成的分布式信息体系提供整合的工具和纽带,离开元数据的数字图书馆将无法提供有效的检索和发现服务。元数据标准(Standards)是描述某类资源的具体对象时所有規则的集合。不同类型的资源可能有不同的元数据标准,一般包括完整描述一个具体对象所需的数据项集合、各数据项语义定义、著录规则和计算机应用时的语法规定。元数据在不同领域的应用标准主要根据不同领域的数据特点和应用需要。被调查的43个图书馆在数据监护工作中使用的元数据标准主要有DublinCore、MODS、DDI、 DataCite、Dataverse和MARC,其他标准还有如ISO19115、 Geoblacklight、and VRACore4,许多图书馆因为数据监护目的不同会同时使用多个标准,最多的同时使用四种。
资源唯一标识符具有唯一性和持久性,可确保资源可以被长期访问[21],在数据发布、访问、引用、评价追踪、规范数字版权等方面起着关键作用[20]。在44家被调查的图书馆中,有26个使用句柄(Handles)的资源标识符,25个使用DataCite DOI,9个使用CrossRef DOI、 5个使用PURLS,4个使用ARKS,还有4个使用其他资源唯一标识符。
3 北美高校图书馆数据监护服务内容及挑战
3.1 数据监护服务体系和内容
数据监护服务包括一系列不同类型的活动,此次调查ARL将整个服务流程归类为五个方面,共47项活动,如表1所示。其中,具体服务内容中每项服务后面括号中的第一个数字表示目前提供该服务的图书馆数量,第二个数字是重要性调查结果统计分值(设定1代表“必须”、2代表“很重要”、3代表“一般重要”,根据图书馆选择的结果,按照分值计算出该项活动重要性平均值,值越小代表该项服务内容越重要)。
3.2 数据监护服务内容调查分析
从提供服务的图书馆数量来看,摄取项目是被大多数图书馆所认可并正在开展的数据监护服务,处理和审查、保存项目中部分服务提供的图书馆数量相对较少。究其原因有三:一是由于数据监护对于图书馆来说是一个相对较新的领域,技术、人员、资金等各方面还不完备,有些监护内容是图书馆员希望提供但是由于各种原因而无法开展的;二是有些图书馆认为这些服务应该由学校其他部门来提供;三是个别图书馆对这些服务内容不确定,还处于观察阶段。
表2呈现了当前提供该项服务的图书馆数量与期望或者有兴趣提供该服务的图书馆数量之间差距最大的7项监护内容。差距最大的服务内容是“5.5存储库第三方认证”,该项服务是指可信的第三方认证体系或标准通过透明且完备的流程来对数据仓储进行审查认证,以此保证数据的可信赖性。第三方认证标准有:可信赖仓储的审计及认证:指标与列表(Trustworthy Repositories Audit & Certification:Criteria and Checklist,TRAC)、数据认可印章(Data Seal of Approval,DSA)、以及核心信任印章(Core Trust Seal,CTS)等。其次是“3.2代码审查”,该项服务指对计算机代码运行并验证(查找丢失的文件或发现错误),以便找到在开发初始阶段就存在的错误,从而提高软件的整体质量。
3.3 数据监护服务面临的挑战
调查询问图书馆未来三到五年可能会遇到的挑战,分值1代表“不具有挑战性”,分值5代表“具有很大的挑战性”,然后根据选择各个分值的图书馆数量计算平均值,值越大代表挑战性越大。如表3所示,北美图书馆遇到的最大挑战是“特定领域的专业知识”。除表中所列的之外,还有的图书馆表示数据监护的主要挑战在于领导层的意愿和执行力。
4 我国高校图书馆开展数据监护服务的启示
4.1 制度保证
(1) 制定政策。从宏观层面上看,要颁布权威的数据监护政策,将数据监护提升到国家战略高度。目前,我国颁布了一些数据管理规范及指南,如2018年3月17日国务院办公厅发布的《科学数据管理办法》是首个国家层面出台发布的科学数据的管理办法,明确提出“开放为常态、不开放为例外”的原则。但是,我们还缺少权威的、具体的数据监护政策。因此,我们需要适当借鉴国外政府部门数据监护政策和监护项目案例,结合自身科研项目管理的需求和数据资源的特点制定符合自身情况的数据监护政策。从微观层面上看,管理层要严格执行数据监护的相关流程。欧美许多科研资助机构越来越重视数据监护计划,如美国国家科学基金会(National Science Foundation,NSF)、国立卫生研究院(National Institutes of Health, NIH)、国家航空航天局(National Aeronautics and Space Administration, NASA)、美国能源部(Department Energy, DOE)、英国生物技术和生物科学研究理事会(Biotechnology and Biological Sciences Research Council, BBSRC)等,在对科研项目资助审核时要求科研人员在提交项目申请时提交数据监护计划。对此,教育、科研管理机构应要求科研工作者提供数据监护计划,并且从单位管理层面對每项科研项目涉及的数据收集、保存和管理做出强制性要求。由此将顶层设计与底层规划相结合,构建具有可操作性的数据监护运行机制。
(2)规范流程。数据监护服务的复杂性与专业性导致了数据监护中存在很多难点,缺少规范化的流程说明。欧美的数据监护服务经历了长期发展,大都基于数据生命周期来规范流程,流程管理较为成熟,如英国国家数据存储(The UK Data Archive, UKDA)和美国高校校际政治与社会研究联盟(Inter-university Consortium for Political and Social Research, ICPSR)的数据监护流程大致包括数据创建、数据加工、数据分析、数据保存、数据存取、数据再利用等[25]。高校图书馆需建立一套流程来规范数据监护的具体活动,规范化流程可以保障数据的完整性与有效性,实现数据监护的有序化与标准化,有助于图书馆、数据监护人员与科研人员明确工作任务,提高管理效率,减少数据丢失[16]。
4.2 技术保证
数据监护工作的顺利实施需要专业的数据监管工具和一系列IT技术作为支撑[11],在生命周期的不同阶段需要用到不同的工具。笔者结合调查报告和北美一些高校图书馆相关页面介绍,列举一些数据监护服务中涉及到的常用工具和平台。(1) 制定“数据管理计划”(Data Management Plan, DMP)要使用到工具,大多数高校推荐的DMP工具是DMP Tool和DMP Online两种;(2) 帮助创建和管理资源唯一标识符的工具EZID;(3) 开源数字文件格式登记系统JHOVE用于对特定格式的数字对象的识别、验证和鉴定[26-27];(4)开源软件环境Bit Curator用于将资源从便携式媒体(如软盘、闪存驱动器和硬盘驱动器)迁移到更可持续的环境,用户可以创建磁盘映像、分析文件、提取数据和元数据以及识别和编辑[28];(5)数字文件打包管理系统BagIt支持基于磁盘的存储和任意数字内容的传输(FTP、HTTP、rsync等);(6)数据仓储平台,从调查结果看北美高校图书馆使用的比较多的还是开源软件,如Dspace和Dataverse,国内武汉大学图书馆采用Dspace,北京大学和复旦大学图书馆采用Dataverse。除此以外,还需要配合云计算、大数据、语义技术等底层IT技术。高校图书馆应该结合高校自身学科特点,选择合适的开源软件或自主开发系统,结合先进IT技术构建满足科学数据储存、管理、共享和使用的数据监护工具,来满足不同监护阶段的工作需要。
4.3 人员保证
(1)岗位设置。数据监护工作职能多样且复杂。从数据监管岗位设置来看:北美高校图书馆成立了隶属图书馆的数据监管部门或与其他部门机构合作设置专门的数据监管机构,通过招聘新的岗位或者由从事信息服务的部门抽调人员从事数据服务。数据监管并非只需要单一的数据馆员,也不仅仅依靠一个部门,而是多个部门、机构、岗位整合并相互配合,来共同完成服务[18]。比如,约翰霍普金斯大学数据监护工作由图书馆、科研管理部门、科学数据管理工作组、学校的IT部门和伦理委员会共同组成。从岗位名称来看:有的岗位名称为馆员,如卡尔顿大学“数据服务馆员”(Data Services Librarian);有的岗位名称为专家或顾问,如奥克兰大学“数据管理专家(Data Management Specialist)、杜克大学“数据管理顾问”(Data Management Consultant),有的直接设置为“数据监护员”(Data Curator);还有的以组合形式来表述,如密歇根大学“数据馆员和助理/副教授”(Data Librarian and Assistant/Associate Professor)、纽约大学城市科学与计划中心的招聘信息“信息专家/程序员/ETL工程师”(information specialist/programmer/ETL engineer)[18]。
数据监管岗位的设置是一个新兴的、探索发展中的领域,对于国内高校图书馆来说需要建立一套公认的共同标准,努力达到规范性。不同类型的大学、不同的科学数据研究发展阶段应该采取不同政策,是招聘新的数据监管馆员还是对现有馆员工作内容重组,是成立新部门还是在老部门基础上增加新岗位,以及如何整合现有部门更好地开展数据监管工作都是需要思考的问题。
(2)素养提升。首先,图书馆对科研数据管理的需求进行评估,但我国对高校科研数据管理的需求评估方法只是简单地涉及问卷调查和访谈方法,未形成系统化、专门化方法[17]。英、美高校总结提出了一些科研数据管理的需求评估方法,如英国的数据资产框架(Data Asset Framework, DAF)、美国的数据管理纲要(Data Curation Profiles, DCP),这些方法已经得到应用并取得一定成果,值得国内借鉴。其次,图书馆除了提升馆员的数据监护技能,还有义务对科研人员实施数据监护培训教育,不断培养馆员和研究人员的专业数据素养,提高两者数据收集、处理、分析的能力,如了解常用元数据标准与格式、数据管理与分析技能(Excel、SPSS和Google Charts等)、机构知识库软件的实际操作经验等。最后,需要加强对学生甚至全民数据素养的教育及数据监护意识。欧美高校根据培养目标的不同设置了不同的培养方法,有培养硕士和博士的学位教育、有培养特定技能和知识的认证教育、还有以免费在线学习为主的培训教育[19]。国内高校可在借鉴国外的基础上,根据不同的目标,综合考虑培养方式、培训层次和教学内容等因素,开展适合本校的培训计划。
(3) 广泛合作。由于庞大的数据量、不断增加的成本和日益减少的资金来源,图书馆需要强有力的合作和跨领域、跨机构和跨地区的协作。数据监护为我们保存过去和捕捉现在创造了无尽可能,同时它还将在塑造未来上扮演重要角色。数据监护需要不同利益相关者在同一个平台上合作,共同创造价值。
5 结语
数据监护是一整套系统工程,需要各个层级的不同机构之间共同合作,需要管理者、科研人员和数据监护人员共同参与。图书馆是科研数据监护工作的主要承担者,在高校科研领域发挥着重要作用。目前,国内仅有武汉大学图书馆、北京大学图书馆和复旦大学图书馆提供科研数据平台供研究者管理、发布和存储数据,供数据用户浏览、检索和下载数据,其他高校图书馆还处于机构知识库的建设过程中,相关流程规范和制度建设尚需完善。因此,国内高校图书馆需要在借鉴国外圖书馆的成功实践基础上,探索出一条适用于我国高校图书馆数据监护工作的发展之路。
参考文献:
[ 1 ]东方.美国图书馆界科学数据管理与共享的实践及其启示[J].情报资料工作,2017(3):107-112.
[ 2 ]杨鹤林.英国数据监护研究成果及其在高校图书馆的应用:CC建设回顾[J].图书馆杂志,2014,33(3):84-90.
[ 3 ]吴振新,陈瑶,李文燕,等.国际Data Curation研究与实践发展综述[J].图书馆理论与实践,2016(2):23-28,33.
[ 4 ]刘佳美.生命周期视角下高校科研数据监护流程分析[D].曲阜:曲阜师范大学,2018.
[ 5 ]彭鑫,邓仲华.科研数据服务实践的比较研究:以中国科学院与康奈尔大学为例[J].图书馆学研究,2017(11):61-66.
[ 6 ]刘桂锋,卢章平.美国高校科研数据管理实践个案研究:以伊利诺伊大学香槟分校为例[J].图书情报研究,2016,9(4):24-34.
[ 7 ]陈丽君.约翰·霍普金斯大学科学数据管理服务实践与启示[J].现代情报,2016,36(4):110-114.
[ 8 ]张婧,吴金红.国内Data Curation的热点和重点领域研究[J].现代情报,2018,38(5):125-130.
[ 9 ]潘煦.国内Data Curation研究文献的可视化分析[J].图书情报导刊,2017,2(6):74-78.
[10]阳广元.国内data curation研究热点与进展[J].图书情报工作,2016,60(2):129-136.
[11]陈国兰.大数据驱动的国内高校数据监护实施框架体系研究[J].情报杂志,2018,37(5):176-181.
[12]卫军朝,张春芳.国内外科学数据管理平台比较研究[J].图书情报知识,2017(5):97-107.
[13]周宇,欧石燕.国内数据监护平台研究热点与进展探析[J].图书情报工作,2016,60(22):116-125.
[14]周宇,廖思琴,阮莉萍,等.数据监护平台评价指标体系构建与测定研究[J].图书馆学研究,2017(1):35-42.
[15]黄鑫.基于服务内容的科学数据服务用户满意度研究[D].武汉:武汉大学,2017.
[16]宋秀芬,邓仲华,金勇.高校图书馆数据监护的流程管理研究[J].图书馆学研究,2015(5):35-40,21.
[17]张萍,周晓英.高校科研数据管理的需求评估方法研究[J].情报杂志,2015,34(11):188-192,198.
[18]牟婷婷.高校图书馆数据监管岗位设置调查研究[D].保定:河北大学,2018.
[19]曹冉,王琼,耿骞,等.国外大学数据监护教育的调查与分析[J].图书情报工作,2016,60(4):52-58.
[20]朱玲,聂华,崔海媛,等.北京大学开放研究数据平台建设:探索与实践[J].图书情报工作,2016,60(4):44-51.
[21]罗鹏程,朱玲,崔海媛,等.基于Dataverse的北京大学开放研究数据平台建设[J].图书情报工作,2016,60(3):52-58.
[22]张计龙,殷沈琴,张用,等.社会科学数据的共享与服务:以复旦大学社会科学数据共享平台为例[J].大学图书馆学报,2015,33(1):74-79.
[23]项英,赖剑菲,丁宁.高校图书馆科学数据管理服务实践探索:以武汉大学社会科学数据管理为例[J].情报理论与实践,2013,36(12):89-93.
[24]SPEC Kit 354: Data Curation(May 2017)[EB/OL].[2018-12-10].https://publications.arl.org/Data-Curation-SPEC-Kit-354/.
[25]孟祥保,钱鹏.高校社会科学数据管理的国际经验及其借鉴:以UKDA和ICPSR为例[J].情报资料工作,2013(2):77-80.
[26]开放存储基金会成为JHOVE的新家[J].现代图书情报技术,2015(3):107.
[27]梁娜,张晓林.数字文件格式登记系统[J].图书情报工作,2005(11):82-86.
[28]Mellon基金会资助BitCurator进行扩展,以改善对数字原生资源的分析和访问功能[J].现代图书情报技术,2016(10):41.
耿曼曼南京师范大学图书馆馆员。 江苏南京,210023。
(收稿日期:2018-12-26 编校:曹晓文,陈安琪)