成舒云
(天津医科大学图书馆 天津 300070)
科研数据管理(Research Data Management,简称RDM),是对科研数据进行的计划、获取、组织、分析、存储、共享、利用、保存和再利用等一系列与数据相关的管理活动的总和[1]。RDM贯穿整个科研生命周期,其价值主要体现在:有效避免重要数据的丢失,为验证科研成果提供数据支持;促进科研数据共享,提升科研效率;提升科研成果的曝光率和影响力,提高科研人员及其所属机构的学术声誉[2]。图书馆是支撑高校教学、科研、学术声誉和综合实力提升与发展的重要机构,在RDM服务方面发挥着至关重要的作用。美国高校图书馆在RDM方面具有丰富的实践经验,从辅助科研人员保存科研数据、数据管理计划支持服务、数据管理培训与教育等角度承担高校科研数据管理“领航员”的职责[3]。
泰晤士高等教育(Times Higher Education,简称THE)世界大学排名,是唯一一份通过综合核心任务(教学、研究、知识转移和国际展望)来判定一所研究密集型大学优劣的排名。它使用13个经过精心校准的绩效指标,对大学实力提供最全面和平衡的比较,得到学生、学者、大学领导、行业和政府的普遍信任。THE2019年世界高等教育大学排名中包括1 250多所大学,是迄今为止最大的国际排名[4]。本文对THE 2019年世界大学排名中美国前20位(如表1所示)的大学图书馆RDM状况进行调查,以分析其推动RDM实践的有效途径。在详细调查和全面分析研究的基础上提出对我国高校图书馆RDM实践的启示。
表1 美国高校科研数据管理服务项目及特色
网络是当今社会信息传播与获取的主要渠道,网站建设的好坏直接影响着一项服务或政策的落实情况。本文主要采用网络调查法和内容分析法进行调查研究。通过网络调查法,搜集选取20所美国高校RDM的相关内容,重点关注对RDM政策落地影响较大的RDM实践,主要是服务内容与特色、服务人员、数据存储库与数据管理计划等。内容分析法应用于RDM政策文本和研究文献分析。
图书馆是高校RDM服务的提供者和支持者之一,除普林斯顿大学、康奈尔大学外,其他18所高校都是以“图书馆”为RDM入口,下设相应栏目。
RDM服务项目的名称如表1所示。“R”即Research科研,“D”即Data数据,“M”即Management管理,“S”即Services服务,“C”即Curation管护。调查发现,美国高校RDM服务项目的名称存在些许差异,以“Research Data Management(Services)”和“Data Management(Services)”最为常见。
美国各高校图书馆RDM服务的涵盖内容比较全面,涉及RDM介绍,数据管理计划(Data Management Plan,简称DMP),数据保存、共享、保护,高性能计算,咨询,培训,相关资源推荐等。分析发现图书馆在RDM政策方面的重要价值还体现在:图书馆通过协助制定RDM的相关政策为专门的科研数据管理政策出台奠定基础,比如科研数据长期保存政策、开放获取政策等。图书馆能加强与各方联系、密切合作,逐步推动政策制定,并在政策出台后提供政策的解释、咨询以及修订服务等。
除了服务涵盖内容全面外,美国各高校图书馆RDM服务又各具特色,即在某一点或某一方面的服务有突出优势(如表1所示)。如康奈尔大学在数据安全保护上颇具特色、内容丰富,涉及知识产权和版权、隐私和保密、存储备份和修复等。卡内基梅隆大学发布了完整的RDM流程图,且每个环节内容详尽,在DMP中包含了文档、命名、元数据,在数据收集与分析中包含了合作、存储、安全、备份、版本等。
美国高校对于科研数据管理人员的配置大体分为两类:一是成立专门的工作组。如耶鲁大学成立了专门的研究数据支持服务组,其成员来自不同的部门,并有为研究人员及其数据提供支持的联络中心。康奈尔大学的RDM服务组是全校范围的协助工作组。二是由学科馆员负责。麻省理工学院(Massachusetts Institute of Technology,简称MIT)的数据管理和出版服务由学科馆员负责,数据管理服务只对MIT社区成员可用。
科研数据管理人员的职责,基本是围绕研究项目的整个生命周期提供相应服务。耶鲁大学的研究数据支持人员在数据生命周期的每个阶段与研究人员一起工作:协助寻找管理、存储和描述数据的方法,分析数据,使用数据,为未来的研究人员保存和共享数据。杜克大学图书馆的数据管理顾问可以在研究数据项目的所有阶段提供帮助:数据管理规划、数据工作流设计、数据和文件审查、数据存储库支持。
美国高校图书馆很重视科研数据组织与管理方面技能的培训[5],培训主题涉及:DMP、发现和访问数据、数据归档、组织和共享、使用GIS等。理论与实践相结合是美国高校图书馆RDM培训的关键性特征,以深化理论学习为目标,围绕RDM实用性工具展开,涵盖数据管理(DMP编制、Git and GitHub);调查(Qualtrics调查设计);统计分析(STATA、SPSS)[6];查找和使用数据(定量-JMP、R;定性-ATLAS.ti、NVIVO);数据可视化(Tableau);GIS(ARCGIS、GIS数据清理)[7]。
美国高校图书馆DMP可以概括为:以“创建良好数据管理计划的十条简单规则”[8]为基础,结合研究领域与参考资源,且更加注重突出特色。
联邦资助机构要求研究项目申请和完成时提交一份详细的DMP,甚至将其作为申请拨款的重要依据。密歇根大学和西北大学列出了较全的联邦资助机构各领域有关数据管理的要求。实践中,可以将相应研究领域的联邦资助机构要求作为指导,考虑某项研究具体的或特定的要求,创建适合自身的DMP。常见的创建DMP的参考资源主要有:The DMPTool、ICPSR、UK Data Archive、Digital Curation Centre等。而特色DMP的创建是基于多样化的数据存储库实现的。
本质上,数据存储库的内涵并不局限于存储,而是涵盖了数据组织和归档、发现和访问、发表、存储、共享和再利用、保存、安全等。与研究人员在创建DMP时应考虑的主要内容有诸多融合。多样化的数据存储库为从学科出发,依据实际创建特色DMP提供了有力支撑。
数据存储库,大体可分为自建的存储库和通用的存储库。①自建的存储库,面向本校开放,学科专业针对性和适用性更强。如哈佛大学DASH存储库,杜克大学数字存储库,密歇根大学Deep Blue Data Repository[9]。Deep Blue Data Repository专注于文档,为开发或用于支持密歇根大学研究活动的数字研究数据提供访问和保存服务,以保持数据的可访问性和学术价值。从特征上来看:能提供发布研究数据的方法;做好数据保存以备将来使用;通过分配数字对象标识符(Digital Object Identifier,简称DOI)可以引用数据。从效益上来看:符合资助机构和出版商的要求;有助于协助科研人员的数据分享,提高其知名度和学术影响力。②通用的存储库,可以从学科大类上为RDM提供广泛的参考借鉴。社会科学存储库有ICPSR、The Odum Institute Data Archive、Qualitative Data Repository等。自然科学存储库有Bio sharing、DataMed、Dryad等。人文科学存储库有Humanities Commons: CORE、National Archive of Data on Arts and Culture等。此外,其他影响力较大的存储库,如:re3data(Registry of Research Data Repositories)可以快速而简单地帮助研究人员确定数据所适合的存储库。
在高校图书馆RDM服务中,研究人员最关注的问题是数据的存储和管理,尤其是长期的数据存储和管理[10]。从研究项目一开始,就需要针对特定的出资人、专业或数据类型编制DMP,可以参照美国各高校图书馆提供的数据管理指南,而在此过程中,创建数据存储的计划是重中之重,能极大地简化对数据的访问和管理。美国高校图书馆基于多样化的数据存储库创建特色DMP,也启示我们做好数据存储可以为高校图书馆RDM服务打下坚实基础。因此,需要重点考虑以下内容:
①数据的敏感性。依据数据是否敏感,制定适当的存储计划,明确保存范围、最低保存年限,以满足在项目生命周期中对数据访问和安全的需求。可以参考杜克大学的正式数据分类标准,以及敏感数据存储要求。②数据的大小。数据大小影响着预算、存储选项、处理速度、易访问性和备份策略,也决定着需要什么样的数据环境。图书馆在科研数据存储上,需要预计科研项目的数据大小、了解自身的资源,并与本校信息技术支持部门、研究计算部门等相关人员交流获取支持。③数据的格式。格式直接影响将来打开数据及访问数据的能力。考虑到不同学科之间科研数据的差异性,数据保存格式应具有开放性、兼容性和持久性,并明确保存规范和具体的保存格式,为以后数据的集成、关联以及可视化描述奠定基础[11]。④制定备份计划。应确保在项目开始时建立备份计划,以3-2-1为备份的一般规则,同时创新方式方法来确保定期和适当地备份数据。⑤定义项目角色。定义项目角色建立数据治理,以确保正确分配读取、写入或执行权限,可以提出一个存储层次结构,将这些权限作为保持工作流顺序的方法。具体而言,应确保保存以下记录:研究数据的上下文(数据的收集目的和方法)、有关变量的信息、涉及数据清理和分析的过程、文件目录结构以及项目人员的角色和职责[12]。⑥确定数据的存储位置,以便长期保存和访问。在项目的整个生命周期中存储数据的位置是一个重要的决定。不同的存储库提供不同程度满足数据存储的接口、服务和策略,需要对多样化的数据存储库有一定的了解。同时,需要根据科研项目资助机构或资助人的要求、科研人员的需求、不同学科的差异化需要和数据特点等,选择合适的存储库。
网站是RDM服务的最主要平台,是RDM政策能否落地的关键。本研究调查发现美国高校图书馆的RDM网站不仅内容全面而且特色鲜明,基于此,加强我国高校图书馆RDM网站平台建设,主要应从网站内容建设、网站布局设计、网站互动等方面着手。
在网站内容建设上,以RDM概述、数据管理计划、发现与获取、组织与存储、元数据与文档、共享与发布等模块为主。同时,也应当结合本校实际,在RDM网站建设上有针对性地突出特色。耶鲁大学[13]在网站内容设计上,特色鲜明,将服务糅合进了交互式解决方案和自助服务解决方案,内容更实用、易用。交互式解决方案包括研讨班、咨询、培训和RDSS(Research Data Support Services)研究数据支持服务组两种。自助服务解决方案提供支持数据的单位、资源和工具,用户可以按照自己的节奏来学习RDM。
在网站布局设计上,图书馆可以在调查学校科研人员需求和收集科研数据平台资源的基础上,建立具有特色的检索导航系统[14]。根据不同层级和结构,将简洁实用与丰富详尽相结合。一目了然、直观清晰,以突出实用小技巧和常用功能为主,通过流程图等方式来呈现,并设计可以一键跳转到相关指南或详细内容介绍的链接,方便全面、深入地了解RDM策略、资源和工具等信息。
在网站互动上,应开通数据咨询交流平台,提升RDM服务的针对性。重点做好数据调查[15]、问答设计和资源链接。图书馆开通数据咨询交流平台,方便科研人员在提交数据管理与共享之前进行自我摸底,如数据的潜在用户、数据存在与利用方式、是否为敏感数据等,也帮助及时了解研究人员如何管理数据,并确定研究人员对数据存储、保存和共享的需求或要求。
在科研密集型环境下,个人数据素养的高低将会直接影响个体在研究过程中的效率以及最终研究成果的可信度与有效度,甚至成果转化[16]。提升数据素养,不论对于科研人员还是图书馆员,都是至关重要的,只有不断提升科研人员和图书馆员的数据素养,才能做好科研数据管理。
数据素养涉及多个方面:数据基础知识、数据管理与操作技能、科学数据管理计划的编制、科学数据管理平台的普及等[17]。在RDM服务中,依据工作需求配置专业工作人员,并将提升科研人员和图书馆员数据素养的教育贯穿RDM全过程。结合当前RDM的发展,从更加切合实际出发,应将数据规范、数据工具、数据可视化作为提升数据素养的关注点。①学习数据规范,方便数据的长期保存与共享。除要求研究人员在使用RDM系统管理数据时采用平台要求的统一格式外,也应提倡用户使用国际通行的元数据标准或数据组织、表现形式来存储数据文件,方便数据的长期保存与共享。②学习使用数据工具能让RDM事半功倍,图书馆应有专门的软件和硬件工具用于分析,并有专家为数据工具的使用提供帮助。图书馆提供科研数据工具的学习,应允许本单位人员免费访问相关软件,并进行学习指导,帮助科研人员找到研究需要的最佳工具和资源。注重开展跨学科数字研究研讨会,促进不同学科学术交流及RDM服务开发。③数据可视化是目前美国高校RDM的重要实践,有助于极大地提高学习使用数据的效率、创新和提高RDM水平。数据可视化服务,可以在数据源、数据管理、数据可视化、地图和地理信息系统以及数据清洗方面提供支持,旨在通过在研究生命周期的各个阶段提供关于最佳实践、工具和资源的建议与培训来帮助研究人员实现数据驱动的研究目标。
RDM服务是图书馆针对科研发展的新趋势和新变化,履行为科研服务使命所提供的满足科研人员数据管理需求的服务。本文通过对美国高校图书馆推动RDM有效途径的调查与分析,为我国高校图书馆RDM实践总结和归纳了细化的、具有可操作性的借鉴。内容丰富详尽且简单易用,能使各图书馆根据自身实际情况,借鉴有关资源和模式,提供更加有针对性的RDM服务,以加快深化我国高校图书馆RDM实践。