国外学术图书馆研究数据管理服务的实践与启示

2021-12-10 07:43吴昊
数字图书馆论坛 2021年10期
关键词:数据管理馆员学术

吴昊

(1. 西安图书馆,西安 710016;2. 吉首大学旅游与管理工程学院,张家界 427000)

随着高等教育中多元文化群体的不断涌现及图书馆服务供应链上下游的演变,研究数据管理(Research Data Management,RDM)正在成为国外学术图书馆最重要的服务之一[1-2],并重塑着学术图书馆的服务范式[3]。RDM指的是在研究生命周期内维护数据的过程,主要包括规划、管理、处理、组织、分析、保存、访问、再利用和创建数据等活动。RDM被认为是研究型图书馆的“开创性”领域[4],同时也是学术图书馆传统服务的延伸,即从咨询服务/信息素养服务扩展到数据素养服务、存储库管理、元数据标记、馆藏管理和数据检索等[5]。最近的一项研究指出,过去20年来研究数据的重要性不断提升,已被广大科研人员和专业人士高度认可,然而图书馆在提升RDM服务设施和服务技能方面却远远落后[6]。显然,由于RDM牵涉多机构、多部门之间的协调合作,以及要面对数据提供者对数据保存和共享的不同认知,同时还必须具备一定的技术能力,因此RDM必然是一项复杂的工作[7]。

目前有关RDM文献综述的研究对研究范围均有所限制。如有研究者对图书馆馆员与RDM的关系进行回顾后发现,这方面文献与图书馆的研究支持服务、开放存取服务和数据仓储等有交叉,且人们并不认为图书馆馆员是最适合管理数据的人员[8]。还有一些是针对农业科研领域RDM的核心问题[9]、卫生领域的RDM技能差距等进行的文献综述[10]。显然,目前国内外还没有一个系统全面的综述研究涵盖RDM的所有重要方面,如RDM实践中面临的挑战或问题、需要学术图书馆提供的技能和服务、激励研究人员和数据馆员提升RDM认知和技能的因素等。与此同时,近年来数据科学和智能技术的高速发展给RDM带来了革命性的影响,RDM面临的挑战进一步加剧,国外学者试图从多个视角、多个层次来探讨学术图书馆的RDM服务,这极大地拓展了RDM服务的领域范围。因此,当前很有必要对国外RDM的发展现状进行新一轮的调查分析。由于国内已有学者对2016年以前的RDM研究进行过评述[11],因此本研究旨在系统回顾2016—2020年有关RDM实践、挑战或问题、所需馆员技能或图书馆服务及RDM背后的激励因素等方面的重要文献,为我国图书馆界有效开展RDM服务提供借鉴。本文将重点研究4个方面的问题:①研究人员或图书馆正通过哪些RDM实践来更好地管理研究数据;②研究人员和图书馆馆员面临的关键问题和挑战是什么;③成功实施RDM需要哪些技能和服务;④激励图书馆馆员和研究人员开展RDM的因素是什么。

1 研究方法

本研究采用系统综述和元分析优先报告的条目指南(Preferred Reporting Items for Systematic Reviews and Meta-Analyses,PRISMA)对文献进行分析。系统性文献综述采用明晰的可重复使用的检索策略在所选的数据库中对文献进行检索,然后依据研究主题和评估标准对获取的文献进行筛选和整合分析,进而可以清晰地把握该主题的现状、进展与趋势。由于该方法在研究问题的明确性、文献标准的清晰度、评估方法的严谨性、数据分析的科学性、研究结果的客观性等方面具有很大优势,因此被广泛用于改进和提高系统综述和元分析的报告质量,也被视为综述性分析报告的基础性规范[12],PRISMA 2020于2021年3月在BMJ在线发表[13]。总体上看,PRISMA 2020适用范围更广,对文献采集、分析和评估要求的更加详细,但其27个条目的结构与PRISMA 2009声明相比并未有变化,且主要适用于评估健康干预措施效果的系统评价[14],对于其他领域的应用效果尚需进一步验证,因此本文仍然选择较为成熟的PRISMA 2009声明。PRISMA 2009除了27个条目清单外,还包含一个流程图。流程图主要包含信息检索、初筛、纳入和综合四个阶段,由于信息的采集和分析是基于证据的,因此该方法既保证了目标主题可用文献的全面性,又保证文献的真实性、可靠性,还有助于对已发表的成果进行批判性评估[15]。

本研究于2021年6月使用关键词“研究数据管理and(实践or服务or挑战or问题or技能)”在LISTA(library,Information Science & Technology Abstracts,图书馆学、信息科学与技术数据库)、LISA(Library and Information Science Abstracts,图书馆和信息科学文摘数据库)、EBSCO、Web of Science、Google Scholar等数据库进行了检索,同时采集了IFLA Journal上两期有关RDM的专题文献。文献的选取需同时满足以下条件:①2016—2020年出版;②以英文形式出版;③研究性成果而非综述;④涵盖如RDM挑战、实践、技能、服务或激励因素等多个方面的研究,为避免内容重复,排除仅研究RDM单一方面的论文。

2 研究结果

2.1 文献集的总体概况

通过采用前文的检索策略,本文研究者从上述数据库和期刊中检索到15 778篇论文,并将其信息导入Endnote。由于文献数量较大,除了采用上文提到的选择标准外,文献还需满足以下3个条件:①仅选择有关学术图书馆RDM的文献,排除其他机构的RDM研究或实践;②仅选择期刊论文,排除学位论文、会议论文等其他文献类型;③仅选择国外学者的文献,排除中国学者的研究成果。满足上述标准并在剔除重复和不相关的记录后,通过阅读题名和摘要初步筛选出118条相关记录(其中有4篇论文无法获取全文)。随后对下载的114篇全文文献进行质量评估,质量评估参照医学领域的文献质量评价方法[16],该方法被广泛应用于学术文献的质量评估,主要包含对研究问题及研究假设、文献回顾、理论(概念)框架、研究设计、样本和抽样方法、资料收集过程/方法/质量、统计分析过程、研究伦理、讨论解释部分、文献整体表述等14个维度129个指标的评价。经过分析,排除研究问题不明确、研究设计不合理、样本不具代表性、研究方法不科学、结论模糊等问题的文献92篇,最终选择22篇研究成果纳入整合分析(见图1)。

图1 PRISMA流程图

2.2 文献集的特征

为全面了解选定文献的研究类型、方法、目标人群和样本量等,本研究对所选文献集的概况进行了梳理(见表1)。

表1 文献集概况

所选文章发表在14种期刊上,这些期刊由11家不同的出版商出版,多数是商业出版商,少数出版商属于专业图书馆和信息科学(LIS)协会,如美国图书馆协会和加拿大安大略省图书馆协会。根据调研发现,所有定量研究均采用调查问卷作为数据收集工具。4项定性研究采用单一研究方法(访谈、半结构化访谈和焦点小组访谈),2项研究分别应用“访谈和内容分析”和“访谈和焦点小组讨论”。国外RDM研究的对象主要是研究人员和图书馆馆员,对学生的研究相对较少,这可能是因为国外的研究伦理更倾向于保护学生隐私,需要学生的父母或老师同意后才可以开展研究,这无形中增加了研究难度。另外,定量研究的样本量范围从30~337人不等,定性研究的样本范围从28~60人不等。超过50%的样本量在28~100人,这个数量既便于研究设计和变量控制,也不至于样本量过少而缺乏代表性,因此被广泛采用。而超过200人的研究则大多是长期的跟踪调查。

整体上来看,国外近5年RDM研究整体呈现不断增长的趋势,但2020年由于受到新型冠状病毒流行的影响,很多研究不得不暂停或推迟,进而使得研究成果有所减少。从文献集的被引情况来看,最高被引为92次,最低被引1次,平均被引18次,14篇文献的被引在10次以上,被引较高的文献主题主要集中在教师和研究人员的RDM行为上,可见该主题是国外学术图书馆RDM研究的热点。从作者分布来看,作者来自13个国家,其中美国学者占比超过40%,是RDM研究和实践的主要群体。从研究类型上来看,大多数研究都是针对研究人员的定量研究,其中有3项研究的被调查者来自多个国家。从研究周期上看,超过80%的研究周期在3~9个月,显然这样的研究周期被大多数研究者认可,因为这不仅让研究的迭代设计和调整优化有了时间保证,还能让研究结果更为真实可靠。

3 国外研究数据管理服务现状分析

本文提取了22篇文献集中每篇论文的核心特征,即RDM的实践应用、RDM面临的挑战或问题、需要学术图书馆提供的服务、RDM馆员需要的技能及激励研究人员或图书馆员推动RDM发展的因素等,文献集见参考文献[5,17-37]。

3.1 RDM在国外的实践

在选定的22项研究中,有19项研究开展了RDM实践的调研,而这些实践主要集中在数据存储和数据共享两个方面,文献集出现的次数分别为14次和9次。显然,数据存储和数据共享是RDM当前最重要的两种实践。目前数据存储的方式主要包含以下4种:①自建机构库,如哈佛大学图书馆的DASH库;②自建开放研究数据平台,如牛津大学图书馆的ORA-Data;③提供免费科研数据存储空间,如剑桥大学免费提供20GB数据存储;④推荐至其他科研数据存储库,如加州理工学院图书馆给研究者提供了研究数据存储库在线搜索工具re3data[29]。遗憾的是,大多数RDM计划没有得到严格执行,多数研究指明研究人员更愿意将其数据存储在个人管理设备或外部硬盘中。数据共享服务一般包括共享政策信息和提供共享途径两种。数据共享对于研究人员来说是一个较为复杂的问题,尤其是原始数据的共享。虽然研究人员通常通过出版物分享数据,但几乎一半的受访者表示他们不愿意分享自己的研究数据,或只与有限的受众(如研究小组成员或关系密切的人)分享。而拒绝分享原始数据的主要原因之一是数据中包含额外的信息,他们更希望在研究的后期阶段作为研究结果发布,而且希望数据是通过机构和特定主题库进行共享,这样才能获得数据的最大效益。

此外,还有3项研究仅说明了图书馆正在提供的可用服务,如“指导和咨询服务”和“研究支持服务”。如英国帝国理工学院图书馆提供包含DMP在内的7项数据管理咨询申请服务、新加坡国立大学图书馆为用户提供统计分析和数据集获取的研究支持服务[37]。通过分析还可以发现,大多数发达国家的学术图书馆有正式的较为完善的RDM政策,发展中国家却仍在探索阶段。

国外RDM实践的特征表明,虽然RDM在发达国家已取得一定进展,而且大多数机构都制定了RDM政策,但研究人员对数据管理计划的关注度仍然不高,RDM实践也并不具有代表性和示范性。发展中国家的情况更不乐观,大多数机构尚未制定RDM政策,实践也多处于摸索阶段。

3.2 RDM面临的挑战

挑战和问题在所有选定的研究中普遍存在。主要挑战包括数据存储、版权问题、缺乏熟练的数据工作人员、财务限制、与其他机构的复杂协作、数据共享问题、数据误用和数据丢失等。数据存储问题在文献集中被提及的次数最多,其主要与归档问题、长期保存挑战、数据备份、存储设备成本上升、设备有限、基础设施差和数字空间不足有关。而数据版权仍然是研究人员的一个重要关切问题,特别是受资助项目团队合作产生的数据,其版权常常处于界限不明、利益相关者争论不休的状态。除上述挑战外,RDM工作人员的职位和技能不足也是一个重大挑战。RDM工作人员在机构中的职位和技能因机构而异,有的数据专家处于机构领导层,有的在行政部门,有的则就职于特定的科学工作组(由机构或第三方项目资助)。在由领导层(本身也是数据专家)或领导层本身(如主任、主要科学家)重视RDM的机构中,RDM的发展程度最高,RDM技能也最受重视。资金支持不足是RDM面临的另一大挑战。财务问题不仅会影响RDM基础设施的建设,更无法应对快速技术变革带来的对相关软硬件更新升级成本的挑战,因此这被认为是设计RDM服务的重要障碍。

研究人员对数据的认识不足是另一个重要挑战。部分研究人员对研究数据的认识存在混淆,他们认为“数据是获取的,而不是生成的”。同时,虽然学术图书馆已经提供了RDM服务,但数据误用的情况时常出现。这表明研究人员对RDM服务的仍然缺乏明晰的认知,同时图书馆领导层对此类服务重视程度仍然不高。此外,由于管理研究数据涉及各利益相关方之间的复杂合作,而复杂的合作最终必将导致所有利益相关者都面临一定的挑战。

3.3 RDM所需的技能和服务

22篇文献集中,有16项研究提到了RDM所需的服务、技能及应承担的责任,被提及最多的技能和服务主要包括明晰的RDM政策、研究支持服务、技术支持服务、数据基础设施服务等。其中,RDM政策是被提及最多的、最基本的需求。研究者认为一方面应制定国家级的政策来推动RDM的发展和指导实践,另一方面要专门针对数据管理制定明确的守则和指南。文献分析还显示,学术图书馆的研究支持服务是至关重要的,数据馆员需要在研究项目的整个生命周期内向研究人员提供“咨询、培训、教学、指导和技术支持服务”。研究咨询服务指在编写数据管理计划、知识产权、元数据标准、政策框架、伦理标准的实施和应用方面起到指导作用。技术支持包括协助数据分析、安全检查、长期储存、建立机构储存库和提供数据集等方面。大多数研究都强调了对数据管理技能、数据分析和可视化、数据描述和记录以及学科知识库构建等技术支持的需要。同时,数据存储的基础设施也极为重要,有研究者精确描述了对机构级数据存储空间的需求。

所有这些服务都需要熟练和高度专业的研究支持人员或数据馆员,而制订数据管理计划的技能更是重中之重。另外,与其他机构的协作(如IT部门、培训部门和研究室等)也被认为是数据馆员的必备技能。显然,这些技能既需要研究人员的积极参与,更需要图书馆领导的大力支持,或者说“需要更高级别的权威支持”。

3.4 激励图书馆和研究人员支持RDM服务的因素

支持RDM是图书馆和研究支持人员(包括IT部门、研究团体和图书馆馆员)的重要责任。虽然受访的专业人员都表示希望能支持RDM服务,但他们所在的机构并未采取必要的主动行动。例如,很多机构仍然普遍存在政策不规范、缺乏激励或奖励、参与RDM的工作人员专业发展不明朗、利益相关者缺乏认识、基础设施不足和上级行政部门支持不够等问题。所有这些挑战都需要通过主要利益相关者的相互支持来解决,尤其是研究支持人员之间的合作。

文献集中有5项成果研究了激励图书馆和研究人员支持RDM的动机因素。其中,被多项研究提及的激励因素包括支持开放数据倡议、资助者的合规性、图书馆/图书馆馆员不断提升的形象地位和技能角色、避免重复劳动等。有研究者认为对数据馆员的激励因素还包括享受学习新事物的乐趣、新的学习和培训机会、良好的关系建立和不断发展的职务说明等。还有研究者指出了如何激励研究人员共享数据,如可以告知研究人员管理和共享数据可以提升研究工作的可见度、研究的透明度、研究的效率和对研究成果的信心等。总体上讲,RDM服务提供了一个图书馆馆员与研究人员建立关系的平台,支持研究人员对数据的管理和使用,改善了图书馆和图书馆馆员的专业形象。

4 国外RDM服务实践对我国的启示

整体上看,国外学术图书馆的RDM服务逐渐受到研究人员和图书馆的重视,但仍处于早期发展阶段,尚未形成典型性的最佳实践,对于研究人员、图书馆和图书馆馆员来说都面临一定的挑战。这些挑战和问题基本上与有限的资金、培训、RDM在机构中的地位和政策有关,需要领导层以及资助机构发挥积极作用才能更好地开展。而我国学术图书馆的RDM实践才刚刚开始,远远落后于国外,目前有北京大学图书馆、复旦大学图书馆和上海外国语大学图书馆开展RDM实践,在DMP制定、RDM政策、数据创建、数据培训、数据案例等方面均有很大不足[38-39]。因此,国外的RDM实践仍可以为我们提供重要借鉴。基于上述认识,提出以下3点建议。

4.1 积极制定RDM政策和标准规范,加大资金支持力度

高等教育机构/研究委员会、捐助机构、教育行政部门和学术图书馆等利益相关者应该尽快达成共识,积极制定RDM政策和标准规范,应对各种挑战,避免重复工作,以便更好地推动研究数据管理。比如在捐助机构向研究人员提供资助的同时,强制要求他们在机构库或课题库中提交研究数据,并在OA期刊上发表他们的研究成果。有关数据版权问题也应该在提供资助时予以界定,同时可以通过区块链技术与数字水印技术的整合,实现数据的自动登记与准确溯源[40],从技术层面解决数字版权。另外,还要建立数据保存和重用机制,以便后续研究对数据的认可和引用。对于研究数据的存储,一方面,可以通过多领域协同实现数据高度集成和协同化治理,从而优化数据服务,完善数据存储体系建设;另一方面,需要政策和资金的大力支持,才能从根本上解决设备更新、空间扩容等问题。

4.2 设RDM专职岗位,不断提升研究人员和图书馆馆员的RDM认知和技能

高等教育委员会、行政部门、资助机构、高等教育机构或研究委员会应拨出预算在学术图书馆开设RDM专职岗位,用于培育研究人员和图书馆专业人员的数据认知及数据管理计划、数据处理和分析、数据描述、数据共享工具和平台使用等技能。第一,在我国学科服务开展较好的“双一流”高校图书馆设立RDM专职岗位,学习国外RDM服务的经验,探索RDM在我国的适应性发展。第二,信息技术驱动的LIS专业正发生巨大的变革,图书馆学界和业界特别是图书馆领导应该积极主动地作出必要安排,培养图书馆馆员的RDM技能。当前,已有相关培训通过培训班、研讨会、线上线下论坛等多种形式开展,如中国图书馆学会联合中国科学院文献情报中心推出的数据管理培训班[41]。第三,要通过物质激励(如晋升、薪酬、福利、改善工作环境等)和精神激励(如提升形象、感知愉悦、发展机会等)不断提升研究人员和馆员对RDM的认同和支持。

4.3 与其他机构合作构建RDM平台,推动多方协作

要有效推动RDM工作的开展,沟通和协作必不可少,学术图书馆可以与利益相关者合作共建RDM平台,共享数据。当前,哈佛大学图书馆、剑桥大学图书馆、牛津大学图书馆均与学校技术部门或科研机构合作构建了RDM平台。而我国的学术图书馆也开始尝试与国外机构协作构建,如北京大学图书馆与哈佛大学合作构建的“北京大学开放研究数据平台”、复旦大学图书馆与哈佛大学Dataverse系统合作构建的“复旦大学社会科学数据研究中心”,这些重要的探索可以为我们提供可贵的借鉴。此外,委托第三方进行RDM平台的开发和管理也是一种重要途径,学术图书馆可以将一些非核心业务,如日常维护或管理外包,仅保留对核心数据的掌握权。同时,学术图书馆应积极嵌入各学科院系,发掘研究人员的数据管理需求,开展数据素养教育培训,提升研究人员的数据认知,从而不断激发RDM的专业价值。

5 结语

本研究有助于我们全面了解国外RDM服务的进展,包括实践、挑战、所需的服务/技能以及激励图书馆和研究人员支持RDM服务的因素。相对而言,发达国家的RDM政策和服务好于发展中国家。此外,RDM是一个复杂的过程,涉及各种关键的利益相关者,包括研究人员、教职员工、资助者、高等教育机构、图书馆和RDM服务机构内的各个部门。因此,需要多方协作,积极推动RDM的政策制定、馆员培训、协同合作。

由于本研究仅限于2016—2020年发表的英文论文,并受到特定数据库的限制,因此可能遗漏了一些相关文献。此外,研究范围内的文献大多采用定量研究,因此今后可能需要更多使用混合研究和定性研究的成果来帮助我们全面深入地了解RDM。在未来,我们一方面需要进一步调研与学术图书馆和研究支持人员有关的RDM服务,另一方面需要从生命周期(如数据管理规划、数据源、数据量、数据处理和分析、数据共享、数据存储、数据重用、数据权限和数据检索)的视角来深入研究RDM。

猜你喜欢
数据管理馆员学术
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
学术是公器,不是公地
CTCS-2级报文数据管理需求分析和实现
如何理解“Curator”:一个由翻译引发的学术思考
对学术造假重拳出击
青海省人民政府关于转聘谢承华、斗尕馆员为荣誉馆员的决定
国外图书馆新馆员入职培训的特征及趋势
青海省人民政府关于转聘谢佐等3位馆员为荣誉馆员的决定 青政〔2017〕32号