图书馆嵌入式科研数据服务研究综述*

2022-05-24 09:21韩金凤
图书馆研究 2022年2期
关键词:数据服务数据管理生命周期

韩金凤

(广东技术师范大学图书馆,广东 广州 510665)

在E-science 环境下,数据密集型科研范式兴起,科学数据作为科学创新的重要资源受到广泛的关注,各国政府、基金机构、期刊出版社、高校等纷纷发布科学数据管理与共享政策。在自上而下的政策引导和科研人员需求剧变的驱动下,作为信息服务主体的图书馆推出科学数据管理服务。在科学研究的过程中,科研人员对数据管理的需求随着科研工作流程的推进而不断发生变化。为精准契合用户动态变化的需求,图书馆借鉴嵌入式学科服务的经验,将嵌入式理论应用到科研数据服务中,开展嵌入式科研数据服务。最早的嵌入式科研数据服务实践始于美国,2009 年美国图书馆协会编制的《嵌入式图书馆模式最终报告》显示,已有科学数据馆员嵌入用户信息环境中提供参考咨询和专题服务的案例[1],美国康奈尔大学于2009 年已启动嵌入式科研数据服务[2]54。关于图书馆嵌入式科研数据服务的理论研究,也随着实践的发展而日趋丰富,但未见相关研究综述。

2020 年11-12 月,笔者利用中国知网专业检索方式进行检索,检索式为:题名=(科学数据+科研数据+研究数据+数据管理+数据监护+数据监管+数据策展+数据管护+数据服务+数据馆员+数据素养) AND 篇关摘=嵌入,删除显著不相关文献,得到67篇有效中文文献;然后,用对应的英文检索词在google scholar、Emerald、Elsevier、bing 搜索引擎等进行检索,并结合追溯检索法,经筛选得到相关英文文献19 篇。经阅读相关文献,笔者发现研究主题集中在嵌入方式、服务模型、服务内容、馆员角色与能力、合作机制等领域。从界定嵌入式科研数据服务概念着手,根据以上主题对现有研究进行梳理分析,以期全面深入了解图书馆嵌入式科研数据服务的研究概貌,并总结研究进展和局限之处,为后续理论和实践发展提出参考建议。

1 概念界定

目前,学术界关于嵌入式科研数据服务的概念尚无定论。宋秀芳指出,数据监护嵌入式科研服务是数据监护、科研项目、科研过程、科研团队以及科研人员的有机组合,基于数据管理生命周期活动,面向科研项目各环节用户数据需求展开[3]54。廖思琴等认为嵌入式科学数据管理服务的概念源自嵌入式学科服务的概念,提炼出内涵的4个要点:融入用户科研环境和工作流程;以用户情景化的数据需求为驱动;贯穿科研过程各阶段开展针对性服务;旨在促进科学数据的共享与重用[4]。李朝阳等提出,嵌入式科研数据服务是以成员身份参与科研,在课题全过程中把握科研团队数据处理能力、数据需求与偏好,提供完整的数据生命周期服务,同时提升团队的信息协同能力[5]77。

肖潇和吕俊生认为科学数据服务本质上是嵌入式服务[6]85,但笔者认为不是所有的科研数据服务都是嵌入式科研数据服务,区分的重点在于是否融入用户的信息环境中开展科研数据服务。笔者将嵌入式科研数据服务定义如下:嵌入用户科研和教学情景,成为用户的学术合作伙伴,聚焦科研工作流各环节用户的特定需求与数据偏好,通过灵活调度组合资源、人员、工具、技术等,提供情景化、全方位、深层次的全周期数据管理服务。从狭义上讲,嵌入式科研数据服务是嵌入科研过程全谱段的具体数据服务活动,包括数据计划、采集、组织、保存、挖掘、共享、增值等服务;从广义上看,嵌入式科研数据服务包括了整个科研生命周期中与数据管理服务相关的资源、人员、基础设施、机构等要素。

2 嵌入方式

肖潇、吕俊生提出学科馆员嵌入团队开展科学数据服务的形式,包括过程嵌入、人员嵌入和平台工具嵌入[6]88。秦晓丹指出高校图书馆以多学科协作、过程参与、虚拟空间嵌入的方式开展嵌入式科学数据馆员服务[7]76。笔者将嵌入方式总结为过程嵌入、人员嵌入和虚拟环境嵌入3种。

2.1 过程嵌入

科学数据作为学术研究的基本单元流动于科研过程的各个环节,每个节点都离不开数据管理,不同阶段用户对数据管理的需求不尽相同。数据服务嵌入科研过程体现在:数据管理服务以用户发展变化的需求为中心,融入从课题立项到结束的整个过程和细节中[8]。另外,嵌入过程的数据服务还需考虑数据类型、特点、重要性和安全性,针对不同情况采取科学合理的数据管护举措[9]70-71。陆颖等认为国外基于科学数据的学科服务嵌入科研过程是通过参与科研项目、建设数据服务平台和专业团队来实现的,一方面加强重大科研项目服务,提供项目数据生命周期管理、数据咨询、数据发布、平台建设、数据关联与分析等服务;另一方面,依托机构自建的数据服务平台和专业团队,实施全跟踪的数据服务[10]58。宋秀芳[3]56-59、陈秀娟等[11]52分别面向科研项目和化学工作流三个阶段用户的需求,设计嵌入科研过程的数据管理服务内容与模式。在实践方面,牛津大学嵌入机构的科学数据监管服务项目将数据管理基础设施和配套工具嵌入到研究人员的工作流中,实现数据管理工作的全过程嵌入[12]58。康奈尔大学[13]、巴斯大学[14]解构科研生命周期,在科研生命周期的每一个阶段嵌入数据管理实践。

此外,数据管理服务还能嵌入到教学过程中。刘勋阐明嵌入教学过程是高校图书馆开展嵌入式数据素养教育的路径之一,图书馆团队全程参与教师的课程设计和教学实践活动,将数据素养教育有机嵌入到教学目标、内容和课程中,帮助学生在习得专业知识的同时提升数据能力[15]。王玮探讨了基于科学数据管理的高校图书馆学科服务嵌入教学过程的主要方式:嵌入公共选修课程、嵌入教师教学课堂、嵌入作业或研究课题、嵌入在线资源[16]。

2.2 人员嵌入

人员嵌入是指专业人员嵌入科研群组,在用户环境中指导监督数据管理流程,协助开展数据管理工作。人员嵌入包括两种情况:(1)馆员嵌入到科研活动中;(2)科研人员作为兼职数据馆员,服务于科研团队。

学科馆员、数据馆员、技术馆员等加入科研团队,以科研合作者的身份参与科研工作,帮助科研人员有效完成数据管理工作,同时将馆员的数据管理知识转化为科研人员的数据管理技能。罗格斯大学地球和环境科学系邀请物理学科馆员和数据馆员加入团队,他们发挥各自的优势与技能在不同领域实现更深入的服务。如物理馆员嵌入研讨会中,开展需求评估与咨询服务;数据服务馆员则面向研究生提供数据管理培训,指导组织、管理和分析数据[17]。纽约大学馆员作为研究团队成员,嵌入听觉临床研究的数据管理生命周期中,帮助解决数据建模、数据收集工具、数据发现和数据长期可用性等问题[18]2。格里菲斯大学[19]、阿德莱德大学[20]的图书馆员融入科研团队中,支撑用户科研全过程的数据管理需求。

从科研人员中招选热心、善用工具、擅长技术的能力者,重点培训其数据管理技能,使其成为具备数据素养的“兼职”数据管理人员,补充新的能力要素,以用户的力量解决用户的需求。剑桥大学化学系学科馆员对博士生进行数据管理培训,系中3人获得数据冠军,成为数据管理工作小组的成员。他们掌握丰富的化学领域知识,了解化学学科的研究技术和数据类型,熟知科研人员的潜在数据管理需求,能高效地为研究团队提供数据管理支持[21]。上海交通大学图书馆2020年面向职能部门及院系科研秘书招募第一期情报专员,担任“桥梁”角色,通过培训讲座、竞赛、沙龙、群组交流等形式提供数据服务支持[22]。

2.3 虚拟环境嵌入

科研数据服务嵌入虚拟环境是技术手段层面的嵌入,以数据存储与检索技术、资源聚合技术、数据关联技术、数据挖掘技术等为支撑,借助于嵌入式数据管理系统、嵌入式数据服务工具等融入虚拟知识环境,实现情景敏感的服务。

嵌入式数据管理系统是全流程监管科学数据的支撑系统,嵌入式特点表现在:集成相关的数据服务与资源,将数据收集、处理、备份、共享、分析等服务按科研工作流程组织在系统中,构成解决科研人员数据管理问题的完整服务链条。约翰霍普金斯大学医学院自行开发面向临床研究全过程的信息收集平台,从伦理申请、科学性评价、病例入组、基础调查、随访到数据采集、处理和分析等各个环节在系统服务链上都有相应的功能节点,该平台还能集成外部数据,并且支持上传和共享科学数据[23]。普渡大学数据监护平台PURR、莱布尼兹社会科学研究所数据监护平台ZACAT 等将学术交流与协作、咨询、数据素养教育、数据保存与共享等服务功能前置于平台中[3]57,实现项目全阶段覆盖的数据支持服务。

嵌入式数据服务工具嵌入科研知识环境,以实时处理、发现与获取数据为主要功能。嵌入式桌面工具可通过监控应用场景、捕捉操作和焦点词串、分析操作日志等手段,识别用户偏好和数据需求,并提供个性化数据推送服务,还能对科学数据进行检索、存储、分析、描述、重组等[6]88-89。数据策展小工具,如资源链接工具、注释工具、研讨工具、内容组配工具、数据管理工具等,与图书馆资源创建关联,整合到图书馆信息服务平台中[6]89。图书馆利用浏览器工具条和桌面辅助工具,实现科学数据检索、聚合与推送服务,便于用户在自己的虚拟桌面获得所需的数据并与数据馆员实时沟通[7]76。中科院开发的TeamDR是支撑科研团队完成数据保存与组织、协作与共享、发现与关联的Web 应用工具[24]。图书馆开发嵌入数字人文过程的数据导航系统,提供数据资源检索、馆藏文献与科学数据的集成检索、外部资源接入等[25]87。

此外,还有嵌入战略规划[26]、嵌入能力[27]32、嵌入认知[27]32等嵌入方式。科研数据服务嵌入过程通过人员、虚拟环境嵌入来实现,E-science环境下各项数据服务的开展依赖于平台、工具等虚拟环境,人员作为服务的主客体不可或缺。因此,从过程嵌入(深度参与)、人员嵌入(融入群组)和虚拟环境嵌入(平台工具嵌入)3个层面把握,才能全覆盖地嵌入到用户的文化和工作场,实现全面深入的数据管理服务。

3 嵌入式科研数据服务模型

嵌入式科研数据服务模型是各数据服务要素的有机组成,体现各服务要素之间的关系,梳理嵌入式科研数据服务的基本流程和主要内容,构建服务模式,以更好地指导实践。立足于不同的理论基础,形成了以下几种类型的模型。

3.1 基于数据生命周期的嵌入式科研数据服务模型

数据生命周期理论是将科学数据视为生命有机体,描述数据从产生、加工、存储到未来循环再利用的全周期。随着理论和实践研究的推进,已有模型被不断地更新、完善,还新增了许多新模型。数据生命周期模型运用于嵌入式科学数据管理的优势在于:科学数据的生命周期通常比所在的科研项目长,科研人员在项目结束后继续进行数据的研究和分析,之后的科研项目会分析或者更新这些数据,或者其他科研人员会再利用这些数据并改变其用途[28]39。牛津大学数据监管生命周期模型是以数据生命周期理论为基础的环形结构模型,分为数据管理计划、数据备份和安全、数据分享和归档3个部分[12]56-57。满芮基于数据生命周期理论构建了农业科学数据全流程管护模型,该模型是3层环形结构,最外层将数据管理分为前期、中期、后期3个阶段,中间环是对3个阶段再细化的13个数据管理流程,并应用嵌入式理论,将研究过程、科研人员以及系统平台置于最内圈,表示三者的嵌入贯穿数据管理的全生命周期[9]68。

3.2 基于科研项目生命周期的嵌入式科研数据服务模型

科研项目生命周期是指项目从计划、立项、实施到结题的完整周期。科研项目生命周期有助于嵌入式数据管理把握项目各个阶段特点及需求,因此科研项目生命周期作为嵌入式数据管理的理论基础具有显著优势。Fei Yu 等提出基于研究生命周期的昆士兰大学科学数据管理支持模型,将数据管理活动整合到了研究过程的3个阶段:(1)项目计划和准备阶段,解决数据管理计划、伦理批准及知识产权等问题;(2)项目实施阶段,提供数据收集、处理和分析服务;(3)存档、发布和传播阶段,支持传播研究成果和数据存档[29]290-291。陆玉泉构建了基于科研项目生命周期的高校科学数据3 层服务模型,将科研项目生命周期分为科研构思、科研实施、成果整理、成果发表等4个阶段,设计出基础、支撑和增值3 个层面的数据服务[28]41。黄钰新和王远智结合数字人文项目的特征,设计嵌入数字人文过程的图书馆数据服务模型,从项目实施角度将数据管理服务划分为立项前中后3个阶段[25]86。

3.3 双周期的嵌入式科研数据服务模型

科研项目生命周期与数据生命周期具有相同的目标——数据的长期可用与增值,两者相互关联、相互促进,具有整合的可行性。一些学者整合科研项目生命周期和数据生命周期,旨在通过优劣势互补更好地改进模型,进一步完善嵌入式数据管理模式。陈秀娟等将化学科研工作流与数据管理生命周期嵌套交融,从项目实施的视角将数据管理生命周期划分为项目前中后3个阶段,提出每个阶段数据服务的切入点[11]50-52。宋秀芳等以数据生命周期为理论支撑,围绕科研项目前中后全周期对数据服务的需求,构建数据监护嵌入式科研服务模型,阐述项目3个时期嵌入式数据监护服务内容与模式[3]54-59。

另外,赵艳枝基于小科学-大科学理论,结合“小科学”科学数据的特点,建立嵌入科研活动的“小科学”数据监护架构,囊括“小科学”科学数据、数据监护流程、数据监护团队[30]。李朝阳等以能力成熟度模型为基础,构建科研数据服务成熟度模型,以评价数据服务的规范、技巧、能力等要素[5]76-77。

4 嵌入式科研数据服务内容

嵌入式科研数据服务内容多样,且在不同的研究和实践中服务项目和侧重点不一样。为了凸显嵌入科研工作流的特征,一些研究将科研工作阶段划分为项目立项前、项目在研中、项目结题后,概述每个科研阶段的服务项目,各阶段嵌入式科研数据服务的具体内容见表1。

表1 项目前中后3个阶段嵌入式科研数据服务内容

5 嵌入式科研数据服务馆员

5.1 馆员角色定位

Lyon[32]、Martin[18]1指出馆员在数据服务领域要从传统的联络型角色转变为完全嵌入或沉浸型角色,置身于实验室或临床环境中,完全整合为研究团队的组成部分。Anna Gold 认为图书馆员在数据科学中担任“上游”的角色,是密切参与科研过程的合作者[33]。Lyon&Brenner阐述了图书馆员在iSchool 消弭数据人才鸿沟过程中所担任的角色,与iSchool 领域专家和学生在实践中建立双向的合作伙伴关系,并用能力提升模型展示馆员、领域专家和学生通过在专业实践、研究情报和教育领域的协作,共同提升数据知识与技能[34]。Hamasu等讨论了图书馆员在科研生命周期不同阶段中的角色与贡献,在产生想法的阶段,帮助用户查找相关数据、研究报告等;在撰写申报书阶段,协助用户创建数据管理计划并确定数据组织方法;在正式研究阶段,获取用户需求,加强数据服务营销,展示馆员作为团队成员的价值;在出版和保存研究成果阶段,帮助用户展示其研究的影响,促进研究成果的发现[35]。Carpenter展望在学术交流过程中重塑图书管理员的未来角色,图书馆员、研究人员和技术专家之间的合作蓬勃发展,馆员与研究人员建立牢固、可持续的长期合作关系,嵌入研究过程、部门和课程中[36]。

5.2 馆员能力要求

E-science环境下剧变的用户需求和复杂的数据管理任务,迫使馆员不断发展新能力来应对新局面,情报与信息技术能力、数据管理能力、用户服务能力是对嵌入式数据馆员综合能力的精炼概括,共同组成嵌入式数据服务能力体系,如表2所示。

表2 嵌入式科研数据服务馆员能力要求框架

6 嵌入式科研数据服务合作机制

嵌入式科研数据服务是图书馆与各方力量统筹协作、联动合力的一项系统工程,涉及多个利益相关方,发起者、参与者、服务提供者众多,在数据管理过程中扮演不同的角色。

6.1 图书馆内部合作

图书馆开展嵌入式科研数据服务,无法单靠数据馆员或学科馆员的力量完成,需要图书馆集合内部各部门或团队的力量,作为一个有机整体共同实现服务目标。一方面是图书馆各部门的战略合作。陆颖建议图书馆应吸纳各个部门的核心力量,成立专业的协调组织,从更高的层次做好规划、协调等工作,各个部门各司其职,技术部门提供技术支持,情报部门开展情报知识培训,政策部门监测科学数据政策的发展态势[10]62;另一方面是馆员团队之间的协作。阿德莱德大学2011-2012 年开展的科学数据存储和管理项目,图书馆走进院系,融入科研团队,共有17位图书馆员参与该项目,其中有5名图书馆技术人员、2名院系馆员、2名元数据馆员、6名参考咨询和研究馆员,还有2名其他馆员。

6.2 校内各部门合作

图书馆开展嵌入式科研数据服务,不仅需要馆内部门团队的合作,还需要寻求校内各部门的参与和支持,在政策、资金、人员、技术等方面达到优势互补,促进合作共赢。康奈尔大学的科学数据管理项目由校内多个部门参与,学校领导层、图书馆和院系咨询委员会是项目的发起者,执行项目顶层设计和部署规划的职责,高级计算中心、信息技术中心提供技术支持,社会和经济研究所在数据调研、用户需求评估等方面提供协助[42]。昆士兰大学图书馆科学数据管理团队与信息技术服务部门、研究计算中心、研究管理员小组积极合作,建立密切的工作关系,以更好地推广服务实践[29]291-292。

6.3 与校外利益相关者合作

与外部利益相关方合作,对于科研数据服务的成功实施也发挥着重要作用。澳大利亚昆士兰大学图书馆的外部利益相关者有澳大利亚国家数据服务(ANDS)和昆士兰网络基础设施基金会(QCIF)。ANDS 以资助的项目等方式与各个学校合作实施数据管理活动,除了提供政策和资金支持外,还提供国家数据服务,以及数据管理、生成、共享和重用的相关指南。另一个重要的外部利益相关者——QCIF 为昆士兰大学提供所需的高性能计算服务、基础架构、数据存储系统等支持[29]292。康奈尔大学发起的VIVO 项目是科学数据管理领域校际合作的成功范例,美国多所学校、研究机构参与[2]55。许多高校与校外机构合作开发数据管理平台,如哈佛大学与麻省理工学院数据中心合作共建Dataverse[43]、康奈尔大学图书馆和华盛顿大学圣路易斯分校联合开发的康奈尔大学DataStaR项目[12]60等。

7 总结与展望

目前,嵌入式科研数据服务国内外研究重点不一样,国外研究主要是馆员嵌入科研过程或研究团队的实践案例,嵌入式数据馆员角色定位、能力要求与服务范围等,国内学者研究视野相对更广,理论研究更多,除了国外案例介绍,还探讨了服务模式与嵌入机制,构建嵌入式数据管理模型。总体来说,该领域在理论方面初步取得一些成果,但仍存在着一些薄弱环节,后续还需作进一步研究:(1)对服务路径、嵌入模式、组织机制、支撑体系等关键问题研究不够深入,尚未建立成熟完善的嵌入式数据服务机制,后续还需在这些方面继续探索;(2)缺乏对嵌入式数据服务效果或价值进行评估的研究,未来的研究应构建由定性指标和定量指标组成的嵌入式数据服务质量评价指标体系;(3)嵌入式数据服务模型存在局限性,仅用定性方法导致模型结构较简单,没有将隐性的、动态的服务要素纳入其中,之后的研究需要进一步挖掘服务要素,并运用定量方法研究嵌入式科研数据服务模型中各服务要素的作用效果与相互关系,揭示其内部运行机制;(4)由于不同学科数据的特点不一样,科研人员需求也各有侧重,之前基于单一学科或者无学科对象的经验总结成果不具有普适性,不能一刀切地运用于其他学科,后续应比较学科数据和科研过程中数据流动的不同特性,开展针对特定学科的个性化服务流程研究;(5)对于交叉学科的嵌入式科学数据管理,不可避免涉及多个学科领域,不同学科的科学数据特征各有差异,因此探讨跨学科嵌入式科研数据服务模式,使之能适用于交叉学科,同样成为后续需要攻克的难题。

为推动我国图书馆嵌入式科研数据服务实践的发展,可从以下几个方面着手:(1)政府、基金组织、学校等提高重视程度,加大政策支持和经费投入力度;(2)图书馆应加强基础设施建设,共建或自主研发数据管理系统或软件工具,将数据策展工具组织到用户信息平台中,做好技术支撑;(3)图书馆应加强专业人才队伍的储备与培养,引进具备较高数据素养水平的人才来改善队伍梯队结构,通过职业培训优化现有馆员的数据知识能力结构,鼓励馆员不断学习新的研究方法、技术工具和研究主题等,以适应角色转型;(4)馆员要增加对沉浸式身份的认同,明确自己作为科研团队成员的价值与机遇,一方面构筑良好的沟通机制,深入了解用户需求,保护用户隐私,在用户工作流中协助解决数据管理问题;另一方面,嵌入科研的过程实质也是共同学习和自我技能提升的过程,随着互动的增加,更能明确专业发展方向和学习精进重点,从而继续终身学习周期并不断完善服务方式;(5)图书馆应积极与内外部利益相关者共建开放包容、可持续发展的战略伙伴关系,通过资源、人员、技术融入和协作的方式,建立规范分工、层次分明、互利共赢的协同合作网络;(6)强化科研人员的数据管理教育,采用专题讲座、嵌入课程、MOOCs 资源、数据策展实习计划等方式持续开展数据管理教育,培养兼具领域知识与数据科学专业知识的科研人员,弥合数据人才鸿沟。

猜你喜欢
数据服务数据管理生命周期
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
全生命周期下呼吸机质量控制
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
基于数据中台的数据服务建设规范研究
CTCS-2级报文数据管理需求分析和实现
从生命周期视角看并购保险
民用飞机全生命周期KPI的研究与应用