面向研究需求的数据服务体系构建与思考

2020-09-03 14:00刘兹恒涂志芳
山东图书馆学刊 2020年4期
关键词:数据服务数据管理图书馆

刘兹恒 涂志芳

(1北京大学信息管理系,北京 100871;2中国科学院文献情报中心,北京 100190)

在大数据与数字化环境下,数据资源是图书馆资源的必然拓展,数据服务是图书馆服务的合理延伸。目前,研究数据管理是数据服务的重要部分和热点领域,研究数据管理已经在世界范围内大部分国家和地区的图书馆中以不同形式、不同层次、不同水平开展。多份调查报告指出,图书馆的研究数据管理服务以管理/咨询型服务为主,技术/实践解决方案较少[1-3]。从宏观层面看,研究数据管理及相关的一系列活动有赖于数据政策与标准的制定与实施、数据基础设施建设、数据共享文化及整体的学术生态环境等的支撑;从微观层面看,研究数据管理与图书馆的资金、技术、人才、业务重点、发展规划等密切相关,因此目前条件下图书馆若要参与研究数据管理的全过程并发挥主要作用存在一定的困难。

但这并不意味着,图书馆完全束手无策。事实上,图书馆的“数据服务”并不局限于研究数据管理,图书馆还可以从更广泛的角度提供数据服务,如开放数据导航、数据分析、软件工具培训、数据产品推广等,国内也已有图书馆正在探索数据服务(如北京大学图书馆)。

不可否认,部分“强势”图书馆因有强大的条件支撑其进行数据服务的探索甚至“试错”,而对部分“弱势”图书馆来说,技术、空间、资金、人员等的投入都是有限的,数据服务探索及“试错”的成本压力巨大。因此在开展新的数据服务之前,借鉴较为成熟的、具有较强的可行性和可操作性的方案或路径显得尤其重要。

本文拟以研究人员的数据服务需求为出发点,从理论支持、实践部署两个维度对“从零开始”的图书馆数据服务体系构建路径加以剖析,先从理论层面论证数据服务的可行性、分析数据服务体系可能的战略定位,再从实践层面探索数据资源集成与呈现方式,数据服务内容与形式(弱化研究数据管理在数据服务体系中的地位),最后从人才建设、空间建设和经费预算方面为数据服务体系的建设提供条件保障。本文呈现的数据服务体系构建路径的初衷在于,尽可能描述一个可操作的路径并希望对我国图书馆探索数据服务或可持续地提供数据服务起到操作层面的参考和借鉴。

1 相关研究与实践回顾

目前,国内外图书馆数据服务相关研究与实践已经渐趋丰富而多样,学者们对数据服务的必要性与重要性、数据服务模型与生态圈、数据服务内容与实施路径、数据服务馆员素养与技能、数据服务实践案例等进行了诸多的分析与思考。整体来看,国外以实践层面的数据服务探索为主,辅之以相关讨论和研究;国内则以理论层面的数据服务探索和对国外数据服务实践研究居多,数据服务实践仅在少部分图书馆中进行。

在数据服务研究方面,因国外数据服务实践渐趋普遍,研究者对较宏观层面的数据服务的研究反而相对较少,其关注点多聚焦于研究数据管理、数据出版、数据评审、数据引用等具体方面。例如,M S Nelson认为联结数据是迈向图书馆新兴服务领域的第一步,这要求图书馆员更新旧技能并学习新技能,识别并捕获研究人员和学生的需求并提供服务[4];CTenopir等对图书馆员进行研究数据服务的准备(认为已具备数据服务相关知识、技能的居多)、态度(认为重要的居多)、动力(责任、兴趣等)等进行调查分析[5]。更明显的是,国外图书馆界比较注重对图书馆数据服务实践现状的调查反馈,如2012年6月美国大学与研究图书馆协会(Association of College & Research Library,ACRL)对美国、加拿大的学术图书馆进行调查并发布《学术图书馆与研究数据服务:当前实践与未来计划》[2],2016年12月欧洲研究图书馆协会(LIBER)对馆长进行调查并发布《欧洲学术图书馆研究数据服务》[3],根据调查可知:(1)已经提供或计划提供研究数据服务的图书馆越来越多,图书馆高度认同研究数据服务的重要性,也尽可能为数据服务馆员提供专业培训、职业发展的机会;(2)图书馆提供的研究数据服务以咨询类居多,技术/实践类较少;(3)图书馆与其他校内单元、研究机构合作广泛提供研究数据服务;(4)图书馆应积极争取数据服务相关的机会和主动权(如制定研究数据政策),也需要跨越学科边界提供更多元的服务并服务更广泛的研究群体。

国内学者对数据服务进行了多维度的研究,其中多为理论性的思考与探索,具有较强的指导意义和启发作用。主要包括:(1)较早期的研究者把数据服务视为图书馆服务(尤其是参考咨询)的新领域加以讨论[6-7];(2)对北美、欧洲等的国外学术图书馆数据服务整体实践进展[8-10]、实践个案[11]或数据服务的某一方面(如元数据[12])进行研究;(3)对图书馆数据服务模型、生态圈等的理论性探索[13-14],从中可知理论基础与基础设施、数据资源与服务能力、技术支撑与应用平台等是数据服务体系必不可少的要素;(4)对图书馆数据服务内容与实施路径的探索,数据服务包括数据开发与推广、检索与发现、管理与监护、存储与关联、咨询与分析、技术支持等内容[15-17],可采取“集成展现”“嵌入学科”等的服务方式;(5)对数据服务馆员服务模式与技能培训的关注,包括数据馆员岗位设置、数据素养及其培养机制等[18-19]。

在数据服务实践方面,加拿大高校图书馆数据服务体系具有代表性,如温莎大学图书馆数据服务体系包含以统计数据、社会科学数据、数据课程等为主的数据资源,按照学科领域及数据功用进行数据分类组织,覆盖数据软件支持、研究数据管理、数据课程指南及地理空间专题等数据服务[20];麦克马斯特大学图书馆主要提供微数据(原始数据)和综合数据/统计(加工处理过的数据)两种数据资源,并集成了数据相关的视频课程、数据发现与利用指南、数据与数据产品引用指南等帮助性资源,同时还设立了研究数据中心与数据分析支持中心并提供研究数据管理、数据分析、地图与地理空间数据等服务[21]。北京大学图书馆主导的“北京大学开放研究数据平台”[22]、武汉大学图书馆主导的“武汉大学科研数据管理”服务平台[23]、复旦大学图书馆参与的“复旦大学社会科学数据研究中心”[24]、中国科学院计算机网络信息中心主导的“中国科学院数据云”[25]等是国内相对成熟的数据服务平台,这些平台在数据收集、存储、发布与利用及社会调查等方面进行了有益的探索并积累了经验,当然这些较大型图书馆的数据服务平台也有赖于其充分的政策、资金、技术力量的支撑。

总之,目前关于图书馆数据服务的研究与实践已经初具成效,但仍有不足之处和提升空间,如数据服务“从无到有”的实践路径、数据服务的持续性与拓展性等并不明确,而数据服务体系构建是对有规划的、可持续的、高质量的数据服务的思考和保障,对学术图书馆(尤其是中小型)更好地融入数字学术环境、适应数据密集型研究范式、提供基于资源的和面向需求的数据服务具有指导意义。

2 数据服务体系之理论支持

2.1 数据服务的可行性论证

2.1.1 国内外对标图书馆数据服务现状

首先可以通过实地参观、调研及网络调研等方式,了解与本图书馆对标的国内外图书馆及信息服务机构的数据服务现状,以此作为论证本馆数据服务可行性的重要参考。如中国科学院文献情报中心作为大型的学术(专业)图书馆,调研了与之对标的美国、加拿大、香港等地区数所高校图书馆的数字学术服务(包括研究数据管理)、数据服务(不局限于研究数据管理),以及德国国家科技图书馆、美国国家农业图书馆、北京大学图书馆等的数据服务情况。其中国外尤以加拿大麦克马斯特大学、约克大学、温莎大学图书馆数据服务体系中的数据资源集成与组织、数据服务内容与形式最具参考价值;而国内北京大学图书馆已率先开展数据服务,其组织建设的北京大学开放研究数据平台已积累一批科研数据并提供服务,其联合北京大学信息管理系、南海大数据研究院、国家信息中心大数据发展部、北京市信息资源管理中心等单位举办的“首届全国高校数据驱动创新研究大赛”一经推出反响热烈,在巧妙嵌入数据培训的同时还“顺便”为平台征集了一批新的数据[26]。

2.1.2 目标用户需求及特点分析

用户需求是数据服务的根本动力和依据,图书馆数据服务体系构建首先应明确服务对象并尽可能了解用户特点及需求。其中关于数据服务与用户需求的关系,一方面图书馆可通过问卷、访谈、留言等形式调查用户的数据服务需求;另一方面图书馆可在已掌握资源的基础上提供数据服务,并吸引用户关注,刺激用户需求。例如中国科学院文献情报中心的数据服务对象为中国科学院的研究人员及学生,其各研究所覆盖物理、化学、数学、力学、声学、电子学、环境学、地理、材料、地质等几乎所有的自然科学,因此应以自然科学与工程、生命科学等领域的数据服务为主,辅之以人文社会科学领域的数据服务。

2.1.3 服务能力自我评估

显然,图书馆想要提供数据服务的前提是有能力提供数据服务,因此对服务能力进行自我评估则显得必要且重要。通常而言,服务能力取决于政策、资源、空间、人才、资金、技术等多方因素,且是可以改变的状态和不断提升的动态。因此,在图书馆面向母体机构、资助机构争取数据服务支持时,还可强调图书馆数据服务的意愿与态度,阐明图书馆为适应新环境、满足新需求、开展新服务而不断发展进步的动力,充分论证图书馆有能力、有潜力提供数据服务。

2.2 数据服务体系的功能定位分析

数据服务在不同图书馆中有不同的功能侧重和重要程度,因此分析数据服务的定位、明确数据服务的重点是构建数据服务体系的重要环节。例如,中国科学院文献情报中心考虑了空间布局、部门分工、转型方向等实情之后,将数据服务体系定位为“作为数据资源集成中心”“作为数据服务提供中心”“作为用户数字化体验空间”三大功能中心。

2.2.1 作为数据资源集成中心

数据资源是数据服务的基础,同时资源本身也是一种服务(资源即服务)。具备“数据资源集成”功能的数据服务体系须考虑数据资源如何集成这一核心问题,即数据资源如何获取、如何组织、如何呈现、如何提供等,并且还需考虑知识产权、数据许可等相关问题或注意事项。数据资源获取途径可包括:

①馆藏印本数据资源及其数字化版本;

②购买的综合性数据库数据资源;

③购买的数据/统计类数据库资源;

④开放获取数据资源;

⑤研究人员/团队/机构托管、提交的数据资源;

⑥合作共享、相互交换的数据资源;

⑦其他。

2.2.2 作为数据服务提供中心

用户服务是贯穿数据服务体系建设始终的核心使命,图书馆应尽可能为用户提供多样化的数据服务,包括但不限于:

①集成数据视频课程资源;

②进行数据资源宣传推广;

③提供数据分析与可视化工具及其他设施设备;

④开展数据工具培训;

⑤定期发布数据分析产品;

⑥面向研究人员的最新数据资源推送服务;

⑦面向课题组、研究团队的特定领域数据专题服务;

⑧辅助数据管理服务;

⑨建设数据服务空间。

2.2.3 作为用户数字化体验空间

物理空间并非数据服务体系之必需,各图书馆可根据业务发展需求考虑是否将物理空间纳入数据服务体系之中。一般来说,数据服务体系中的物理空间也是城市间、机构里的公共文化空间和数字体验空间,预期可承担的功能包括但不限于:

①作为用户利用数据资源的物理空间;

②作为馆员提供数据服务的物理空间;

③作为读者数字化阅读、体验、协作、研讨的开放空间;

④作为知识产权咨询服务实体空间;

⑤其他。

3 数据服务体系之资源集成

3.1 数据资源来源与获取途径

立足当前国内学术图书馆的发展实情及研究人员、研究机构的数据共享现状,国内图书馆可行的数据资源来源与获取主要有三种途径(还有其他途径):

一是本馆购买或者可共享到的商业性数据资源,包括馆藏印本类数据资源及其数字化版本(如地图集)、综合性数据库中的数据资源(如中国知网)、数据/统计类数据库资源(如中经网统计数据库)等,图书馆在其中承担数据库评估、购买、维护等的职责。

二是遵循特定许可方式的国内外开放获取数据,其中国内可包括中国国家科技基础条件平台系列科学数据共享平台[27],中国科学院各学科领域的数据型数据库[28],其他各类数据开放共享平台,机构知识库中的数据资源(如中国科学院文献情报中心机构知识库)、国家及地方统计局统计数据等;国外可包括开放获取数据知识库(如figSahre、Dryad、Zenodo、Genbank、ICPSR),开放获取数据期刊(如Biodiversity Data Journal、Open Health Data等),世界主要国家统计局,国际组织开放数据平台(如联合国统计司、世界银行、国际货币基金组织)等。

三是研究人员及研究机构托管、提交、合作共享的研究数据,如前文所述的北京大学开放研究数据平台、复旦大学社会科学数据研究中心等平台所获取的数据。

3.2 数据资源分类组织与揭示

数据资源揭示与呈现的深度、层次及形式直接影响着数据服务质量和用户体验效果,因此在获取了一定数量和质量的数据资源的基础上则须对数据进行分类组织和揭示以便用户获取。目前,图书馆数据资源揭示主要有4种通行做法:(1)按照数据资源所属国别或区域、所属学科、数据资源类型等进行分类导航和揭示,为每一类数据资源设置资源原址的链接,如加拿大温莎大学图书馆、麦克马斯特大学图书馆、约克大学图书馆;(2)将馆藏数据资源纳入图书馆检索(发现)系统,如加拿大联邦科学图书馆[29];(3)建立专门的数据资源检索系统,如澳大利亚联邦科学与工业研究组织图书馆数据门户[30];(4)收割开放获取数据资源的元数据,并将其整合到资源发现系统之中,如清华大学图书馆将“research datasets”的检索整合到“水木搜索”,用户可检索海量的数据资源并链接到在线资源原地址。

3.3 数据服务用户端平台搭建

根据前文所述数据资源组织与呈现方式,其中第一种需要合适的用户前端平台,如网页或网站;而第二、第四种方式只需在管理后端进行集成,对元数据管理、技术开发等有较高要求;第三种需要建立专门的数据服务系统(可参考检索、发现系统的架构),同时需要搭建用户前端和管理后端。比较而言,第一种方式较为方便快捷,适合数据服务尚处于探索、萌芽、尝试的阶段,中国科学院文献情报中心在数据服务初期阶段选择的是第一种数据资源组织与呈现方式,并以网页作为用户服务界面,该页面包括数据服务项目、数据资源(按学科分类、按来源分类)及链接跳转(效果示意见图1),数据利用工具推荐(见图2)及服务联系人信息等。

图1 数据资源组织效果示意图

图2 用户端页面数字科研工具推荐

4 数据服务体系之多元服务

具体的服务内容是数据服务体系中最具伸缩性和拓展性的部分,也是最具创新性、多元化特点的部分。面向研究需求的数据服务应充分考虑研究过程中各环节可能对数据的需求,因此宜以科学研究生命周期(见图3)为参考对数据服务进行设计,具体服务内容、服务形式因馆而异。

图3 科学研究生命周期[14]

4.1 研究构想阶段的数据服务

研究构想阶段可能需要广泛查阅领域内的经典文献、热点文献与最新资源,也需要灵感的碰撞和思想的火花,还需要对未来可能遇到的研究困难与障碍等进行预期甚至预警。因此图书馆宜在本阶段扮演“孵化器”的角色,提供以预期用户需求为导向的数据服务,包括但不限于:①数据政策与指南的制定或推介;②数据相关帮助性视频教程的集成与推荐;③数据资源宣传推广;④数据资源通报与推送;⑤数字学术、软件工具相关研讨培训等。以数据资源宣传推广为例,图书馆可通过微信公众号、微博、校内论坛、机构邮箱推送等渠道,以图文、视频等形式对前文所述的各类数据资源进行系列化、专题化的推介。

4.2 研究过程中的数据服务

在研究人员的研究过程中,图书馆能够发挥的实质性作用相对而言比较有限,本阶段图书馆宜扮演“后勤保障”的角色,为研究人员排除研究中可能遇到的各种“管理性”“事务性”的麻烦和困扰。可提供的数据服务包括但不限于:①数据分析及可视化;②研究数据管理;③数据论文写作支持;④数据期刊投稿指南等。以数据期刊投稿指南为例,图书馆应广泛调研国内外公开出版的数据期刊(如国外的Scientific Data、国内的《中国科学数据》等),为用户提供这些数据期刊的网站链接、编委会成员、审稿周期、版面费用、投稿格式、同行评审、被收录情况等信息摘录以便参考。

4.3 成果发表与共享阶段的数据服务

成果发表与共享是研究完成并取得阶段性成就的环节,也是绝大部分研究人员“最在乎”的环节,图书馆宜在本阶段扮演“维权者”的角色,帮助作者充分享受与维护其各类研究成果与产出的正当权益。本阶段可提供的数据服务包括但不限于:①数据托管;②数据出版(尤其是DOI分配);③知名期刊数据附件提交政策要求;④数据知识产权咨询等。以数据知识产权咨询为例,图书馆可调研不同类型的开放数据许可协议并进行总结和推荐(如CCBY、ODC-BY等),向用户介绍DOI分配代理机构、DOI在数据领域的应用,提供获得数据DOI的途径。

4.4 成果保存与利用阶段的数据服务

学术成果保存与利用是有益于其他研究人员、社会公众甚至子孙后代的行为,是学术研究价值的终极体现。因此,图书馆宜在本阶段扮演“监护人”的角色,为学术成果的保存、利用、宣传、推广甚至转化提供力所能及的服务。本阶段可提供的数据服务包括但不限于:①数据长期保存;②数据与数据产品引用规范推介;③面向研究团队的特定领域数据成果专题服务(如动物、植物图片数据专题展示);④研究成果科普、展览及推广等。以数据与数据产品引用规范推介为例,图书馆应广泛调研国内外数据引用的标准规范与实践案例,如对“数据引用原则联合声明”[31]、DataCite[32]、我国最新发布的《信息技术科学数据引用》(GB/T 35294-2017)国家标准[33]等进行推介,并根据用户的实际需求推荐合适的数据引用方案。

5 数据服务体系之条件保障

5.1 数据服务人才建设

设立数据服务相关岗位是数据服务的必然要求,因此数据服务人才建设、数据服务馆员素养与技能备受关注。目前而言,馆员招聘及交流培训是最为行之有效的人才建设方式。

5.1.1 数据服务馆员招聘

毕业生招聘是图书馆界一项常规的活动,招聘具备相关学科背景且已经掌握一定的数据服务相关专业知识与技能的高校毕业生是最高效的人才“培养”方式之一。例如在2018年度招聘季,中国科学院文献情报中心、北京大学图书馆相继发布了“数字科研服务馆员”“数据服务馆员”的招聘启事,并预计从事数据服务相关工作[34][35]。

5.1.2 数据服务馆员学习、交流与培训

学习、交流与培训是提高数据服务馆员专业知识与技能的重要途径,是培养已知的和潜在的数据服务馆员的有效方式。近年来,除国际交流与合作外,我国图书情报界也举办了诸多相关研讨与培训,如北京大学图书馆举办的“数字人文论坛”[36-37]、中国图书馆学会专业图书馆分会举办的2017年“数据馆员培训班”[38]、中国科学院文献情报中心举办的“中国开放获取推介周”[39]以及“科研数据管理与服务培训班”[40]、“Research data management in practices研讨班”[41]等,吸引了大批馆员及其他信息服务专业人员的积极参与。

5.2 数据服务空间建设

物理空间并非数据服务体系之必需,各图书馆可根据业务发展规划、需求考虑是否将物理空间纳入数据服务体系,事实上空间本身也是一种服务(“空间即服务”)。在具体的空间设计方面,数据服务应秉承以用户为中心、科学与人文相融合等理念,进行功能划区、家具布置、设施设备安装等,如中国科学院文献情报中心的数据服务空间包括:①计算机与网络服务区;②数字阅读与数字体验区;③开放式用户数据查询与利用区;④小型封闭式研讨区;⑤纸质科学人文通识阅览区;⑥小型综合咨询台等功能划区。

5.3 数据服务经费预算

经费预算是数据服务体系建设成本投入的直观体现,也是相关战略决策的重要参考,关乎数据服务体系构想能否落地实施。通常而言,数据服务可能的经费投入包括:(1)软硬件设施的配备与维护费用,如计算机配置、正版软件购买、投影及打印扫描设备购买等;(2)资源集成与呈现的平台搭建费用,如网页制作成本、网站建设成本等;(3)研讨培训相关的场地与师资费用,如外聘的培训讲师报酬、专家咨询费等;(4)空间再造成本,如空间设计、家具购买等;(5)额外的人力资源成本,如兼职学生的劳务费用等。

6 结语

近年来,数据服务正在成为图书馆服务的新领域,尤其研究数据管理成为其中的热门方向。然而,纵观研究数据管理全景,图书馆研究数据管理服务仍以咨询型服务为主而技术及实践支撑类服务较少,图书馆在其中起辅助而非主导作用,相当一部分图书馆在可预见的未来一段时期内开展实质性的研究数据管理服务还将存在较大的现实困难。

在不断适应新的学术环境和社会需求、寻求新的发展机遇和业务生长点的背景下,图书馆跳出研究数据管理的局限而探求更广泛的数据服务也是一种可行的思路。但不管怎样,图书馆的数据服务是一个趋势,对于大部分学术图书馆而言,及早“试水”是有必要的。

猜你喜欢
数据服务数据管理图书馆
地理空间大数据服务自然资源调查监测的方向分析
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
基于数据中台的数据服务建设规范研究
CTCS-2级报文数据管理需求分析和实现
图书馆
数据服务依赖图模型及自动组合方法研究
如何运用税收大数据服务供给侧结构性改革
去图书馆