机构科研数据知识库联盟创建的动因与条件*

2018-01-28 19:26
图书馆论坛 2018年8期
关键词:知识库数据管理科研人员

1 研究背景

进入21世纪,数据密集型科学发现(Data-Intensive Scientific Discovery)研究范式产生,反映了科学研究的驱动因素已由研究假设转变为数据探索,科研数据由此成为科学研究的基础资源与有力工具。伴随着数据密集型科研活动的蓬勃发展,数据管理与共享成为重要议题,国际上一些科研机构、基金资助机构、期刊纷纷制定政策,要求研究人员将科研数据提交至特定的数据基础设施(Data Infrastructure)。在这一发展态势下,科研数据知识库(Research Data Repository,RDR)的价值和重要性不言而喻。目前科研数据知识库可划分为四类[1]:(1)机构科研数据知识库,如爱丁堡大学的Edinburgh DataShare、利兹大学的Research Data Leeds Repository、布里斯托大学的data.bris Research Data Repository;(2)学科数据知识库,如基因序列数据库GenBank、地球科学数据库PANGAEA;(3)多学科数据知识库,比如Figshare、LabArchives;(4)特定项目数据知识库,如科学钻探数据库SDDB。其中,机构科研数据知识库(Institutional Research Data Repository,IRDR)由高校或研究机构建立和运行,专门用于收集、存储、组织、管理和共享本机构研究人员产出的科研数据。截至2018年3月20日,在科研数据知识库注册系统re3data.org注册的IRDR数量达512个,分布于47个国家和地区[2]。

IRDR的目标是促进科研数据的共享和再利用。然而大部分IRDR处于“机构库孤岛”或“科研数据孤岛”阶段,数据收录及共享的范围有限。近年来,学术交流范式不断演化,协同科研环境扩大了学术交流圈,拓展了国际和跨学科交流合作,跨机构、跨系统、跨学科合作研究成为科学研究的重要形式。在这一背景下,现有的IRDR在服务范围、服务能力、运行模式等方面均将受到挑战。因此,由个体独立逐渐走向联盟是科研数据共享的内在要求,也是IRDR发展的必然趋势。IRDR联盟是由两个以上的研究机构为了更好地共享共用科研数据资源,以签订合作协议为方式,以其原有科研数据知识库为基础,以集中存缴、元数据收割等为手段,实现对科研数据的统一监管和统一服务而构建的一种共享机制联合体[3]。作为一种创新的机构联合和数据共享模式,IRDR联盟将在更大范围实现数据共享和利用,增加科研数据长期研究的价值,有利于促进学术交流和科学发现。目前在国际范围内已有一些具有联盟性质的IRDR,如荷兰的4TU科研数据中心(4TU.Centre for Research Data)、澳大利亚的数据档案中心(Australian Data Archive)、美国社会科学数据保存联盟(Data-PASS)。值得一提的是,加拿大于2018年春季发布联合科研数据知识库(Federated Research Data Repository,FRDR)[4],由加拿大研究图书馆协会(Canadian Association of Research Libraries,CARL)、加拿大计算机协会(Compute Canada)、Portage Network及其Globus项目、不列颠哥伦比亚大学(University of British Columbia)和萨斯喀彻温大学(University of Saskatchewan)合作运行,致力于将多个科研数据知识库集成在一个联合系统中,为加拿大科研人员提供科研数据传输、获取、管理、保存、发现和共享的统一平台。我国虽已建成一些科研数据管理和共享平台,如复旦大学社会科学数据平台和北京大学开放研究数据平台,但在IRDR联盟建设上尚付阙如。因此,本文将厘清推动机构科研数据知识库联盟创建和发展的关键因素以及保障条件,为我国开展IRDR联盟建设工作提供理论依据和实践指导。

2 机构科研数据知识库联盟创建的动因

2.1 政策驱动

数据管理和共享政策是IRDR联盟创建和发展的基本保障和行动指南,是一种自上而下的推动力量。从国际范围看,一些国际组织、行业协会和研究机构发布和实施的政策中都突出数据基础设施联盟的必要性。2007年联合国信息通讯技术与发展全球联盟(Global Alliance for ICT and Development)启动的“促进发展中国家科研数据共享与应用全球联盟”计划(Global Alliance for Enhancing Access to and Application of Scientific Data in Developing Countries)坚持开放共享的数据政策,共建非中心化的科研数据网群网[5]。2010年欧盟委员会在《驾驭趋势:欧洲如何从科学数据的迅速涨潮中获益》(Riding the wave:How Europe can gain from the rising tide of scientific data)报告中指出,大多数科研数据基础设施是分散的,不利于可持续发展,呼吁创建一个全球性的联合数据基础设施并构建了框架[6]。2011年欧盟第七框架计划资助的《GRDI2020:全球研究数据基础设施10年愿景》(GRDI2020-Towards a 10-Year Vision for Global Research Data Infrastructures)项目发布《全球科学数据基础设施:重大数据挑战》,认为特定学科的数字数据中心、数字数据档案馆和数字研究中心等系统必须能够相互作用,组成有效的多学科或跨学科的科学生态系统[7]。一系列政策的支持和指导推动了不少新的科研数据联盟项目的实施。2013年,在美国、欧盟、澳大利亚共同倡议下,科研数据联盟(Research Data Alliance,RDA)建立,致力于创建数据交换与共享的技术基础设施和支持团体合作的社会基础;在芬兰,开放科学和研究计划(Open Science and Research Initiative)推动国家科研数据计划(National Research Data Initiative)的实施,通过广泛合作开发科研数据服务并促进知识开放和互操作性,最终结合科研数据架构和元数据模型建成了一个集中式科研数据基础架构[8]。

近年我国国家数据战略中频繁强调数据共享和联盟的重要性。2015年颁布的《促进大数据发展行动纲要》要求构建科学大数据国家重大基础设施,实现对国家重要科技数据的权威汇集、长期保存、集成管理和全面共享。2016年出台的《“十三五”国家科技创新规划》提出加强各类科学数据的整合和质量控制,完善科学数据汇交机制,推动科学数据的汇聚和更新,加工形成专题数据产品,面向国家重大战略需求提供科学数据支撑。2017年习近平总书记在中共中央政治局第二次集体学习时强调:“以数据集中和共享为途径,推动技术融合、业务融合、数据融合,打通信息壁垒,形成覆盖全国、统筹利用、统一接入的数据共享大平台,构建全国信息资源共享体系,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。”[9]2018年3月国务院办公厅发布的《科学数据管理办法》提出建立科学数据汇交制度,在国家统一政务网络和数据共享交换平台的基础上开展本部门(本地区)的科学数据汇交工作。IRDR联盟作为科研数据管理与共享的新型合作机制和数据资源整合的创新模式,符合当前国家政策需求,而上述政策也为IRDR联盟的创建提供了依据和契机。

2.2 科研人员需求驱动

科研人员的现实需求和潜在需求是IRDR联盟创建的源动力,具有自下而上的推动作用。调查显示,73%的高校科研人员对建立高校科研数据知识库联盟持支持态度[10],建立IRDR联盟对学术生态发展十分必要。IRDR联盟主要在两方面反映和满足科研人员的需求。

(1)实现跨学科和跨机构合作研究与交流。首先,学科融合交汇是当前高等教育和科学研究的突出特点。例如,卫星收集的高分辨率遥感图像同时属于生态系统科学数据和环境科学数据,一个遗传生物学家需要分子生物学、生物化学、药学等不同学科的科学数据以支持项目研究[11]。科研工作者需要获取跨学科的数据以链接不同学科领域内的知识点[12]。从长期看,小科学的研究者跨越多个学科领域,产生不同形式的高价值数据,预计比大科学领域产生的数据还要多[13]。其次,科学研究跨机构合作趋势明显,对科研数据跨机构共享提出了新的要求。以高校为例,传统的科学研究是按学科进行的,科研人员需要参考本学科其他学校科研团队的研究数据。华南理工大学的调查显示,90%科研人员认为科研数据在单个学校进行共享的用处不大,需将合作范围扩展至全国乃至全球[14]。截至2018年3月,RDA已汇集136个国家的6700多名成员,共同开发和采用基础设施,促进数据共享和数据驱动的研究[15];而美国校际政治及社会研究联盟ICPSR的成员已发展至776个,包括高校、政府机构和其他机构,成员可直接获取ICPSR的数据资源和其他服务[16]。

(2)提高科研数据的影响力。从科学发展角度看,科研数据共享是为了实现研究再现或验证、使公共资助研究的结果为公众所用、使其他人利用现有数据提出新的科学问题、提升研究和创新水平,而对科研人员个人而言更多地意味着能够提高科研数据的影响力。北京大学科研团队数据管理需求问卷调查结果表明,87.5%受访者愿意在一定条件下共享部分数据,最大动机是数据曝光度和使用率提升带来的成果引用率提升和数据增值[17]。从学术成果发表和传播的角度看,学术期刊通过一定的标识技术和机制,强制要求论文作者对所使用的科学数据资源进行描述,标识数据的来源,不仅体现了对科研数据知识产权的保护,也能提高科研数据的影响力和重用率。美国全国民意调查研究中心(National opinion Research Center)创立的综合社会调查(General Social Survey,GSS)是美国除人口普查局以外,在社会科学领域被分析利用最频繁的数据,截至2015年有超过2.5万个研究项目使用GSS的数据[18]。IRDR联盟为科研人员提供了跨学科和跨机构学术交流的平台,无疑能够在更大范围内帮助科研人员提高科研数据影响力。

2.3 科研机构管理驱动

(1)通过资源共享与互补来提升机构服务水平。IRDR的服务水平最直观地体现在知识库所收录的数据资源数量和学科范围两个方面。在re3data.org平台注册的211个高校科研数据知识库中,只有7%的数据类型涵盖生命科学、自然科学、人文科学和工程科学四个学科内容,其他数据知识库所涉学科不够完整;各高校科研数据知识库的存储规模普遍较小,且以标准文档、文本和图片等为主,可重用的元数据和数据集资源较少[19]。由此可见,单个IRDR的服务能力普遍较弱,难以满足科研人员的多元需求,不利于可持续发展。相反,IRDR联盟能够通过数据合作和共享,帮助各个成员机构扩展数据资源体系,实现机构之间数据资源互补,避免科研数据的分散,弥补个体不足,最大程度地增强联盟成员的科研支持和服务能力。以美国国家生物技术信息中心(NCBI)建立的基因序列数据库GenBank为例,是国际核苷酸序列数据库协作组织的重要成员,为保证数据覆盖面,GenBank与该组织其他两个成员——日本DNA数据银行(DDBJ)和欧洲分子生物实验室(EMBL)建立了相互交换数据的合作关系[20],增强了服务能力。

(2)减小单个机构运行下的人力负担和管理成本。单个IRDR相对独立,设有自己的一套运行模式,包括组织机构、人员设置、数据管理方法和流程。而一些国家级资助项目或重大攻关项目,往往是由多个高校或研究机构合作完成的,其数据资源属于共有资源,如果各个高校或研究机构单独建设,不仅会出现数据资源重复建设的情况,也会增加数据管理人员的负担。IRDR联盟打破了各个机构独立运行的局面,通过部门重组、权责分工或协调等形式,解决了单个机构运行下的人力负担和管理成本问题。比如,Data-PASS的成员各有关注的领域,这种差异性成为成员间分工协作的基础,成员在数据管理过程中分工推荐特定领域的社会科学数据,运营委员会集中审核后,各成员再根据审核结果进行数据采集与加工,保障了数据鉴定、采集和加工的高效性,也避免了数据重复采集和保存带来的资金浪费[21]。

2.4 技术驱动

21世纪以来,信息技术发展为IRDR联盟提供了技术条件。IRDR联盟的关键工作就是建设一个实现多机构数据融合和协同工作的平台,满足联盟成员和科研人员一站式浏览、检索、管理和利用科研数据的需求。从现实情况看,现代信息技术能够帮助IRDR联盟解决一系列的技术问题:DSpace、Dataverse、Fedora等数据仓储开源软件为IRDR联盟平台的基础设施建设提供了技术基础;都柏林核心元数据标准(Dublin Core Metadata)和OAI协议为IRDR联盟基础元数据记录管理提供了标准,使用OAI-PMH协议并在其记录中嵌入特定领域的元数据为收割元数据和开发联合目录提供最佳途径;DataCite和DOI为数据引用提供了全球唯一标识符;数据知识库在实践探索和发展过程运用的技术和标准能够为IRDR联盟提供有益的参考,4TU、Data-PASS、Australian Data archive等已积累了开发和实践经验,可作为机构科研数据知识库合作的最佳实践,为IRDR联盟的创建提供参考。综上所述,目前在数据管理平台开发和资源整合领域已有各种成熟的技术,为IRDR联盟数据平台建设提供了技术支持,IRDR联盟需要根据实际情况和需求,选择最佳方案,实现平台的易用性、便捷性、关联性。

3 机构科研数据知识库联盟创建的保障条件

3.1 设置合理的组织架构并明确联盟成员权责

任何组织的生存和发展都要以利益相关者的广泛、平等参与作为组织治理的前提和基础[22]。所谓“利益相关者”就是“能够影响组织目标实现,或者能够被组织实现目标的过程影响的任何个人和群体”[23]。IRDR联盟的创建和发展涉及多方利益相关者,包括科研机构、科研人员、数据管理与服务提供者、资助者等。各利益相关者根据资源优势、技术优势、管理优势和利益差异而扮演不同的角色,享有相应的责任和权利。首先,IRDR联盟应该设置科学合理的组织架构,包括联盟协调组织、理事会、监管委员会、秘书处和工作组等。其次,IRDR联盟需要分配和协调各主体的角色与权责。对科研机构而言,他们是联盟的核心主体,将在决策、管理与执行层面扮演关键角色。re3data.org将IRDR联盟成员所承担的角色和责任主要划分为综合管理、技术支持和资金资助三大类。4TU科研数据中心(4TU.Centre for Research Data)由荷兰埃因霍芬理工大学、代尔伏特理工大学、特文特大学和瓦格宁根大学组成,代尔伏特理工大学图书馆负责联盟的整体运作,承担综合管理、技术支持和资助责任;埃因霍芬理工大学承担资助工作;特文特大学负责综合管理;瓦格宁根大学负责综合管理和资助[24]。IRDR联盟各利益相关者之间的的角色和权责不是单一的,具有交叉性和复杂性,IRDR联盟在创建之前就应该合理统筹,具有同一职责的成员在执行中需相互协调,加强沟通。

3.2 统一联盟平台的技术标准

由于数据的复杂性和标准差异性明显,要有效集成各机构的科研数据,IRDR联盟需要在若干技术问题上达成一致。

(1)选择合适的数据管理系统。目前科研数据管理主流系统包括Dataverse、CKAN、Dryad、Figshare和Nesstar等,北京大学在建设开放研究数据平台前期比较了多种系统,强调标准的元数据和良好的互操作性、管理权限划分和灵活的访问控制、基于DOI和版本的发布、在线分析和可视化等功能,认为Dataverse更符合要求[17]。

(2)搭建合理的数据架构。数据架构是指数据系统和应用的技术实现、技术部署和技术环境,合理的数据架构包括数据存储、编程、数据分析和数据应用等模块,要重点关注数据表示和描述、数据存储、数据分析的方式和过程,以及数据交换机制、数据接口等,为结构化和非结构化数据的应用提供技术支撑,确保数据的可用性。

(3)确定统一的数据资源整合方式。资源整合有多种模式,IRDR联盟以异构数据库资源整合模式为主,主要技术有三种:Z39.50,支持不同数据结构、内容、格式的系统间数据传输,实现异构平台、异构系统之间的互联与查询;公共对象请求代理体系结构(Common Object Request Broker Architecture),结合面向对象技术和分布式处理技术实现应用层交互;中间件(Middleware),是独立的系统软件或服务程序,能实现分布式软件模块之间的交互[25]。

(4)实现元数据互操作。IRDR联盟平台汇集的数据来源和学科广泛、格式多样、结构各异,不仅要构建多维的数据分类体系,还要致力于元数据的互操作。元数据互操作可分为语法互操作和语义互操作,应用广泛的语法互操作方法有元数据映射、复用、集成、互操作协议与应用程序接口等,而语义互操作则有本体技术和关联数据等[26]。只有在上述问题上制定统一标准,IRDR联盟才能在各个环节实现无缝链接和高效运作。

3.3 制定联盟平台数据监护流程和数据质量审查标准

在大数据时代,科学研究的价值很大程度上取决于数据质量。IRDR联盟平台汇集了不同机构的科研数据,其质量往往是参差不齐的,需要制定科学的数据监护流程,形成系统的数据审查标准,保障数据的质量。

首先,根据英国联合信息系统委员会(JISC)的定义,数据监管是指为确保数据当前使用目的,并能用于未来再发现及再利用,从数据产生伊始即对其进行管理和完善的活动[27]。一些研究机构和学者提出了不同的数据监护流程,比较有代表性的是英国数据监管中心(Digital Curation Center)提出的数据监管生命周期模型(Curation Lifecycle Model),它结合了数据生命周期理论将数据监管流程划分为八个阶段:概念化—创造或接收—评估与选择—吸收—保存行为—储存—访问、使用与重用—转换[28]。IRDR联盟可根据具体情况将数据监护流程嵌入到集成平台管理系统中,加强数据质量管理。

其次,IRDR联盟需要制定科学的数据质量审查标准,对数据文件、数据文档说明、科研数据本身以及源代码等内容进行核检。可参照Wang和Strong提出的四维度数据质量判定标准:内在数据质量(可信度、准确性、客观性、声誉);语境数据质量(增值性、相关性、时效性、完整性、适量性);可表现型数据质量(可解释、易于理解、一致性、表达简洁);可访问性数据质量(可访问性、安全性)[29]。也可参照数据认可印章(Data Seal of Approval)制定的数据知识库可信赖认证16条核心要求[30]。

3.4 制定科研人员激励机制和使用规范政策

课题组前期调查发现创建IRDR联盟还面临一些障碍,其中“部分科研人员不愿意共享科研数据”占最大比重(约76.5%)。尽管科研人员普遍认同为科学进步实施数据共享有其共同潜在利益,然而多数人在执行时有所顾忌,主要担忧涉及科研数据知识产权问题、不正当使用、隐私问题、数据损毁或篡改等。要消除这些顾虑,IRDR联盟需要从两进行完善。

(1)制定科研人员激励机制,设置激励措施来鼓励科研人员提交数据。例如,明确数据提交者享有免费存储定量数据、更新元数据、设置开放时滞期等权益;根据科研人员的研究领域推荐相关科研项目和数据以便进行研究合作;对数据提交贡献较大者提供一定的研究支持基金。

(2)制定科研数据使用规范和政策。IRDR联盟应根据内容、产权为不同数据设置不同等级的访问权限,强化数据安全防护力度,并制定相应的使用标准或强制性政策。对科研人员而言,他们既是数据的提交者,也是数据的利用者,应该遵守联盟的政策、规定、授权和许可协议,积极且合法地分享科研数据,同时在使用中规范引用,保护其他科研人员的知识产权和隐私。加拿大的联合科研数据知识库(FRDR)在开发阶段就设计了全面的用户条款和隐私保护(Terms of Use and Privacy Policy),其中用户协议包括:遵守领域或学科的学术诚信规范,提供数据来用和标注引用;遵守知识共享许可协议(Creative Commons Public Domain Dedication CC0 1.0),下载和使用不会将内容中的任何知识产权转让给用户;用户对内容的使用负全部责任,而该联盟的主要运行组织—加拿大研究图书馆协会和加拿大计算机协会对用户的下载和/或使用行为不负责任[31]。

3.5 增强数据管理人员素养

数据管理者是连接IRDR联盟平台和科研人员的枢纽,其综合能力和素养直接反映IRDR联盟的管理和服务水平,影响科研人员的数据使用效果和持续使用意愿。基于IRDR联盟的跨机构、跨学科和跨系统特性,IRDR联盟的数据管理和服务提供者至少需要具备三种能力。

(1)数据监护和分析能力。高效和持续地收集数据,利用集成系统进行数据监护,保证数据质量、安全和长期保存,在此基础上进行合理的评估和分析并形成分析报告。

(2)沟通协调能力。了解科研人员的数据需求和使用效果,做好资源调度,处理数据提交与使用中的利益问题,规避潜在风险。

(3)宣传推广能力。制定宣传策略,开发多种形式的宣传方法,扩大IRDR联盟的知名度和影响力,从而吸纳更多的合作伙伴,为IRDR联盟提供技术、资金和数据支持。

当前IRDR成员类型以高校图书馆为主,这就对高校数据馆员提出较高的要求。高校图书馆或研究机构应该招聘数据管理专业人才,或对现有数据馆员进行全方面的培训,在强调信息素养、数字素养和数据素养的同时,强化宣传、管理、沟通和协调等方面的能力,提升IDRD联盟的服务效果。

4 结语

数据密集化和协作化是科学研究的重要发展方向。IRDR联盟作为一种创新的科研机构合作模式,将从更大范围促进科研人员的数据共享,从更高层次满足科研人员的数据利用和学术交流需求。本文对IRDR联盟创建的动因与条件进行分析,发现IRDR联盟的创建不是单一因素作用的结果,而是政策驱动、科研人员需求驱动、机构管理驱动以及技术驱动等综合作用的产物。而在实践中,联盟成员权责声明、联盟平台的技术标准、联盟平台数据监护流程、科研人员激励机制和使用规范、数据管理人员的能力与素养等条件则保障了IRDR联盟科学高效和可持续的发展。驱动因素和保障条件相互作用,共同为我国IRDR联盟的创建和发展提供了科学的实践指导,有利于进一步推动科学创新和知识发现。

猜你喜欢
知识库数据管理科研人员
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
企业级BOM数据管理概要
科研人员揭示油桃果实表皮不长毛的奥秘
定制化汽车制造的数据管理分析
汉语近义词辨析知识库构建研究
科研人员破译黑猪肉特征风味物质
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
企业科研人员激励问题及对策研究