李诗恬
(上海体育学院图书馆,上海200438)
计算机和网络技术已经成为信息时代开展科研活动必不可少的基础,科研过程信息化导致科学数据数字化程度不断提高,科学数据的格式日趋多样化。机构库(IR)是收录、存储和开发学术机构科研产出的机制,它为科研人员学术交流与知识共享提供新的平台[1]。
当代科学研究正在向数据密集型转变,以数字形式存在的科研数据逐渐成为学术交流的基本元素[2],随着科研工作网络化、科学数据数字化,机构库对科研成果和科学数据的长期存储和开放获取工作显得格外重要。机构库自2002 年诞生以来,迅速在全球范围内得到了推广[3],机构库的建设也成为各国图情领域研究和关注的新热点。西方发达国家对机构知识库建设尤为重视,发展的速度、规模、质量一直处于领先地位。机构库被引入我国至今一直备受图情等领域学者的关注,近年来我国部分大学和科研机构对机构库的建设进行了实践,逐步建设了一批机构库,但是与西方发达国家之间还存在着巨大的差距。截至2020 年7月,开放存取知识库名录(The Direct of Open Ac⁃cess Repositories,OpenDOAR)在册机构库为5389个,美国、英国和日本的机构库数量占了近三分之一,我国大陆地区注册的机构库数量为57个[4]。以中国科学院为代表的机构在机构库的建设方面取得不错的成绩,但是我国机构库的普及发展仍然不容乐观,用户参与度不高、法律问题、服务模式等问题成为机构库向前发展的拦路虎。
机构库的用户主要是资源提供者和资源获取者。资源的提供者希望通过机构库使自己的学术成就为人所知,进而提高自己在相关科研领域的学术声誉。目前机构库大都以机构为主线,没有突出学者这一机构库的主角[5]。机构库的建设机构往往将机构的利益凌驾于资源提供者的利益之上,忽略了他们对于学术声誉和学术地位的追求。国内科研机构、高校各种职称考核,均以商业数据库中的数据为依据[6],资源提供者在机构库发布的科研成果对其获取实际利益并没有直接关系,直接导致机构内部学者向机构库提交资源的意愿下降,引发机构库资源匮乏的危机,资源的获取者从机构库中难以找到满足科研需求的资源,访问机构库的频率下降,这样就导致了机构库用户参与度低的恶性循环。
资源版权问题是机构库建设过程中最为复杂的问题之一。根据OpenDOAR 网站的调查统计,全球机构库存储的资源类型较为繁杂,版权归属较为混乱(如图1)。机构库中资源并非所有版权都归机构库所有,机构库、版权所有者、用户之间的权利关系错综复杂,资源提供者向机构库提交的各种资源既包括公开发表的论文、著作,也有私人教学材料,机构库对发表资源进行存放并没有经过任何授权,用户获取资源也没有任何可以明确版权关系和法律关系的文件,使得两者都要承担较大的法律风险。
当前,国内外机构库主要有3种资源提交服务模式:分布式、半分布式、集中式。分布式模式完全由资源提供者上传管理资源;半分布模式将资源提交给机构库所在专门机构,再由这些机构上传到机构库;集中模式直接由机构内部帮助上传并管理资源[7]。这些模式都是建立在资源提供者自愿提交的基础之上,提供者通过软件或者机构库建设机构提交到机构库[8]。建立在提供者自我意愿基础之上的模式,无法保证资源来源的充足性,尤其当机构库不能保证其学术利益的情况下,资源提供者主动贡献自己拥有的资源的意愿更低。机构库中的资源多数是以静态的方式存在,机构库的管理机构对机构库中存放的各种数据开发不足,难以提供个性化和更深层次的数据服务。
图1 版权归属示意
数据监管(Data Curation)是一种在科研、教育中,对数据进行全生命周期的持续性管理的活动,通过这项活动可以增加数据的价值,提高数据的质量,让数据更易被发现和检索,提高数据长期复用率[9]。针对日益兴起的数据监管服务,普渡大学开发了Data Curation Profile Toolkit(DCPT),DCP描述的是数据集合的概况,目的是为了解研究人员的特定数据需求,促进图书馆员和其他人员进行数据方面的合作。研究人员提供和开放上游数据的可能性形成了DCP 与相关的工具包(data cu⁃ration profile toolkit,DCPT)。DCPT 可提供一系列服务来支持数据监管记录,方便了图书馆员与研究人员的沟通,为更好地监管科研成果、为科学数据或者数字文件进行动态管理和存储提供了便利[10],其通过标准化的流程对目标科学数据进行特征描述,与数据生产者紧密结合共同对科学数据进行监管,可以为机构库在数据监管服务方面提供新的启示。
DCPT 是普渡大学于2010 年构建的用于图书馆馆员和科研人员讨论科研数据的工具集,是帮助图书馆员和其他专业信息人员进行数据访谈,确定科研人员数据管理、共享和监管需求的工具。它实质上是一个访谈提纲,旨在捕获科研人员在其数据生命周期中创建或管理的特定数据集的信息,探索科研人员及其实验室当前如何管理和使用数据,以及未来打算如何处置数据,最终的成果是形成数据监管档案(Data Curation Profile,DCP)。
DCP 是用数据生产者的语言描述自己对数据监管需求的文件,数据监管者可以了解目标数据集全生命周期的发展和科研人员的管理活动[11]。
DCPT是数据监管的辅助工具,并非具体实施数据监管的系统软件,其目标是构建数据监管者和数据生产者之间的协作桥梁,从数据生产者角度来描述数据和数据监管的需求,为数据监管提供方向指导从而促进数据共享。
2.1.1 多学科数据的标准化描述随着E-Science 的发展、跨学科交流和跨机构的分布协同研究的趋势日益明显,解决学科之间、机构之间数据结构和表现差异成为推动科研合作数据监管者的任务之一。DCPT 通过标准化的流程对目标数据集进行探索,并将最终数据探索结果形成DCP。DCP 是由各学科科研数据的共同拥有的属性构成的集合,它可以实现对多学科数据进行统一的描述,减小跨学科研究之间数据理解的差异,有益于实现多学科研究之间数据的共享和复用。
2.1.2 科学数据全生命周期的展示
不同阶段的科学数据紧密相连直接反映了科研工作的进展,为后续科研人员提供相关数据处理方法指导,利用这些数据可以对已有的科研成果进行重现性验证,保证科研成果的可靠性。在DCPT 中将科学数据的生命周期分为原始、处理、分析、完成4个阶段,并且提供对生命周期的拓展,强调对科学数据各个阶段的详细状态进行纪录,为科学数据全生命周期的监管提供方向。
2.1.3 以数据生产者为出发点
科学数据主要来源于科研人员或者科研团队,他们对自己生产的数据有着更加透彻的了解。DCPT 为数据生产者和数据监管者提供了沟通渠道,了解数据生产者在数据监管方面的需求,让数据监管者从数据生产者角度出发,了解他们对于数据监管的需求和建议。
2.1.4 冲破科学数据共享的阻碍
科学数据共享可以充分体现科学数据的价值,但是由于所有权问题、访问和存储条件等问题,科学数据的全面开放共享并没有实现。DCPT试图通过明晰数据所有权,告知数据存储和访问条件的方式来跨越科学数据共享过程的桎梏。
DCPT 由4 个部分构成,每个部分承担着不同的任务,缺一不可、紧密相连。
用户使用指导:用户使用指导是DCPT 的“快照”,以整个工具及其他组成因素的使用和构成为核心,将DCPT的使用生命周期划分为不同的阶段和模块进行描述,为新用户提供迅速掌握和使用该工具的系统说明,同时也为经验丰富的用户提供结构和流程优化的蓝图。
访谈表格:访谈表格是一种填空式的调查问卷,涉及目标数据集的描述、版权、共享等主要问题,由采访者在访谈开始之前发放给数据生产者或者数据提供者,在整个访谈过程中采访者根据数据生产者在表格中的信息反馈,确定所需要进一步了解的细节信息,它与访谈手册在功能和内容上相互补充。
访谈手册:访谈手册包含了在访谈过程中可能涉及的各方面与目标数据集相关的问题,采访者了解数据生产者在访谈表格中反馈信息之后,提出相应的问题、获取相应的信息。它监管访谈中既可以作为无访谈经验监管人员的台本,也可以为经验丰富的监管人员提供线索性的指导[12]。
DCP 模版:DCP 是为最终形成的数据描述文件提供一个框架,将对数据监管各种信息按不同的章节进行汇总,每个章节对所需信息做了简要的定义,数据监管人员从访谈表格和访谈手册提取相关信息。
数据监管人员通过DCPT 向数据生产者获取目标数据集的相关信息,形成数据集描述文件。整个过程涉及主题选取、科研数据集确定、了解数据集基本现状等多个环节,这些环节可以划分为4个阶段。
准备阶段:DCPT要和那些确定有数据且对自己的数据集有一定监管期望和需求的研究人员合作使用[13]。数据监管主要面向的是科学数据,选定目标数据集是使用DCPT的前提条件,数据的发展阶段、数据的状态以及目前已经采取的管理方法,关系到后续访谈的进行,在准备阶段通过检索与目标数据有关的出版物、科研项目介绍了解数据的状态和数据产生的背景信息,分析目标数据集所在的学科领域中数据监管存在的问题和进展程度,进而为正式访谈提供方向和重点。数据监管者应当尽量选取处在成熟阶段的科学研究项目作为目标,尽量避免数据集相关信息与已经生成的DCP发生冲突,影响DCP的可靠性和真实性。
访谈阶段:访谈阶段是一个交互的过程,采访者了解目标数据集的信息,数据生产者表达数据监管的需求,整个过程以目标数据集为核心,以访谈表格和访谈手册为工具对所需信息进行充分采集。
完成DCP 阶段:本阶段需要对准备阶段和访谈阶段获取的信息进行重新组织,按照DCP 模板中的章节和模块填入相关的信息,最终形成一份关于目标数据的草案,草案经过数据生产者正式确认之后形成正式的DCP。
出版和共享阶段:DCP 可以通过多种形式进行发布,相关机构可以出版相关的纸质文档,也可以通过网络平台共享。普渡大学通过DCPT 官网对最新的DCP 文件进行发布,让其他用户能够便捷的获取,Wiki 平台也为获取DCP 并对其进行评价提供了便利[14]。
建设机构库的主要目的是开放存取本机构内部的科研成果。开发DCPT 是为了描述需要监管的科学数据,从而促进科学数据的共享、增加科学数据的价值。DCPT 和机构库有很好的契合点,DCPT可以为机构库进行数据监管提供指导,使机构库更好地实现开放存取。
图书馆和档案馆是传统文献和资料保管的场所,也是机构库建设的主要力量,然而随着E-Sci⁃ence 和E-Research 的发展,传统的文献管理服务已经受到了挑战,创新机构库的建设变得更加重要。DCPT的应用效果和使用DCPT人员经验有着直接关系,图书馆和档案馆的工作人员长期从事与信息管理相关的工作,对信息管理的流程有着深刻的了解,能够准确地了解目标数据集的信息和数据生产者对数据监管的要求。图书馆和档案馆作为传统的数据管理中心,对数据管理有着系统成熟的流程和合理规范的规章制度,科学数据监管是传统数据管理的一种新模式,传统的管理流程和规章制度有大量值得借鉴之处。
计算机技术和网络技术是机构库建设的技术基础。据OpenDOAR 统计,截至2020 年DSpace 占据全球机构库系统软件使用市场的40%。DSpace等系统软件性能完善,功能齐全,实现了知识资源的“收集——保存——发布”的一般过程,并可以进行拓展,能较好地满足机构库建设需求[15]。机构库系统软件的应用为DCP的监管要求提供了软件保障。随着互联网和多媒体技术的发展,机构库的建设机构可以构建网络平台,DCPT的流程完全可以在网络平台上进行。
建设机构库是为了存储本机构的研究成果、管理数字资源,长期保存数字资源、教学资源保管、图书期刊资源收藏。科学数据是科学研究的驱动力和创新的重要来源,其重要性日益受到各学科领域关注,随着计算机和网络技术的发展,科研数据状态也在不断变化,机构库不能满足研究人员对于数据服务的需求,机构库的建设机构基于Data Curation 提出新的建设思路势在必行,DCPT能够为机构库进行数据监管提供思路(如图2)。
图2 DCPT工作流程
机构库中存放的资源是由机构内部科研人员自愿提交,这种方式的主动权完全掌握在科研人员手中,科研人员在提交数据资源过程中需要考虑数据格式、数据大小等问题,这些问题进一步增加了数据提交的复杂度,影响科研人员提交数据资源的积极性,这对机构库资源内容建设十分不利。数据监管者使用DCPT 需要主动去检索需要收录、监管的数据,数据监管者需要关注本机构内的科研人员的科研进展,确定目标科研项目之后需要主动和相关研究人员沟通科研数据收集的问题。数据监管者主动搜集数据资源的方式,通过沟通交流可以使科研人员机构库的数据监管工作更加人性化,提高科研人员在机构库建设中的参与度,保证机构库建设工作的可持续发展[16]。
机构库中包含多学科数据资源,每个学科各具特点,导致各个学科的科学数据包含的属性也各不相同,每个学科对数据都有一套描述方式,在机构库中难以做到统一和标准化的描述和管理,对科学数据开放存取有较大阻碍。统一多学科科学数据描述需要建立新的元数据标准,通过统一的元数据标准可以加强数据的共享性,促进科学数据跨学科流动。DCPT 最终的成果是关于数据监管的描述文件(DCP),DCP将各个学科的数据划分成13 个大的模块分别进行描述,其中包括数据集摘要、数据集生命周期、数据集共享、数据集访问、数据集转换等,这些可以作为元数据标准的参考模型,帮助机构库更好的完成多学科的数据监管活动。科学数据编目工作可以方便科研人员迅速检索到需要的数据,并通过分类找到大批关联数据,这样既方便了对科学数据集有序管理,也可以提高科研人员的检索效率。DCPT 将每个科学数据集都建立了独立的DCP,每个独立的DCP 文件分配一个唯一DOI,这样结合元数据标准就可以完成对科学数据的编目工作。
数据监管人员的对多学科数据进行科学有效的管理,帮助用户便捷地发现和获取相关的数据信息。由于数据监管人员专业知识的局限性,并不能对所有学科的特点进行深入的了解,导致在科学数据的处理和管理方面存在许多不完善的地方。特定学科关于数据存储的格式不尽相同,对数据支持的软件和出版方式也不一样,数据监管者需要全盘考虑所有相关影响因素,在精力上较难实现[17]。DCPT这种模式勾勒了一种双向管理机制,数据监管的主体不再由数据监管者一方担当,数据生产者也参与到数据监管的过程中,为数据监管者提供所需的数据信息。机构库对科学数据的收集和管理是一个抛弃的过程,对科学数据的收集集中在数据生命周期的末端这部分数据,科研过程中其他阶段的数据被忽视。科研失败的数据中包含失败的原因,对科研工作成功开展具有方向性作用,各个阶段对于推演科研成果进行再创新起到的作用不可忽视。利用DCPT 可以对各阶段数据进行纪录,实现数据全生命周期管理。
信息孤岛现象广泛存在于当前机构库的建设过程中,每一个机构库是一个数据和信息的集合点,但是各个机构库之间的联系是割裂和孤立的,阻碍了各个机构之间的数据共享和交流。单一机构的数据资源有限,难以保证机构库内容的丰富性和多样性。各机构之间确立合作协议建立跨机构合作联盟,跨机构合作既可以突出本机构强势学科,提高机构、机构内部科研人员学术声誉,弥补弱势学科数据短缺的问题。DCP将某一个科研成果相关数据所有者信息和版权所有者进行了纪录,建设机构可以根据DCP 与各个机构确立合作协议和版权共享协议,构建机构库网络体系,实现机构库之间数据资源共享,解决机构库信息孤岛问题。
科学数据的价值来源于共享和复用。科研人员在访问机构库数据时无法了解其他相关使用者使用方法和方向,对数据存在的疑问无法反馈和交流,一定程度上限制了用户复用数据。DCPT形成最终DCP 之前需要数据生产者的反馈和确认,并对反馈作出相应的修改,DCP 也可以通过Wiki平台进行访问和讨论,建立起长效的反馈机制将大大提高用户复用数据,促进机构库内数据资源共享。
随着科学的发展,各个学科之间的界限越来越模糊,跨学科交流成为科研领域一种不可忽视的趋势,与此同时E-Science 的发展促进了分布式和协同式科研工作的开展,学科之间的交融、科研机构之间的协作必然伴随着数据的交互,但是各学科科研数据和各机构的数据特点存在着明显的差异,造成科学数据和成果共享困难。机构库面临新的发展形势,数据共享和开发获取的职能愈发重要,DCPT对机构库在数据监管、服务模式、数据描述等多方面的创新有着重要的借鉴作用,将有益于机构库长期可持续发展。