摘 要:研究数据存储库定期评估认证,可以保证研究数据存储库的可信赖度,提高研究数据质量。文章对比分析CoreTrustSeal认证、WDS认证等多种研究数据存储库的认证方式,调研认证种类及方式并针对认证数量最多的CoreTrustSeal认证,分析16项评估要求,总结对比国外高校图书馆获得CoreTrustSeal认证的案例经验,在此基础上提出促进我国高校图书馆建立值得信赖研究数据存储库的优势与策略。
关键词:研究数据存储库;CoreTrustSeal认证;研究数据管理;高校图书馆
中图分类号:G203 文献标识码:A
Research on Strategies for Achieving CoreTrustSeal Certification for Research Data Repositories: A Case Study of University Libraries
Abstract Regular assessment and certification of research data repositories help ensure repository reliability and improve the quality of research data. This article reviews and summarizes certification types and methods, with a comparative analysis of various quality assurance approaches, including CoreTrustSeal (CTS) and WDS certifications. Focusing on CoreTrustSeal, which has the highest number of certifications, the paper analyzes its 16 assessment criteria and reviews experiences from certified university libraries abroad. Finally, it proposes advantages and strategic recommendations to support university libraries in China in establishing trusted research data repositories.
Key words research data repository; CTS Core Certification; research data management; university libraries
1 引言
开放科学背景下,科学界陆续提出数据存储、数据共享、数据重用等概念,数据共享与重用已成为一种必然趋势。数据质量是科学数据共享成功的驱动力,国内外正通过各种方式努力确保科学数据的优质。研究数据存储库(Research Data Repository,以下简称RDR)作为基础设施,正是实现数据共享和重用的重要工具。在国内外各种确保研究数据质量的方式中,核心信任印章CoreTrustSeal认证(以下简称CTS认证)等数据存储认证方式逐步成为RDR质量标准评估方式之一。
RDR会申请多种国际认证方式,“认证”被德国标准化协会定义为公正的第三方来认证指定产品、流程或服务符合特定标准或规范性文件[1]。本文数据源来自re3data.org[2]目录,re3data.org作为RDR注册平台,详细描述了包括RDR认证类型等元数据信息。RDR认证的主要类型包括:CTS认证、世界数据系统WDS(World Data System)、德国数据论坛RatSWD、通用语言资源和技术基础设施CLARIN B、数据批准印章DSA(Data Seal of Approval)、Deutsche Initiative für Network Information(DINI)、Trusted Digital Repository(TDR)、DIN 31644、ISO 16363等。其中,CTS认证的数量最多,其次是WDS和RatSWD。
(1)CTS认证是一种核心认证体系,为数据生产者、数据用户、研究资助者等提供服务,展现了对数据质量以及长期存储的承诺。CTS认证要求RDR申请者提交自我评估声明和相关证据,从一定程度上反映了RDR的可信任特征。re3data.org中有150个RDR申请了CTS认证,数量远超其他认证方式,其中包括美国35个、德国20个、中国7个。
(2)世界数据系统WDS认证,提供有质量保证的数据服务。对于还没准备好CTS认证流程的RDR,可选择先填写申请表认证成为WDS会员,同意“WDS数据共享原则”后,根据会员级别,再申请CTS认证。
(3)RatSWD认证的41个RDR均来自德国,主要强调社会科学领域的研究数据管理,为研究数据基础设施提供质量保证。获得RatSWD认证必须满足数据可访问路径、数据详细文档、数据长期可用性三个强制性标准[3]。RatSWD认证与DINI认证一样,都是德国特有认证。
(4)CLARIN B有27个RDR获得认证,认证成功后,可通过艺术与人文数字研究基础设施欧洲研究基础设施联盟(CLARIN ERIC)的中心程序评估获得CLARIN B证书,该认证方式的前提是完成或至少已启动了CTS认证程序。
(5)数据批准印章DSA包含16条指导方针,验证有关数字数据的创建、存储、使用和重用的质量方面。
(6)DINI正式认证基于DIN 31644或ISO 16363认证。德国网络信息倡议DINI证书是开放获取出版服务标准化的重要工具,加强开放获取出版格式,改善出版基础设施。RDR满足DINI认证最低标准要求才能获得DINI证书。
(7)从CTS认证再到扩展级别认证(DIN 31644)和正式级别认证(ISO 16363),认证复杂度和深度越来越高。德国数字资源长期存储与可访问性网络Nestor Seal印章,正是基于DIN 31644的扩展认证规范,程序比自我评估复杂。正式级别ISO 16363认证则是由国际标准化组织ISO颁发认证证书。ISO/DIN标准每五年审查一次,CTS认证每三年审查一次。
从以上RDR认证机制的基本情况来看,各种认证方式的标准内容、认证的范围和评估强度都不同。认证强调的侧重点不同,不同RDR会选择不同的认证方式。这些认证机制的级别,分别从简单自我评估,到经过合理检查的自我评估,再到外部专家审核;从核心认证、扩展认证、再到正式认证[4],是级别不断升级的认证方式。CTS认证侧重数据保护和安全性,比其他认证方式更广泛、更具便利性,是符合其他认证标准和要求的核心认证体系。
2 CTS认证机制概述
CTS认证是一个国际的非政府和非营利标准认证组织,旨在推动可持续、可信赖的RDR基础设施的发展。CTS认证有16个评估要求,覆盖了组织治理、数据管理以及技术基础设施等三个方面,申请CTS认证的RDR必须达到这些评估要求并提交自我评估报告,对服务和实践进行评估。CTS认证还通过定期审查来反映RDR可信赖特征。
CTS认证的前身是世界数据系统WDS和数据批准印章DSA,之后两者合并形成CTS认证。最初认证机构根据世界数据系统WDS及数据批准印章DSA共同对数据存储库的要求提供核心级别的国际认证,后于2018年开始实行CTS认证,认证审核收取1 000欧元的管理费,2023年管理费增加到3 000欧元,CTS认证成功后可获得认证印章。
2.1 CTS认证版本类型
CTS认证要求每三年修订更新一次,从早期版本CTS(2017—2019)和CTS(2020—2022)更新至最新版本CTS(2023—2025)。不同版本认证的标准内容有所不同,范围也不同。同一版本三年期间也会有文档的修订,认证评估要求在数量、结构和内容三个方面基本保持稳定。每个版本都包括简介、要求、术语表和扩展指南。扩展指南可促进CTS认证审核人员开展审核工作,并为申请认证的RDR提供指导。RDR每三年要依照新版本重新认证。CTS(2023—2025)最新版本于2023年初发布,认证框架没有太大变化,但具体类别要求发生了变化,比如R3“服务持久性”代替CTS(2020—2022)版本的R3“访问持久性”。
2.2 CTS (2023—2025)认证16项评估要求
CTS认证16项评估要求,具有强制性且是独立要素。如表1所示,最新版本CTS(2023—2025)[5]要求分为三个类别,分别是组织治理(R1—R6)、数据管理(R7—R13)、技术基础设施(R14—R16)三个部分,每项要求的权重相同。
3 高校图书馆RDR获得CTS认证的流程
RDR满足评估标准要求,并获CTS认证后,即可加入全球可信数据存储库组织。CTS认证每个标准要求都有指导文本,指导文本中详细规定了申请者必须提供答复声明和证据,以用来客观审查。已有多国RDR申请并获得CTS认证[6],如美国俄勒冈州立大学机构知识库、德国的地球与环境科学数据存储库、荷兰的4TU.ResearchData、芬兰社会科学数据档案等。我国获得CTS认证的RDR有2个,分别是国家空间科学数据中心(National Space Science Data Center,NSSDC)和中国医学科学院医学信息研究所的国家人口健康科学数据中心数据仓储(Population Health Data Archive,PHDA)。
本文挑选出5个由高校图书馆主管的获得CTS认证的RDR作为案例(见表2),这些RDR不仅存储视频、表格、代码、图像等形式的研究数据、演示文稿,也存储出版物、会议记录、书籍章节、专著、论文等研究文献,所有形式的研究成果都在CTS认证范围内。
深入理解16项要求是获得CTS认证的基础。高校图书馆首先进行自我评估,根据数据政策与指南完成评估文本,然后提交申请。再由专家评审并进行同行评审,专家负责进行更正、补充和最终认证。审查修改后的申请提交给CTS委员会完成审查与批准流程。最后,CTS认证评估报告文本被公开发布在RDR主页上。这个过程共同保证了研究数据来自可信赖的数据存储库。
(1)自我评估。高校图书馆作为CTS认证申请者,对RDR的服务和实践提供认证证据。CTS认证申请从具体评估要求出发,起草内容包括数据描述、基础设施、互操作性、可持续性和保存等。R1—R16要求都是强制而独立的评估要素。自我评估要逐条对照16项评估要求,对政策、内部程序和文件等进行详细评估,并根据指引进行实质性的服务改进。高校图书馆形成自我评估申请草稿,提交申请以便进行客观审查。
(2)制定研究数据政策与指南。本文选取的5所高校图书馆作为RDR主管部门,都制定了本土化的研究数据管理政策。比如2015年俄勒冈大学图书馆首次制定数据保存政策,并于2019年和2022年进行了修订;南洋理工大学图书馆在RDR主页与用户指南上进行政策描述;代尔夫特理工大学图书馆分别从数据收集、文件格式、存储格式、元数据审核指南等细分角度制定了描述文件,并单独设置政策与准则页面;剑桥大学图书馆也单独设置了数据存储政策页面;卑尔根大学图书馆研究支持部门不仅进行数据存储库的政策实施,还负责软件维护。从CTS认证角度来看,RDR是研究数据成果的推动者和传播者,必须确保研究数据存储与发布的可靠性。CTS认证的16项评估要求中有几项关于“数据质量”的要求,最突出的是“R10质量保证”,解决了RDR技术与标准的合规性问题。数据存储的过程对CTS认证评估流程提出了要求,包括确保合适的流程、人员、基础设施等内容。研究可见,5所高校图书馆均致力于加强数据审核与指导工作,为科研人员提供详尽的数据存储指南,明确数据馆员的角色与职责,特别是研究数据在安全性、真实性和完整性方面的要求。同时,研究人员在进行数据存储时也要遵守高校图书馆的存储政策。
(3)专家审查。在RDR进行CTS认证过程中,高校图书馆参与服务和实践的自我评估,并为申请提供支撑证据,这些支撑证据由两位审查专家核实。针对每项评估要求的自我评估,经过专家初审与二审及同行评审,形成CTS认证评估报告。每项评估要求按照0—4分值打分,0分代表不适用,1代表还没考虑到,2代表有一个理论概念,3代表处于实施阶段,4代表已完全实施。CTS认证规定每项评估要求的分值最低达到3分,两位评审专家都同意后才可通过申请,如果有审查专家不同意则由第三位专家进行审查。经上述审查修改后再次提交申请,并完成最后认证流程。CTS认证自授予之日起,有效期是三年,同时通过管理工具在线申请获得认证印章。
4 高校图书馆建立可信赖CTS认证的路径与策略
高校图书馆提供可信赖且可持续的RDR平台,用于发布、长期存储研究数据。认证作为一种可信赖标志,一方面可以提高研究人员成果的外部可见性、可信性和吸引力,提升RDR国内与国际知名度,另一方面可以提高RDR内部规范合法性。RDR根据自身需求、意愿和能力,选择适合自身的认证类型,以推动其专业化和可信度。欧盟委员会在地平线2020《FAIR数据管理指南》(Guidelines on FAIR Data Management in Horizon 2020)中指出,优先考虑获得认证的RDR[7]。CTS认证作为被RDR选择最多的认证方式,主管RDR的高校图书馆对其认证的路径与策略进行研究很有必要。
4.1 制定RDR规定与政策
高校图书馆在制定RDR的规定与政策方面,需要明确研究数据的相关规定,以及存储与发布规则。高校图书馆要构建政策文档是一项耗时的准备工作,但政策文档也是审查与提交认证申请流程的重要部分。CTS认证流程透明自主,是一个持续的需要不断实施政策的过程。高校图书馆向CTS提交认证申请之前,需要提供与认证流程相关的帮助和指导,以及对RDR自我评估的反馈。在对国际科研数据政策的剖析中发现,不同利益相关者在政策中发挥不同的职责[8],高校图书馆承担着组织者、管理者与服务者的角色,负责管理RDR,保证研究数据的长期可用性。高校图书馆建立一个可信赖的RDR平台,利用CTS认证过程,提供规范政策或文件形式的要求,提供技术平台、研究数据管理与共享服务等,致力于数据易于查找和长期访问。明确的文档记录、政策制定可以为机构组织带来巨大的附加价值,将一些隐性知识变成显性知识,这些都能成为高校图书馆提升科研支持服务的重要窗口。
4.2 增强研究数据共享意识
随着学术交流环境的不断发展,出版商和资助机构越来越重视开放共享研究数据。共享数据的前提条件是将研究数据长期存储在可信赖的RDR中。信任是存储和共享数据的基础,认证可以确保数据存储库的可靠性和持久性,从而保证很长一段时间内的数据共享。
高校图书馆作为RDR主管部门,一方面,吸引研究人员将研究数据存储在RDR变得至关重要;另一方面,开放共享研究数据也会提高第三方资金资助的机会。应该积极鼓励和支持RDR获得CTS认证,为高校图书馆的研究数据管理提供动力,开拓新视角。对于研究人员来说,他们往往缺少对高校图书馆RDR的了解和信任,高校图书馆可以通过发布研究数据政策与指南,建立数据素养教育与典型案例,提供讲座培训课程等途径,提高研究人员对RDR平台数据发布与共享方式的认识。研究人员数据共享意识一旦提高,就会考虑选择经过认证的可信赖RDR,确保他们数据存储的可靠访问。
4.3 加强研究数据质量管理
高校图书馆应加强研究数据质量管理,建立标准化和长期保存的质量控制体系。定期开展RDR评估与认证,有利于提高数据质量。高校图书馆具有数据质量管理的优势,可以为机构知识库提供研究数据服务,存储学位论文、期刊论文、会议论文等出版物,还能为高校数据集提供存储和访问解决方案。RDR数据质量保证涉及多项活动[9]:数据评估、为确保数据满足标准而采取的行动、记录措施所达到的要求和质量水平等。高校图书馆通过设置数据馆员岗位,审查数据集,确保数据集得到详尽地描述、组织和格式化,确保RDR数据集的充分描述与组织,这些数据质量管理措施可以增强科研人员数据存储信任。为了建立一个可信数据存储库,RDR通过申请多种国际认证,其申请状态会有所差异。CTS认证作为核心基础认证框架,是RDR申请其他认证的基础。RDR通过获得认证来促进信任和质量保证,同时提高了声誉。获得认证的RDR证明其评估后的可信度,最终可能会形成质量标准,并促进统一标准的建立。高校图书馆对照认证标准来改进与评估自己,反之,也会促进标准的建立。
参考文献:
[1] RECKER J,HELBIG K,NEUMANN J. Zertifizierung von forschungsdatenrepositorien: wege, praxiserfahrungen und perspektiven: 10.workshop der DINI/nestor-AG forschungsdaten[J].Bausteine Forschungsdatenmanagement,2020(2):97-105.
[2] re3data.org[EB/OL].[2023-10-10].https://www.re3data.org/.
[3] LIN D,CRABTREE J,DILLO I, et al.The TRUST principles for digital repositories[J].Scientific Data,2020,7(1):144.
[4] 吴振新.数字资源长期保存可信赖认证研究发展综述[J].中国图书馆学报, 2015,41(3):114-126.
[5] CoreTrustSeal requirements 2023—2025[EB/OL].[2024-01-20].https://zenodo.org/records/7051012.
[6] Current CoreTrustSeal certified data repositories[EB/OL].[2024-03-10].https://amt.coretrustseal.org/certificates.
[7] Guidelines on data management in horizon 2020[EB/OL].[2024-02-21].https://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_pilot/h2020-hi-oa-data-mgt_en.pdf.
[8] 秦顺,戴柏清.国际科研数据政策导向解析[J].图书情报工作,2022,66(13):48-60.
[9] KINDLING M,STRECKER D.Data quality assurance at research data repositories[J].Data Science Journal,2022,21(18):1-17.