基于科学数据管理流程的科研机构职责分析

2020-02-24 06:24黄源施栩婕李晨英
数字图书馆论坛 2020年1期
关键词:科研机构数据管理科研人员

黄源 施栩婕 李晨英

(中国农业大学图书馆,北京 100193)

科学数据既是科学研究成果的重要组成部分,又是激发新的科研创造所必需的原始材料,更是数据驱动研究范式下促进科学发展的重要因素。随着开放科学运动的发展,开放数据和科学数据管理在世界范围被高度重视[1]。2018年3月17日国务院印发《科学数据管理办法》(以下简称《办法》)[2],强调高等院校、科研院所等法人单位是科学数据管理的责任主体,在本机构部署科学数据管理与服务体系是我国科研机构的重要责任和迫切任务[3]。截至2019年6月,2019 US.News全球大学排名前100的大学中有87所大学已经开展了不同程度的数据管理工作,但国内仅北京大学、复旦大学、武汉大学等少数高校开展了科学数据管理工作[4],科学数据管理与服务体系构建仍处于摸索阶段。为贯彻落实《办法》,进一步提升我国科学数据管理与共享水平,科研机构在其中发挥着重要作用,其作用涉及数据收集、加工、保存等数据管理各阶段[2],因此,有必要基于科学数据管理流程深入分析并归纳总结科研机构在科学数据管理过程中的职责,以为国内科研机构开展和部署科学数据管理与服务体系提供参考。

1 科研机构与科研资助机构在科学数据管理中的关系

科研机构是高等院校、研究院所等法人单位的统称,既是科学数据的主要产生地,也是科学数据的重要使用场所[5]。《办法》将科研机构定义为科学数据管理的责任主体,对本机构科研人员产生的科学数据负有管理义务。科技计划(专项、基金等)项目产生的科学数据由承担项目的科研机构进行统一管理并向资助机构汇交,强调科研机构应贯彻落实资助机构对科学数据管理的要求[2]。

同时,国内外学者研究表明,科研资助机构数据政策是促进科学数据管理的重要因素,指导科研机构的科学数据管理实践进展是科研机构管理科学数据的过程中需要完成的任务与目标。崔雁[6]从数据存储和政策内容两个维度分析国外科研资助机构的数据政策,认为科研资助机构作为科研项目的主要资助主体,在引导科研机构开展科学数据管理工作方面起着至关重要的作用。Jones[7]提出科研机构应积极应对资助机构要求,应构建基础设施、增强研究评估并创建数据管理最佳实践。陈大庆[8]认为科研机构应遵守资助机构政策要求,辅助科研人员制订科学数据管理计划并进行数字保存。张瑶等[9]在分析国外资助机构政策内容的基础上,认为科研资助机构的科学数据政策不仅指导科研机构开展科学数据管理工作,还总结科研机构的实施经验。Pink[10]有针对性地调研了英国巴斯大学为满足其主要资助机构,英国工程与物理研究理事会(UK Engineering and Physical Sciences Research Council,EPSRC)的科学数据管理政策要求而采取的措施,认为科研机构需完成的科学数据管理基础任务即为科研资助机构的政策要求。黄国斌等[11]认为科研机构的科学数据管理不仅应重视资助机构政策中的共享要求,而且应满足数据管理过程中每一个阶段的要求。因此,本研究主要基于国际科研资助机构科学数据政策,系统地解析科研机构贯穿数据生命周期的管理职责。

2 研究思路与方法

以科学数据生命周期理论为基础,对比分析不同生命周期模型划分的管理阶段[12],发现各模型中均包含数据管理流程的5个核心环节,即数据计划、数据收集、数据加工、数据长期保存、数据共享利用。本研究基于这5个核心环节,深入剖析科研资助机构的数据政策在每一环节中的客观要求(或目标),然后针对每一环节目标系统地解析科研机构职责。为此,首先利用资助者开放获取政策数据库Sherpa Juliet[13]调研科研资助机构的数据政策,截至2019年6月,SHERPA登记了26个国家与地区的共计162个科研资助机构的开放获取政策。其中已有64个科研资助机构对科学数据提出不同程度的要求,提出鼓励性建议的有22个机构,制定强制性政策的有42个机构。其国家分布如图1所示。

图1 制定科学数据政策的科研机构所属国家分布状况

对登记的42个科研资助机构制定的强制性数据政策进行整理,剔除同一机构修订的政策及机构合并产生的政策变更等情况,共计37个机构制定科学数据政策。然后,依次进入37个国际科研资助机构官网获取政策文本,并结合英国数据监管中心(Digital Curation Centre,DCC)总结的11个资助机构数据政策要素对收集到的37个政策完整性进行评估[14],最终选取12个较为完善的国际科研资助机构政策作为研究对象,如表1所示。

3 科研机构在科学数据管理流程中的目标分析

3.1 数据计划

科研机构在数据计划阶段应向资助机构提交符合要求的科学数据管理与共享计划,并严格按照计划内容进行数据管理。本研究调研的12个科研资助机构均要求科研人员在项目申请时提交科学数据管理计划,将科学数据管理计划作为项目申请书的一部分。虽然每个机构的计划主题内容存在差异,但基本核心内容均包括:①数据共享权限与方法;②使用的元数据标准、格式;③数据保存方法、时段,以及所需的设备或基础设施;④预期得到的数据类型、格式;⑤如何保证数据长期开放存取;⑥数据管理的角色和职责。NSF、NASA明确提出要以审核项目进展报告的形式监督科学数据管理计划的执行。ESRC提出受资助者所属机构,即科研机构应承担其监督受资助者执行计划的责任。

表1 较完善的国际科研资助机构科学数据政策概况

3.2 数据收集

科研机构在数据收集阶段应对项目产生数据及其辅助信息进行采集并在规定时间内向资助机构统一汇交,还应对对数据质量承担责任,保证数据真实、完整。本研究调研的12个科研资助机构均要求在规定时间内(项目结束后2个月到2年不等)提交机构资助项目产生的科学数据。其中,NIH、NASA等10个机构要求提交最终数据,即被记录的事实对象,不包括实验室笔记本、部分数据集、初步分析、科学论文草稿、未来研究计划、同行评审报告,以及与同事交流诸如凝胶或实验室标本的物理对象等过程性数据。NSF、NIH、NASA等9个机构明确要求数据背景信息或描述信息应以元数据或数据文档的格式与科学数据集一起提交。其中,NSF要求提交科学数据的派生数据产品和软件,NASA要求提交读取和使用数据所需的软件描述,WT建议提交便于重用的数据格式。大多科研资助机构都要求科研人员自主向指定或推荐的学科或机构数据库提交数据,其中NERC自主建设了数据中心,要求数据中心定期采集科研人员产生的数据。NSF、NASA与ESRC要求受资助者所属机构应对数据进行审核,以保障数据类型格式规范并防止敏感信息泄露。

3.3 数据加工

科研机构在数据加工阶段应对项目数据进行处理加工,生成完善的元数据以保证后期共享利用。本研究调研的机构中NIH、AHRC、BBSRC、CRUK、DFID、ESRC、MRC、STFC 8个机构均要求生成足够的元数据,一方面便于充分理解科学数据;另一方面规范描述语言,便于整理排序。其中,STFC明确要求元数据应包含对数据权限的细节和存取条件等内容的描述;CRUK要求元数据应包含收集数据的方法、变量的定义、度量单位、数据格式、文件类型等。

3.4 数据长期保存

科研机构在数据长期保存阶段应将具有长期保存价值的数据依据资助机构要求保存至推荐位置,并保证数据在保存期限内可读可用。本研究调研的12个机构均要求将科学数据存储至一个开放的学科或机构存储库,其中部分机构指定推荐存储库。如NASA要求将数据存储至PubSpace,AHRC要求将考古数据存储至ADS,NERC要求将数据存储至本机构自建的数据中心。12个机构均对存储时间进行规定,STFC强调不能重新测量的数据(受其自然属性的影响)应当得到永久保存。除保存最终研究数据与元数据外,NSF、NASA以及ESRC要求受资助者所属机构制定数据质量评估标准,鉴定具有长期保存价值的数据进行长期保存,具体如表2所示。

表2 资助机构对数据长期保存的相关要求

3.5 数据共享利用

科研机构在数据共享利用阶段应最大限度的满足科学数据开放共享需求,并规范和监管不良的数据利用行为。本研究调研的12个科研资助机构均要求以研究成果发布为参照,在研究成果发布前或发布后6个月内共享科学数据集及其元数据或数据文档,其中NSF要求共享派生数据产品。多数资助机构要求科研人员自主按要求共享科学数据,由于NERC自建数据存储库,因此由NERC数据中心在合适时间公开数据。NSF、NIH、NASA等9个科研资助机构提到涉及个人信息、商业秘密等敏感数据应受到保护,共享前要取得受试者知情同意并进行匿名化处理。12个机构均提到利用者应规范引用和使用数据,承认数据来源,以规范格式引用数据。此外,NIH等8个机构提到科研人员可根据数据的敏感性、数据集的大小和复杂性以及预期的需求量选择共享方法,如人与人之间的直接共享或上传至开放存储库的间接共享,具体如表3所示。

4 科研机构在科学数据管理流程中的职责解析

科研机构作为科学数据管理的责任主体,其职责贯穿科学数据生命周期的始终,既是管理者又是服务者更是监督者。针对科研机构在科学数据管理各环节的目标,进一步解析其各环节基本职责如图2所示。

4.1 辅助计划制定,监督计划执行

在计划阶段,科研机构辅助科研人员制定符合科研资助机构要求的科学数据管理计划并监督计划的执行。依据不同科研资助机构数据政策的规定,科学数据管理计划有不同的内容要求与格式规范。为提升科研人员制定科学数据管理计划的质量与效率,科研机构应收集并整理不同资助机构要求,设计具有规范性与可操作性的计划模板;聘任专业数据管理人员对科研人员制定计划提供相关培训或个性化咨询服务。科研机构应要求科研人员定期或不定期提交项目进展报告以审核其是否依据计划进行科学数据管理,监督并及时纠正数据生产者的数据管理行为。

表3 资助机构对数据共享与利用的相关要求

图2 科学数据管理流程中科研机构的职责

4.2 明确收集规范,审核数据质量

在收集阶段,科研机构应制定本机构内部科学数据收集规范,包括明确收集对象范围是项目完成后生成的最终数据或项目进行中产生的过程数据;明确收集内容应包含科学数据集本身以及生成数据的背景信息和解释性信息;明确收集数据格式以便于长期可读可用与共享传递;明确收集时间与收集方式,由数据生产者自主提交或由数据管理者定期采集。科研机构应对收集的科学数据进行质量审核,包括通过审核其数据产生信息以判断数据的真实性和准确性,审核数据格式是否适合共享和利用,不依赖于特定软件和硬件环境。

4.3 创建元数据记录,生成数据目录

在加工环节,科研机构应生成足够的元数据以支撑之后的数据检索和理解,并对科学数据进行有效组织、整合,生成便于检索、发现的数据目录。为创建元数据记录、生成数据目录,科研机构应在遵守国家与行业元数据标准的基础上,结合自身应用需求,设计元数据方案,据此对科学数据集进行著录与标引,实现数据分类、数据集成与数据关联,并支撑跨平台数据检索与获取。

4.4 存储与备份数据,保障其更新与维护

在长期保存环节,科研机构应根据资助机构要求制定长期保存规范,基于数据价值判断数据存储时限(如5年、10年、20年等),对特殊的不可再生数据进行永久保存。明确长期保存对象应不仅包括科学数据集,还应包括其元数据、解释性数据文档、派生的数据产品以及软件等。科研机构为保障数据长期可读、可用,将科学数据转换至最佳格式并迁移至最佳媒介,进行数据备份,并进行日常的维护与更新。

4.5 保护数据版权,规范引用行为

在共享利用环节,科研机构一方面要最大程度地使数据使用者的数据发现和利用过程简单化、便利化;另一方面要保障数据生产者的知识产权,规范数据使用者的数据利用行为。科研机构应鼓励数据生产者出版或公开发布科学数据及其元数据,但同时保护涉及个人隐私、商业秘密等敏感性数据,在出版前对其进行匿名化处理。科研机构应在分析科学数据使用者行为的基础上,为本机构科学数据管理平台设计用户友好化和多样化的数据发现与数据获取功能,如高级检索功能、数据推荐功能、在线浏览功能、数据分析与可视化功能等。科研机构应通过开设通识课程或系列讲座的方式提升本机构科研人员的数据素养,提升其数据获取能力的同时也提升其规范引用数据的意识,以规范的格式引用数据、合法的方式利用数据。

5 结语

科研资助机构的科学数据政策定义了科研机构在科学数据管理流程的计划、收集、加工、长期保存、共享利用各阶段的基础职责与任务,包括辅助科研人员制定符合资助机构要求的数据管理计划,并监督计划执行;明确数据收集规范,审核收集到的数据质量;为科学数据创建完善的元数据记录,并据此分类整序,生成数据目录;存储与备份科学数据,保障其更新与维护;保护数据版权,规范数据使用者引用行为。科研机构作为科学数据管理的责任主体,明确自身职责与任务对规范和推动本机构乃至国家层面的科学数据管理与共享都具有重要意义。因此,明晰科研机构在科学数据管理流程中的任务是现阶段推动我国科学数据管理与共享发展的突破口。我国科研机构可以以此作为依据和参考,部署和完善本机构的科学数据管理体系,推动我国科研机构科学数据管理与共享的实践进展。

猜你喜欢
科研机构数据管理科研人员
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
企业级BOM数据管理概要
科研人员揭示油桃果实表皮不长毛的奥秘
定制化汽车制造的数据管理分析
科研人员破译黑猪肉特征风味物质
吉林省加快发展新型科研机构的综合思考
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
逆行者的武汉
我国科研人员揭秘银杏古树长寿机制