计量科学领域科技项目数据汇交管理研究

2021-09-01 01:08:50李大博杨智君卢祝华卜天佳赵天琦
中国科技资源导刊 2021年4期
关键词:数据管理数据中心计量

陈 军 李大博 杨智君 卢祝华 卜天佳 赵天琦 陶 毅 杨 帆 苏 爽

(1.中国计量科学研究院,北京 100029;2.中国计量大学,浙江杭州 310018;3.中国计量科学研究院国家计量科学数据中心,北京 100029)

0 引言

科学数据形成于科技创新活动的全过程,包括基础研究、应用研究、试验开发等过程中产生的数据,以及通过观测监测、考察调查、检验检测等方式取得的用于科学研究活动的原始数据及其衍生数据[1],是各国竞相争夺的重要基础性战略资源。随着信息社会的发展,科技创新越来越依赖于大量、系统、高可信度的科学数据。2018年12月,科技部印发了《国家重点研发计划项目综合绩效评价工作规范(试行)》[2],科学数据汇交成为项目综合绩效评价阶段一项必不可少的重要内容。

目前,“十三五”期间启动实施的69 个国家重点研发计划重点专项陆续进入收官阶段,即将有大批量的项目面临集中开展综合绩效评价。如何科学有效地描述、保存和汇交众多项目产出的数据成果成为关注的焦点。本文将以计量领域科研项目为研究对象,从项目承担单位的视角,结合管理工作实践,介绍了项目数据类型、汇交流程和信息系统设计,并对优化汇交管理提出了建议。

1 国内外数据汇交现状

1.1 国外科学数据汇交现状

国外发达国家的科学数据汇交工作起步较早。美国最早于1966年颁布实施的《信息自由法》是科学数据管理共享的法律基础[3-4]。美国卫生部、能源部与国家科学基金委员会(NSF)于1971年创建了最早的数字数据馆藏——蛋白质数据银行(PDB)。1995年,英国经济和社会研究委员会出台了数据管理计划,要求在对其资助产生的科学数据进行管理与保存的基础上,做到最大程度地对外共享[5]。1997年,国际科学联合会(ICSU)成立了数据与信息特别任务组,围绕科学数据共享及数据库权益保护,从科技、法律等角度提出了多项建议[6],推动了科学数据资源免费共享、跨界流动和可重复利用。

目前,国际上以美国NSF、航空航天局(NASA)、英国研究理事会(RCUK)等为代表的科技计划项目管理机构,均对数据汇交提出了明确要求[7]。美国NSF要求科研项目必须开展数据汇交,指定Dyrad作为汇交平台,并要求数据完成后即可汇交,鼓励多年度项目逐年汇交[8-9]。NASA要求所有地球科学任务、项目需通过制定数据管理计划书来明确科学数据共享内容[10]。RCUK要求其项目资助所产生的论文必须在发表后6 个月内完成论文中科学数据的汇交[11]。作为数据汇交的配套设施,国外大量科学数据管理机构已建成,包括美国国家级数据中心群、德国PANGAEA数据中心、日本世界温室气体数据中心、加拿大GeoBase数据中心以及法国斯特拉斯堡天文数据中心等。

1.2 国内科学数据汇交现状

我国于2001年启动了“科学数据共享工程”项目。2007年,鉴于科学数据的重要作用和使用价值,国家修订了《中华人民共和国科学技术进步法》,明确提出要建立科学技术数据信息系统。2018年,国务院印发了《科学数据管理办法》,要求“政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据,应由项目牵头单位汇交到相关科学数据中心,各级科技计划(专项、基金等)管理部门应建立先汇交科学数据再验收科技计划(专项、基金等)项目的机制”[1]。2019年,科技部出台了科技计划项目科学数据汇交相关工作方案,进一步明确了项目数据汇交的内容、流程及管理要求。

经过近20年来的发展,我国在科学数据汇交与共享管理领域取得了显著的进步。科技部、自然科学基金委员会、中国科学院等部门通过多方探索,已经汇交整合了一大批科学数据资源[12]。如截至2019年年底,科技部973 计划资源环境领域相关项目(自2008年以来)已汇交了科学数据集近2 000 个[13];科技基础性工作专项(自1999年以来)已完成科学数据汇交项目331 个[12];中国科学院通过汇交已整合全院50 家单位的科学数据[12]。自2018年《科学数据管理办法》发布后,科学数据汇交工作正式纳入各级科技计划项目的实施过程,其涉及项目之多、覆盖范围之广前所未有。与此同时,科技部、财政部对国家科技资源共享服务平台开展优化调整,成立了国家高能物理科学数据中心、国家计量科学数据中心等20 个国家科学数据中心。截至目前,根据国家重点研发计划项目管理要求,部分项目已按程序向相关数据中心提交科学数据,完成了汇交工作。

为规范科学数据汇交工作,促进数据共享和开发利用,国内行业部门和科研机构也相继研究出台了相关举措。2019年,中国科学院印发了《中国科学院科学数据管理与开放共享办法(试行)》,进一步明确了中国科学院科学数据管理与开放共享的总体原则、职责分工、管理要求、保障机制及安全保密等方面的内容,提出科研项目数据汇交的要求,并加强了科研论文关联数据汇交管理。2020年,中国气象局印发了《气象数据管理办法(试行)》,对气象部门组织开展的气象数据收集汇交、加工处理、保存使用、共享服务、安全监管等工作进行规定,明确提出通过观测监测、考察调查、收集交换、科学研究等方式获得的大气和空间天气科学技术领域的数字、文字、符号、图片、视频和音频等均属于气象数据。

2 计量科研项目数据汇交管理内容与流程

“十三五”期间,科技部部署了国家重点研发计划重点专项67 个、立项项目6 000 余项,科学数据汇交管理研究成为项目牵头单位关注的焦点。中国计量科学研究院(简称“中国计量院”)承担了多项国家重点研发计划重点专项项目。结合自身承担项目的体会,对项目数据汇交组织管理进行一系列探索性研究和实践。

2.1 科学数据汇交内容

科学数据汇交包括项目实施过程中产生的科学数据实体、科学数据描述信息和科学数据辅助工具软件。计量是测量的科学,是实现单位统一和量值准确可靠的活动。计量科研项目(简称“计量项目”)有其自身的研究特点,重点关注计量基标准装置、国家标准物质、国家测量和校准能力、国际比对等方面的研究。为此,梳理计量项目成果类型和考核指标,结合计量科学数据特点,提出了如下数据汇交内容。

2.1.1 科学数据实体

计量科学数据实体与计量项目的研究内容、考核指标以及项目成果类型紧密相关。中国计量院承担的“国家质量基础的共性技术研究与应用”重点专项项目产出的成果类型共27 类,考核指标涉及成果达2 694 项。这些成果在形成过程中,均会产生大量的科学数据,成为计量科学数据实体的重要组成部分(表1)。在表1中,比对的相关关键数据主要包括比对方案及相关数据、比对报告及相关数据、参加比对的数据、比对结果及其不确定度分析报告等;标准物质的相关关键数据主要包括标准物质研制报告及相关数据、研制的过程数据、标准物质技术指标等。

表1 计量项目科学数据实体

2.1.2 科学数据描述信息

计量科学数据描述信息包括项目基本信息、数据集元数据、数据说明文件3 个部分。项目数据汇交工作是以项目为单元开展的,项目的基本信息是数据描述信息的一部分,是补充数据间关联的纽带;数据集元数据包含数据集名称、编号、关键词、数据相关成果类型、数据类型、数据格式、数据共享方式等,用于数据共享发布后用户能够快速搜索发现并了解数据集的基本情况。如对于计量项目的标准物质数据,用户通过数据集元数据进行检索时,可以查看到标准物质的种类、纯度等基本信息;数据说明文件是对数据内容的详细说明,包括数据产生的方式、数据的使用方法等,能够帮助使用者更好地了解和使用数据。

2.1.3 科学数据辅助工具软件

计量科学数据辅助工具软件是专门用于计量科学数据的处理、加工和分析的载体。计量科学研究在时间频率数据处理、化学成分精确测量等方面经常会使用软件系统加以辅助分析。对于项目实施中自主研发的远程时间实时溯源比对专用软件、肽段杂质精确测量与分析专用软件,其软件本身和软件的元数据说明均需汇交。对于项目实施中采购的工具软件,软件本身可不必汇交,但相关软件的开发工具和运行环境等基本信息需要汇交。

2.2 科学数据汇交流程

计量项目科学数据汇交工作涉及科技计划项目管理方(专业机构)、科学数据提交方(项目承担单位)、科学数据管理方(科学数据中心)三方责任主体。在此过程中,我们进一步细化科学数据提交方职责,明确了项目负责人和项目承担单位的双重责任,形成了项目负责人制备数据、承担单位提交数据、数据中心审核数据的汇交模式,具体流程见图1。在项目立项阶段,由项目负责人编制并提交科学数据汇交计划,汇交计划通过审查后,项目负责人遵照数据汇交计划和相关标准规范,并组织下设课题制备科学数据;项目实施期满后,项目负责人编写科技资源汇交方案,并将科学数据提交至数据中心。一方面,数据中心负责对科学数据进行形式审查和质量同行评议,审核通过后出具汇交凭证;另一方面,负责对通过专业机构审批的科学数据进行分类整理、开放共享和维护更新。

3 数据汇交信息系统设计

目前,国家高能物理科学数据中心、国家基因组科学数据中心、国家基础学科公共科学数据中心等数据中心都已建立数据汇交系统并投入使用。在上述流程和需求分析的基础上,我们设计了国家计量科学数据中心数据汇交信息系统。该系统是科学数据管理和开放共享的重要载体,也是项目负责人、项目牵头单位、科学数据中心等各方协调完成数据汇交工作的信息平台。系统设计理念是以人为本,突出资源整合的本质,即共享服务。整体框架包括科学数据资源的收集、整理、分析、共享。为提高数据汇交效率、保证数据汇交质量,对课题负责人及项目负责人精心设计角色权限,让项目的科学数据资源更加融会贯通。该系统具备多维度的数据索引能力,为后续的分析挖掘、综合利用和开放共享工作提供了基础保障。数据汇交信息系统架构详见图2。

4 对项目数据汇交管理工作的建议

4.1 细化落实汇交管理制度

科学数据汇交是国家重点研发计划项目管理的必要环节,数据中心和承担单位首先应从制度层面推进实施。一方面,数据中心应进一步明确项目数据汇交具体要求、强化政策培训宣贯;另一方面,承担单位是科学数据管理的责任主体,需强化法人责任,通过建立健全本单位科学数据相关管理制度,明确单位内部数据汇交各级责任主体的具体职责,规范数据的采集生产、加工整理、安全维护等管理要求,为科学数据汇交工作的顺利开展提供指导。

4.2 科学确立项目数据集分类

项目科学数据集是制定科学数据汇交计划或汇交方案时的重要内容,数据提交方应认真思考如何对其进行科学、合理、准确地分类。鉴于项目数据集结构类型复杂、数据分散性强,项目在采集和制备科学数据时,应针对专业特点,按照研究任务及合理的颗粒度划分数据集。对汇交数据应进行适当筛选,保留核心关键数据,剔除无关冗余数据。数据集分类可邀请项目跟踪责任专家或同行专家研讨把关,从而提高数据的集成化和系统性,为汇交数据的加工整理和查询利用奠定基础。

4.3 采取有效的质量控制措施

图1 计量项目科学数据汇交流程

科学数据的真实准确是进行科学数据汇交的前提条件,项目负责人和课题负责人应对数据的真实性和可靠性负责。在以信任为前提的基础上,承担单位可通过组织相关负责人签订承诺书的方式,对汇交数据质量进行约束。同时,项目(课题)承担单位应探索建立科学数据质量控制体系,通过采取有效的质量控制措施,保证数据的真实性、准确性、可用性和一致性。数据中心可通过对数据质量评议专家进行培训,统一数据质量审核标准,对汇交数据的质量控制提供保障。

4.4 协同推进数据分析与共享

科学数据汇交的最终目的是推动数据的高效利用和广泛共享,项目承担单位要强化目标导向,引导科研人员积极开展科学数据的制备与汇交,持续推进科学数据的分析、增值与共享。一方面,承担单位相关管理部门可在内部及时公布并更新科学数据开放目录,通过对项目成果和数据汇交的综合分析,充分挖掘数据价值,为项目成果成效评估和未来科研决策提供参考;另一方面,可联合国家有关数据中心,推动有价值的科学数据面向全社会广泛共享,扩大计量项目社会影响力。

图2 数据汇交信息系统架构

4.5 重视数据安全与产权保护

科学数据汇交与共享始终要以确保数据安全为前提。在数据生产制备环节,承担单位可将数据制备和提交情况纳入其科研诚信体系,防止数据造假和违规操作行为发生。在数据汇交环节,数据提交方可通过申请数据保护期的方式推迟开放共享,也可通过说明数据共享方式和签署协议的方式对其产权进行保护。在数据完成汇交后,数据管理方可尝试通过建立数据资源唯一标识符机制,要求科学数据使用者在论文发表、专利申请、专著出版等工作中注明参考引用的科学数据,促进科学数据的知识产权保护。

4.6 创新优化汇交管理流程

将数据汇交作为项目综合绩效评价工作的前置条件,从实际操作层面来看,给专业机构和承担单位均带来了较大压力。如在项目负责人提交的综合绩效评价材料中,部分材料如测试报告、科技报告等可能与汇交的科学数据重复提交。考虑到项目数据管理的“新旧有别”,对于《科学数据管理办法》办法出台前立项的重点专项项目,专业机构可在提交数据汇交承诺函后,先行组织开展综合绩效评价工作。在绩效评价工作完成后,项目负责人可对产生的科学数据进行加工整合,汇交真正有价值的关键数据,从而提高管理效能,切实为科技工作者减负。

5 结语

国家重点研发计划项目汇交数据不仅是项目综合绩效评价的重要内容,更是促进国家科技创新和经济社会发展的重要科技战略资源。作为项目承担单位,应积极转变思路,充分认识到科学数据汇交的重要性,积极贯彻落实国家科学数据管理政策,建立项目数据汇交机制,完善科学数据内部管理制度,并注重数据管理专业人才培养和数据汇交硬件条件配套,为科学数据汇交工作顺利开展提供有力保障。此外,应充分挖掘和发挥科学数据的更大价值,促进科学数据的广泛共享,从而为科技创新、经济社会发展和国家安全提供基础支撑。

猜你喜欢
数据管理数据中心计量
酒泉云计算大数据中心
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
《化学分析计量》2020年第6期目次
计测技术(2020年6期)2020-06-09 03:27:32
关注日常 计量幸福
特别健康(2018年4期)2018-07-03 00:38:26
民航绿色云数据中心PUE控制
电子测试(2018年11期)2018-06-26 05:56:24
计量自动化在线损异常中的应用
消费导刊(2017年24期)2018-01-31 01:28:33
基于云计算的交通运输数据中心实现与应用