基础医学科学数据汇交管理及数据特征

2022-05-16 05:07王雪艳井艳玲赵爱芳
基础医学与临床 2022年5期
关键词:基础医学字节数据管理

王雪艳,井艳玲,赵爱芳

(中国医学科学院基础医学研究所 北京协和医学院基础学院 科技处,北京100005)

2018年4月中华人民共和国国务院发布实施了《科学数据管理办法》。2020年度是十三五期间各类项目结题验收关键节点,各级科技计划(专项、基金等)管理部门已经建立起“先汇交科学数据、再验收科技计划项目”的机制,数据汇交成为项目依托单位开展项目结题验收中一项新的工作挑战。本文是基础医学研究领域科学数据汇交工作全流程归纳与具体情况的回顾。通过对科学数据字节大小、件数、类型分析,为相关领域研究过程中科学数据整理、加工和汇交工作提供参考和依据。

1 科学数据汇交工作实施

根据国家《科学数据管理办法》,科学数据汇交包含一系列工作内容和工作流程,科学数据汇交通用流程管理包括科学数据定义、科学数据汇交管理机制、科学数据开放共享载体、科学数据汇交凭证等内容。

1.1 科学数据定义

科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、 应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。

1.2 科学数据汇交管理机制

政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据,应由项目牵头单位汇交到国家科学数据中心平台。2021年3月有关部门发布了《科技计划形成的科学数据汇交技术与管理规范》(GB/T 39912-2021),该文件是数据汇交工作的重要指导性细则,具体规定了科技计划形成的科学数据汇交的原则、管理的主体与职责、主要内容及流程。目前多为探索性工作,尚未形成统一的体系和机制[1]。

1.3 科学数据载体

国家科学数据中心负责开展数据接收、审核与开放共享,是促进科学数据开放共享的重要载体,具体包括“国家人口健康科学数据中心”等20个不同领域的国家科技资源共享服务平台。

1.4 科学数据汇交凭证

科学数据应由项目牵头单位(依托单位)汇交到指定的国家科学数据中心,接收数据的科学数据中心应出具“项目科学数据汇交验收证明”,简称汇交凭证。数据汇交凭证已经成为项目验收考核的必要条件。科学数据汇交国家数据中心后,一般情况下对外进行开放共享。

2 科学数据标准规范建设

标准和规范是科学数据的质量保证,也是科学数据资源的控制体系。

2.1 标准化是科学数据共享的前提

充分开发利用科学数据资源是提高国家科技创新能力和国际竞争力的重要手段和战略措施。科学数据共享开放是一项跨学科研究领域、大型综合科学数据基础设施建设工程。科学数据的标准体系分为3个层面:指导标准、通用标准和专用标准。分类与编码标准是科学数据分类与编码时需要遵守的指定规则;数据内容标准用于数据的规范化改造、建库、共享以及应用[2]。

2.2 数据标准体系规范建设

科技管理部门制定数据汇交的标准和规范,并不断修订完善。2021年3月部门发布了相关标准,如《科技计划形成的科学数据汇交通用数据元》(GB/T 39909-2021)规定了科技计划形成的科学数据汇交通用数据元描述规范和数据元目录;《科技计划形成的科学数据汇交通用代码集》(GB/T 39908-2021)规定了科技计划形成的科学数据汇交工作涉及的通用代码集。如国家平台建立了人口健康科学数据管理标准规范[3],数据标准规范也是项目组、依托单位制备数据的重要依据。

2.3 数据管理责任主体

规范管理科学数据是项目依托单位的重要职责,项目组是科学数据产生的主体,科研院所、高校等依托单位成为项目管理、数据管理的主要环节,落实科学数据管理是加强单位法人责任的重要工作。依托单位制定具体的数据管理办法和实施细则,包含了本单位数据管理主要方案、操作流程、各方职责及特殊情况,依托单位规范化管理科学数据能够进一步加强加快数据资源整合与应用。

3 科学数据汇交内容

3.1 依托单位是数据提交方

依托单位及项目组作为数据生产者,按照科技计划管理部门要求,根据任务计划书中研究内容和项目具体实施情况,编制科学数据汇交计划、明确汇交清单、提出质量控制方法、科学数据公开时间、科学数据共享方式等内容。

3.2 编制汇交计划

数据汇交计划具体内容一般包括项目基本信息、科学数据概述、科学数据资源清单、科学数据的质量控制说明(包括计划汇交的科学数据清单、科学数据质控说明)、科学数据的软件工具说明、科学数据的使用原则、科学数据的共享方式、科学数据的汇交技术方案、其他补充说明等8个部分。

3.3 科学数据制备

3.3.1 科学数据实体:项目组形成的原始数据、基于原始数据或研究分析数据所形成的数据库或数据文件,具体包括原始数据、数据库(包括表格)、数据文件(包括文档、图片、视频)。

3.3.2 科学数据描述信息:是指描述信息、数据说明文档及过程资料,例如元数据从属的项目、数据来源、数据介绍、数据使用与服务等与数据相关的信息;适用时,还包括伦理、人遗、关联文献、数据标准、数据字典等相关资料。

3.3.3 科学数据辅助工具:是指项目形成的用于科学数据处理、加工和分析的专门辅助软件工具等,例如包括软件工具本身、附属信息、使用说明等内容。

4 科学数据汇交审核

根据数据汇交管理文件指导内容,汇交工作有相对固定的流程(图1),汇交计划模板由国家数据平台提供,项目组编制完成后提交平台审核。

图1 数据汇交工作流程图Fig 1 Data collection work flow chart

5 基础医学领域特点

中国医学科学院基础医学研究所是国内公益性基础研究科研院所,承担国家科技计划的重大或重要科学研究任务,作为项目依托单位,以基础医学研究领域为主,与临床问题紧密结合,普遍与医院合作共同承担重大科学研究任务。研究学科领域包括组胚与解剖学、病理生理学、病理学、生理学、细胞生物学、生物物理及结构生物学、免疫学、医学遗传学、生物医学工程学、医学微生物及寄生虫学、流行病及统计学、药理学等基础医学及交叉学科。从近年承担的重大研究任务所属领域分析,主要集中在肿瘤学、免疫学、发育生物学、心脑血管发病机制、呼吸系统疾病防治、神经科学、遗传学等基础、前沿领域。作为项目依托单位,每年承担项目数大于100项。

6 基础医学领域科学数据特征分析

6.1 项目与数据基本情况

以中国医学科学院基础医学研究所承担的某一类科技计划为例,对2020年结题项目科学数据进行初步分析。该批次项目数据汇交工作是本研究所首次全面系统地开展科学数据工作。

根据项目结题验收工作安排,本批次共有29个项目有效开展数据汇交工作,项目经费类型属于重大级,项目执行周期为1~5年不等,本批次汇交数据总件数861件,数据字节(Byte),其中MB、GB、TB是数据单位,即MegaByte兆字节、GigaByte千兆字节、TerByte万亿字节。大小范围分布在1.49 MB~12.58T B。

6.2 项目所属研究领域

根据项目研究内容、研究任务及考核指标分析,并参考国家自然科学基金申请代码列表,将项目研究领域划分为队列研究、免疫学、肿瘤学、呼吸系统、生物信息学、实验技术建设、医学遗传学、表观遗传学、儿童科学、干细胞研究、纳米医学、能量代谢、神经科学、生殖学、心脑血管、血液系统、医学数据资源、运动系统、诊断医学等19个专业研究领域(图2)。

图2 项目研究领域分布Fig 2 Distribution of project research areas

6.3 项目科学数据件数

根据29个项目所提交的汇交计划文本和汇交凭证信息,对每个项目汇交数据件数进行汇总与统计分析,汇交数据总计861件,平均每个项目汇交29.7件(图3)。汇交计划文本由项目组填写制定,汇交凭证是国家数据中心出具文件。

6.4 项目数据类型

根据管理规范及数据标准,数据类型主要分为7个类型:基础数据、标准规范、报告、图集图谱、专著、实物信息、其他。而基础医学领域研究试图从分子、细胞、组织、器官到整体水平,从基础到临床,以系统整合生物学的思维方式及可能的方法,探讨疾病发生、发展的规律,作者根据本领域的实验研究特点,把基础数据细分为实验分析数据和基因测序数据,对29个项目861件数据类型进行了汇总(图4)。分析表明基础医学领域研究中,实验分析类的基础数据件数最多,占整体数据的54.5%。

6.5 科学数据字节大小与数据类型有关

根据数据汇交信息总表,不同项目数据量字节大小范围分为TB/GB/MB 3个级别,分析发现项目数据字节大小与是否有“基因测序”类型数据密切相关(表1)。进一步分析表明,如果项目研究产生基因测序型数据件数增加,那么汇交数据大小将成几何级增加(表2),这提示项目管理人员、科研人员在数据制备期间做好相应准备工作。

7 小结

科学数据是开展科学研究和创新发现的重要、基础性战略资源,根据国务院管理办法规定,对国家财政资金资助的各类项目所形成的科学数据进行汇交是依托单位、项目负责人的责任义务,科学数据汇交工作已成为科学研究的重要环节,也对科研人员提出了新挑战。随着国家科学数据管理工作快速实施与推进, 为了让科研人员尽快适应科学数据管理要求,建议国家数据平台、依托单位要重视项目数据管理与汇交的培训工作[4]。科研人员具备科学数据管理能力,不但能够提高数据汇交工作效率,促进科学数据资源开放共享,也能提高对科技创新的支撑能力。

图3 29个项目科学数据件数Fig 3 Numbers of scientific data items of 29 projects

图4 项目科学数据总量的类型分布Fig 4 Type distribution of total project scientific data

表1 科学数据字节大小分布Table 1 Volume distribution of scientific data

表2 科学数据字节大小与“基因测序”类型数据关系

猜你喜欢
基础医学字节数据管理
广西医科大学基础医学一流学科建设成效
No.11 字节跳动计划自研芯片:仅供内部使用
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
No.8 字节跳动将推出独立出口电商APP
航发叶片工艺文件数据管理技术研究
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
基础医学实践教学的改革与思考
网络考试系统在基础医学综合考试中应用探究