我国科学数据汇交管理现状及面临的问题

2024-01-14 13:01丁晓芹汤怡洁
科技管理研究 2023年23期
关键词:数据管理数据中心计划

丁晓芹,汤怡洁,徐 雯

(中国科学院武汉文献情报中心/科技大数据湖北省重点实验室,湖北武汉 430071)

科学研究第四范式的提出将数据推向了更高的地位,数据密集型科学正在逐步走进科研领域,科学数据也成为了大数据背景下最为重要的资源。科学数据不再是以往单纯的科技研究成果,而是转变成为科技研究基础,科学研究水平开始依赖于科学数据的持续积累,以及将科学数据转化为科研成果的能力[1]。科学数据成为继物质和能量之后的第三类资源,是重要的科技基础条件和国家战略资源。因此,全方位、多层级的科学数据汇交对于实现国家科技投入增值、促进数据更好地挖掘利用具有重要意义。随着我国科技创新能力的不断增强以及科研投入的不断增长,各类科技计划项目和专项项目相继实施,科学数据呈现爆发式增长,现代计算机技术的飞速发展,为海量科学数据的使用提供了无限可能。科学数据汇交整合作为科学数据管理的重要一环,是国家科技兴国、科研强国等计划的关键所在。21 世纪以来,我国对科学数据的汇交实践陆续开展,“973 计划”、“十一五”国家科技计划项目以及《科学数据管理办法》等在不同阶段建立了科学数据等科技资源汇交和共享机制[2]。《科学数据管理办法》明确要求各级科技计划管理部门应建立先汇交科学数据再验收科技计划项目的机制[3],该管理办法的出台加快了我国科学数据汇交进程。目前,我国科学数据汇交工作正在全面铺开,各部门、各机构以及科研人员正在逐步落实。

1 我国科学数据汇交实践

1.1 国家科技计划数据汇交

国家科技计划是由中央财政支持的,面向国家重大战略需求部署、重要发展规划布局、重点科技领域创新开展的一系列科技项目,包含国家基础研究重大项目计划(简称“973 计划”,现已整合为国家重点研发计划[4])、国家自然科学基金、科技基础性工作专项等,不仅代表我国科技创新最高水平,更关乎我国能源、科技、经济、军事安全[5]。开展国家科技计划数据汇交,对于促进我国科技创新、保障我国科学数据安全具有重要意义。

1998年“973计划”实施以来,积累了农业、能源、信息、资源环境、人口与健康、材料等领域的科学数据。2008 年科技部发布《国家重点基础研究发展计划资源环境领域项目数据汇交暂行办法》,正式启动“973 计划”资源环境领域项目的数据汇交工作。同时,科技部成立了“973 计划”资源环境领域项目数据汇交管理中心,要求将项目数据提交到“973计划”资源环境领域项目汇交管理系统[6]。这是我国首次开展国家科技计划项目的数据汇交,

科技基础性工作专项于1999 年开始实施,通过考察、观测、探测、监测、调查、试验、实验以及编撰等方式采(收)集和整理气象、地球科学、生物学、农业、林业、医学、环境等多个领域的科学数据[7]。2013 年科技部启动科技基础性工作专项项目数据汇交,并于 2014 年发布《科技基础性工作专项项目科学数据汇交管理办法(暂行)》,要求汇交项目开展科学考察与调查产生的数据。该管理办法发布之后,完成了1999—2015 年结题验收的331个科技基础性工作专项项目的数据汇交,占所有立项项目的76.1%[8]。2019 年科技基础性工作专项项目数据汇交管理中心正式建立,主要负责参与制定项目数据汇交管理办法及相关技术规范,开展项目数据汇交工作培训与数据备份保存,推动国家科学数据汇交与共享应用示范[6]。

2019 年为深入贯彻实施《科学数据管理办法》相关要求,科技部、财政部优化调整了原有的国家科技资源共享服务平台,形成了20 个国家科学数据中心和30 个国家生物种质与实验材料资源库[9],作为我国科学数据的保存、管理和服务载体。国家科技计划产生的科学数据正在逐步汇入相应领域的数据中心和资源库,初步建成了科学数据资源汇交体系,有力推动了我国科学数据汇交工作的落实。

1.2 省(区、市)级科学数据汇交

全国各省(区、市)在开展科技项目过程中也形成了海量科学数据。通过调研发现,大部分省份尚未系统性开展科学数据汇交工作,但具备了一定的工作条件和基础。部分省份创建了科技基础条件平台,对本省行业部门现有的科学数据资源进行了整合,但并未实现对科技项目中不断产生的科学数据的统一汇交。

2018 年国务院发布《科学数据管理办法》后,共有17 个省(区、市)发布了配套的科学数据管理实施细则,包括上海、山东、海南、江苏、广西、重庆、吉林、安徽、内蒙古、湖北、云南、甘肃、陕西、黑龙江、贵州、宁夏以及四川。其中海南、山东、江苏、重庆、贵州等多个省份明确提出建设省级科学数据中心,承担科学数据汇交工作。2021 年山东省在《关于进一步压实省级科技计划(专项、基金等)任务承担单位科研作风学风和科研诚信主体责任的通知》规定各有关单位须按要求将论文等科研成果所涉及的实验记录、实验数据等原始数据资料交单位进行统一管理和保存。暂未发布配套科学数据管理实施细则的广东省在科学数据汇交实践方面走在了前列,2022 年启动建设7 家省级科学数据中心,2023 年启动建设9 家省级科学数据中心,其中4 家为国家科学数据中心在粤分中心,开发设计、部署科学数据汇交工作。甘肃省已启动建设5 家省级科学数据中心,开展科学数据的汇交,包括甘肃省科学数据总中心。2023 年2 月贵州省启动科学数据中心信息平台项目。部分省份科学数据中心立项情况见表1。

表1 省级科学数据中心立项情况

1.3 重点机构科学数据汇交

1.3.1 中国科学院信息化专项支持

中国科学院主要通过信息化建设专项稳步推进科学数据的整合、共享与应用。在“十五”期间加强信息化基础设施建设,联合45 个研究所共同建设完成503 个专业数据库,初步形成中国科学院科学数据资源体系[10]。2019 年中国科学院发布《中国科学院科学数据管理与开放共享办法(试行)》,明确科研项目数据汇交要求、科学数据开放共享主体责任,进一步阐述了数据汇交工作机制、业务流程以及适用范围等[11]。同时,在“十三五”时期启动实施中国科学院科学数据中心体系建设,创建中国科学院项目数据汇交管理平台,作为中国科学院项目科学数据汇交的指定管理平台和统一入口。建成后的中国科学院科学数据中心体系由1 个总中心、18 个学科中心和13 个所级中心三类组成,平台在线资源量3.11 PB,汇交了105 个项目,含18 285个数据集[12]。

1.3.2 中国工程院知识创新中心

2012 年,中国工程院正式启动中国工程科技知识中心建设,围绕国家工程科技领域,建设跨领域专业数据资源集成和知识服务平台。该平台通过联盟的方式将各个学科领域的数据资源汇集起来,并根据学科领域建设对应的领域分中心,在所有数据资源之间建立关联,将分散在各个机构的数据资源整合到知识中心平台。联盟单位主要来自国家级科研院所、各部委情报所、行业信息中心及协会、学会、大型企业等。联盟单位在本领域内处于国内领先地位,拥有本领域内主要的大规模数据库,并有能力从多种渠道获取本领域内其他主要的高质量数据源。截至2023年4 月,平台已汇集了涵盖农业、林业、医药、中医学、化工、能源、材料、海洋、气象、地质、航天、信息等超过20 个工程科技领域的数据资源[13]。

1.3.3 交通运输科学数据中心建设

2020 年年底,交通运输部发布公路科学数据中心[14],该平台主要致力于全国公路交通科学数据资源的汇集与开放共享。2021 年10 月,交通运输科学数据分中心与国家基础学科公共科学数据中心共同签署国家基础学科公共科学数据中心交通运输科学数据分中心建设合作协议,汇聚了交通运输科学试验、野外观测、工程监测等各类科学数据,内容涵盖出行云数据、足尺环道数据、桥隧服役性能数据和通航建筑物数据、港口及航道数据等,初步实现了公路科学数据的采集、汇聚、管理和开放共享等全生命周期治理。据统计,平台已归集人、车、路、环境等公路科学数据超过1.2 P,涵盖公路科学研究方向79 个[15]。

1.3.4 气象科学数据中心建设

2000 年,中国气象局在国内率先实现部门内部数据共享,气象数据汇交工作已持续多年。2017 年6 月1 日,国家气象信息中心在中国气象数据网基础上构建的中国气象数据汇交平台正式上线运行。各级气象主管机构、社会组织以及个人通过该平台汇交气象数据,包括水利、海洋、农业、公路、高铁、航空、风电等气象服务以及业务科研数据,还包括政府、社会组织及个人探测的气象资料。2020 年发布《气象数据管理办法(试行)》要求国家级直属单位将气象数据直接汇交到国家级气象信息中心,省级及以下气象部门首先汇交气象数据到本省(区、市)气象信息中心,再由本省(区、市)气象信息中心汇交到国家级气象信息中心。全国气象科学数据汇交体系基本建立,多项政策明确了各主体的责任,平台提供了汇交渠道,极大地推动了气象数据资源集中管理和共享共用。

2 我国科学数据汇交现状分析

2.1 科技计划项目形成的科学数据汇交初具规模

现阶段汇交的数据以科技计划项目数据为主,包括国家科技重大专项、国家重点研发计划、国家自然科学基金、科技资源调查专项、国际合作专项,且含有少量省级项目以及院校级项目。其中国家重点研发计划项目汇交最多,国家人口健康科学数据中心汇交有372 个[16]、国家基因组科学数据中心30 个[17]、国家对地观测科学数据中心39 个[18]、国家海洋科学数据中心19 个[19]、中国科学院科学数据中心67 个[12]。国家重点研发计划项目汇交的科学数据较多,主要受政策影响。2018 年发布的《国家重点研发计划项目综合绩效评价工作规范(试行)》中提出,项目执行期结束后需要提交由有关方面认可的科学数据中心出具的汇交凭证,从项目结题层面直接要求项目过程中产生的科学数据需要汇交[20]。因此,所有的国家重点研发计划项目牵头单位均需向领域相近的数据中心汇交数据。据不完全统计,2019—2020 年国家科学数据中心已经支撑了17 个专项200个国家重点研发计划项目的科学数据汇交,汇聚数据量达5 PB[21]。中国工程科技知识中心的汇集资源类型多样,主要包括中国工程科技知识中心自建数据和联盟机构的监测数据、调查数据以及从外部获取的一些统计数据等,平台现已汇集3 646条数据集[13]。

2.2 数据汇交驱动模式走向多元化

从科学数据汇交的主动性角度,可将国家级、地方级以及重点机构的科学数据汇交分为项目驱动型、联盟共享型以及垂直管理型。在科学数据汇交实践中,项目驱动型占据主导地位,该类型科学数据汇交主要由国家及地方政策约束,从项目层面强制要求项目承担单位汇交科学数据,这一类型在最大程度上保证了科技计划项目科学数据的汇交,且对我国科学数据汇交工作的顺利进行起到了极大的促进作用。中国工程知识中心数据汇交则可归入联盟共享型,知识中心联合工程科技领域研究机构、高校、企业以及相关政府部门共同建立数据资源池[22],但该类型的局限性在于对联盟单位的整体实力有要求,其联盟单位本身必须拥有本领域内主要的大规模数据库且具有吸纳数据的能力。垂直管理型则由领域属性和机构属性决定,如中国气象局,因气象数据和民生息息相关,作为全民共享的数据,其下属管理单位的气象科学数据需要汇聚。中国科学院下辖多个研究所,直接从机构层面要求各单位汇交科学数据,建立统一的科学数据中心。

2.3 科学数据汇交机制正在逐步建立,汇交流程逐渐规范

《科学数据管理办法》提出各级科技计划(专项、基金等)管理部门应建立先汇交科学数据、再验收科技计划(专项、基金等)项目的机制。各省相继出台的科学数据管理实施细则/办法以及各部门制定的数据资源管理办法,均对科学数据汇交进行了详细规定。如《交通运输科学数据管理办法(征求意见稿)》《气象探测资料汇交管理办法》《农业科学数据汇交管理办法》等,对行业科学数据的汇交范围、汇交内容、责任人、质量控制、汇交流程、保存共享等作出了详细规定。

随着科学数据汇交工作的深入开展,科学数据汇交机制逐步建立(见图1)。在科技计划项目实施过程中,数据汇交方需向项目管理方提交数据汇交计划,在项目结题之前可通过线上或线下方式汇交数据至邻近领域的科学数据中心,项目负责人应对数据质量进行自查,同时,科学数据中心邀请专家对数据进行审核并通过后,提供汇交凭证,项目负责人获取汇交凭证后方可进行项目验收。分中心或者其他机构向科学数据中心汇交数据前应提供数据清单,再汇交数据。论文数据由科研人员直接汇交至科学数据中心。

图1 科学数据汇交机制

《科技计划项目形成的科学数据汇交 技术与管理规范》标准详细介绍了科技计划形成的科学数据汇交通用流程包括科学数据汇交计划制定、科学数据制备、科学数据提交、科学数据审核、科学数据汇总、科学数据发布与共享和科学数据使用与维护更新等流程[23]。现阶段所有国家科学数据中心的数据汇交均采用了该标准规定的通用流程。

2.4 科学数据汇交内容不断丰富

根据《科技计划项目科学数据汇交工作方案(试行)》规定,科学数据具体汇交内容包含科学数据实体、科学数据元数据以及科学数据辅助工具。在实际汇交工作中,汇交的具体内容多样,具体包括科学数据、科学数据描述信息(元数据)、软件、算法、模型、标本、样本、菌毒株资源的元数据、组学测序数据等实验数据、图片、图像数据等观测数据、标准与计量、考察/调查报告、论文、专著、专利、软件著作以及数据库系统等。

随着科学数据汇交工作的推进,各类科学数据中心汇集的数据涵盖的领域也在不断扩展。据不完全统计,国家科学数据中心、省级科学数据中心以及重点部门科学数据中心涉及的一级学科超过39个[24](见图2,参照国家标准GB/T 13745—2009学科分类与代码),其中工程与技术科学类的科学数据资源所涵盖的一级学科数量最多,体现了我国前沿科技发展所关注的重点学科方向。

图2 科学数据中心学科分布

3 我国科学数据汇交工作中存在的问题

3.1 政策体系和长期投入机制尚待完善

2018 年《科学数据管理办法》发布后,仅有16个省(区、市)发布了科学数据管理实施办法或实施细则,但均未出台正式的科学数据管理配套政策,未形成一整套完善的工作制度,不利于科学数据的汇交。仅有部分科学数据中心发布了数据汇交相关的详细管理办法,如国家科技计量科学数据中心发布有《国家计量科学数据中心项目数据汇交管理办法》《国家计量科学数据中心数据分级分类管理办法》,中国科学院发布了《中国科学院科学数据管理与开放共享办法(试行)》《中国科学院战略性先导科技专项科学数据汇交管理实施细则(试行)》。然而,科学数据涉及众多研究领域,不同领域的科学数据各具特色,需要根据不同领域数据特征及地方特色制定详细的配套管理政策,才能更好地实现后期数据共享与数据使用。

全面开展科学数据汇交是近年来提出的一项新业务,面向科学数据汇交,加工整合数据需要一定的经费支持才能建立长期投入机制,特别是很多项目需要重新投入资金与精力开展科学数据汇交工作。但最新的国家科技计划项目经费管理体系中没有明确列出科学数据汇交科目,中国注册会计师协会于2022 年6 月修订印发的《中央财政科技计划项目(课题)结题审计指引》没有在相应科目中提到“科学数据”,没有明确的政策制度支持将科学数据汇交相关经费纳入课题预算[25]。缺少相应经费投入,不利于科学数据汇交工作的开展,更不利于科学数据汇交业务的常态化[26]。

3.2 科学数据管理载体建设尚待落实

科学数据中心是促进科学数据开放共享的重要载体,主要承担科学数据的整合汇交、加工、管理、服务共享以及交流合作。目前已建立有20 个国家科学数据中心,但建设进度不完全一致,大部分国家科学数据中心已完成数据汇交全流程服务,少量国家科学数据中心尚未开通对外的科学数据汇交入口。例如,国家冰川冻土沙漠科学数据中心在2023 年3月23 日正式发布科技计划项目科学数据汇交系统,采取“线上+线下FTP”的方式方便科研人员进行数据汇交[27]。国家极地科学数据中心尚未找到线上汇交通道,不利于广大科技工作者自主汇交科学数据。

已发布科学数据管理细则或实施管理办法的省份仅在文件中指出要建设地方科学数据中心,但对科技计划科学数据中心建设未提出明确要求,科学数据中心的认定、评价与管理不明确,部分省份只是停留在科学数据中心建设的理论研究层面,仅有少数几个省份开始着手实际建设工作,如广东省科学数据中心、甘肃省科学数据总中心。2022 年6 月江苏省提出建设省级科学数据中心,拟于2026 年6月完成一期建设。另外,地方科学数据中心尚未建成实体网站。全国各省市尚未完成科学数据地方管理平台和管理团队的创建,部分省份尚未开展科学数据汇交管理办法或实施细则的制定,科学数据管理载体建设有待进一步落实,全国一体化科学数据管理体系尚未形成。

3.3 科研工作者对科学数据汇交意识有待提高

科学数据汇交目前尚在试点阶段,科研工作者对科学数据汇交的积极性不高。科研工作者直接决定科学数据的汇交数量并影响科学数据的汇交质量。现阶段科学数据汇交多在项目层面进行约束,2022年中国高科技产业化研究会科技成果转化协作工作委员会在全国范围内开展了国家科技计划项目申报与科学数据汇交专题培训,对国家科技计划科学数据汇交进行了详细介绍,各个国家科学数据中心也开展了不同规模的科学数据汇交专题培训,但培训时间短、培训人数少、培训范围小,培训效果有待进一步提高。科学数据汇交应是整个科学研究行业工作者要达成的普遍共识。此外,科学数据汇交涉及到知识产权,相关利益者仍然处于观望态度,导致数据汇交的积极性不高。

3.4 科学数据汇交质量需要加以约束

在GB/T 39909-2021 科技计划形成的科学数据汇交通用数据元(所有部分)中,已明确说明科学数据汇交中各类元数据内容和格式规范、通用代码以及扩展规则,在一定程度上保证了数据质量。科研工作者通过线上平台进行数据汇交,科学数据在传递过程中可能出现各种各样的错误,科研工作者的主观失误,也可能会造成数据缺失、数据错误、数据重复等。在数据汇交流程中,尽管设置有科学数据审核流程,但如果一个项目的科学数据量过大,专家评审将会变得异常困难。可以考虑将数据质量管控融入数据生产安全生命周期,由科学数据提交人对汇交的数据实行长期负责制。个人汇交到科学数据中心的数据发布之后,用户如果发现数据质量问题,应向数据的原始提供方追责。

4 结论与建议

尽管国家层面、省(区、市)层面以及重要机构都在逐步践行科学数据汇交工作,但我国科学数据汇交仍然处于初级阶段,对于数据的汇交管理,还需要不同政策与良好的社会氛围支持数据全生命周期的具体事务,这一复杂的社会化活动,尚存在许多障碍与困境需要我们逐一攻克。

4.1 健全科学数据汇交管理政策

健全科学数据汇交管理政策,建立和完善科学数据采集汇交机制,进一步明确汇交义务人制度、汇交审核制度、汇交工作管理制度以及汇交奖惩制度,特别是针对项目过程中产生的科学数据,应从项目和课题层面分别建立数据联络员和负责人制度,将数据汇交落实到具体的科研人员。重点在岗位设置、职称评定、收入分配等方面进行适当的奖励激励,鼓励科研人员进行科学数据的汇交、传播、共享[28]。针对政府财政支持的项目,应在项目经费中划出一定比例的经费用于开展科学数据汇交工作。在省级科学数据中心建设中,将建设成本纳入本级财政预算,确保经费的长期稳定投入,以持续有效地推进科学数据汇交工作[29]。

4.2 普及科学数据汇交知识

自《科学数据管理办法》发布以来,尽管已有不少项目汇交数据,但多数项目是首次开展科学数据汇交,难免存在抵触情绪,部分科研工作者认为相比以往不仅需要交出数据,更是增加了科研工作者的工作量。因此,需要在全社会营造科学数据汇交文化,普及科学数据汇交知识,各级各类项目在立项阶段就应做好科学数据汇交计划。在各级科技计划项目征集之前、项目执行过程中,科学数据中心与项目管理方都应对科研人员等相关主体开展科学数据政策和标准的宣传培训,不定期开展科学数据汇交和相关工作的交流。同时,各大科研院所应在机构范围内广泛开展科学数据汇交相关的宣传和培训工作,全面普及科学数据汇交意识,营造良好的科学数据汇交文化。

4.3 积极推动汇交数据的开放共享

科学数据汇交的最终目的是实现数据的开放共享,将数据价值得以最大程度地实现。推动科学数据的开放共享,能够有效促进科学数据的长期积累,为广大的科研人员实现科技创新提供研究基础,同时也能消除“数据孤岛”,加快海量科学数据的流通和共享,避免各部门、各领域科研工作中的重复性劳动,优化科技资源配置。鼓励并推动已汇交的科学数据平台进科研院所、进高校、进图书馆,向广大科研人员和学生推广科学数据库使用,引导科研院所和高校使用国产科学数据资源,并通过用户反馈不断改进完善,能够促进科学数据库健康良性发展。优化开放共享流程,面向广大科研工作者提供更为便捷的数据使用方式,培养社会各方使用习惯。只有更多的人关注并使用科学数据,才能正向激励更多的科研人员汇交科学数据,从而促进科学数据汇交工作的良性发展,实现数据驱动创新、数据可持续发展的目标。

4.4 探索社会资金形成的科学数据的合作共享

科技计划项目形成的科学数据汇交体系正在逐步建立,但社会资金形成的科学数据,特别是企业在创新研发过程中积累的科学数据具有很强的使用价值和实践意义,其科学数据汇交情况有待进一步确认。受科学数据相关权益的影响,不能强制要求社会资金形成的科学数据完全参照政府预算资金资助形成的科学数据进行汇交,但可以考虑合作共享方式,探索科学数据的跨部门共享使用。从国家层面制定相关政策为企业提供各项优惠措施,创建良好的政策环境,以促进跨部门间的数据共享。围绕关键优势领域,鼓励科学数据中心与行业领先企业开展数据共享、数据交换、数据交易,以建设集研发、生产、技术、产品等数据为一体的科学数据中心。积极吸纳更多的企业参与科技计划项目,在项目实施过程中共享数据;开展科学数据中心与企业之间的数据交换,以数据换数据、技术换数据、服务换数据等多种方式实现数据交换;另外,也可以直接采用数据交易方式实现跨部门间的数据汇聚整合。

猜你喜欢
数据管理数据中心计划
酒泉云计算大数据中心
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
民航绿色云数据中心PUE控制
暑假计划
学做假期计划
学做假期计划
Learn to Make a Holiday Plan学做假期计划