文/王瑞丹 石蕾 高孟绪 徐波
党的二十大报告中指出要坚持创新在我国现代化建设全局中的核心地位,要强化国家战略科技力量,优化配置创新资源。科学数据正是一种重要的创新资源,是科技创新和经济社会发展的重要基础,是科学发现和知识创新的重要依据与基石。当前,科学数据总量的极大增长、数据密集型科研范式的迅速发展以及科学研究对现代社会全方位的渗透等多种因素正在形成叠加效应,共同提升了科学数据的战略价值,在有力支撑科技创新发展中发挥了重要作用。
我国历来高度重视科学数据等相关科技资源建设工作,面向科学数据规范管理等的相关政策文件相继出台,进一步保障和推动了科学数据管理与开放共享工作。随着科学数据日益受到广泛关注,规范科学数据管理、推进科学数据开放共享,尤其是推进面向应用的科学数据共享,已经成为大数据时代一项十分紧迫而重要的任务,更是提升科技创新水平、增强科技创新活力、促进经济社会发展的重要力量。近年来,科学数据在科学研究过程中的重要作用日益凸显,对科学数据开放共享的需求也越来越大。大数据时代,以物联网、人工智能、云计算、区块链和量子计算等为代表的新技术的应用,正在改变我们获取、存储、管理与共享数据的手段与能力,持续推进数据密集型科学研究的科研范式向纵深发展。
党中央、国务院长期以来一直高度重视科学数据工作。自2001年我国正式启动“科学数据共享工程”项目以来,先后在气象领域开展了数据共享试点,启动实施国家科技基础条件平台建设专项,推动我国在科学数据共享与管理领域取得巨大进步。面对当前科技创新对科学数据管理的新形势新需求,以及我国科学数据管理与应用中仍存在的不足,我国先后制定发布了相关政策和标准,进一步完善了科学数据开放共享的政策法规体系。
2018年3月,国务院办公厅正式印发《科学数据管理办法》,成为我国首个国家层面的科学数据管理办法,为我国科学数据工作确定了行动纲领。《科学数据管理办法》明确提出要加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,坚持“开放为常态、不开放为例外”的原则,特别是国家财政资金支持产生的科学数据开放共享,以更好地支撑国家科技创新、经济社会发展和国家安全。
依托全国科技平台标准化技术委员会(TC486),先后发布实施了《科技资源标识》等14项国家标准,并立项26项相关国家标准。此外,全国信息技术标委会等也制定发布了《信息技术 科学数据引用》《信息技术 数据质量评价指标》等多个数据相关标准,这些国家标准的制定实施对于规范包括科学数据在内的科技资源管理、促进科学数据的有效共享利用提供了重要标准支撑。
在大力推动科学数据开放共享过程中,高度重视科学数据的安全有序管理。2021年新修订的《科技进步法》明确提出,数据等科技资源要建立信息系统,及时向社会公布资源分布与使用情况,同时提出实行重要数据资源和关键核心技术出境管理制度。《科学数据管理办法》指出不得利用科学数据从事危害国家安全、社会公共利益和他人合法权益的活动,对涉及国家秘密、国家安全、社会公共利益、商业秘密和个人隐私的科学数据,不得对外开放共享。
经过多年持续发展,我国已在若干重要学科领域建成了一批科学数据库,科学数据中心成为我国科学数据管理与应用的重要载体与战略高地。2019年,科技部、财政部进一步优化形成了首批20个国家科学数据中心,涉及高能物理、地学、生态、生命健康等多个领域。通过不断加强国家科学数据中心体系能力建设,着力将国家科学数据中心打造成为学科领域的科学数据资源中心、数据产品研发中心、数据评估中心和数据服务中心。
通过不断规范和完善科技计划项目科学数据汇交机制,科学数据汇交工作已纳入国家重点研发计划项目综合绩效评价工作流程。依托20个国家科学数据中心,科技项目科学数据汇交工作正在有序推进,目前已累计开展汇交科技计划项目4500余个,完成其中3000多个项目数据汇交并出具汇交凭证,形成各类数据库(集)6万余个,累计汇交数据总数据量超过4PB。
加强科技资源标识体系建设,通过科技资源标识机制为科学数据库(集)分配唯一“身份证号”,支持数据资源可定位、可确权、可引用。大力推动各国家平台进行资源标识工作,截至目前,标识系统共收录标识符总量超过300万项。
2019年,科技部、财政部优化形成首批20个国家科学数据中心,涉及高能物理、地学、生态、生命健康等多个领域。图为20个国家科学数据中心LOGO图
目前,我国已建成了全球独一无二的青藏高原科学数据库,建成全国首套最系统的多年冻土监测数据集。建设的郭守敬望远镜LAMOST天体光谱数据库是目前世界上最大的天体光谱数据库。建设的生态系统监测数据库整合全国53个国家野外站及多个专项观测网水土气生数据,支撑我国生态系统碳氮水循环研究。地球系统数据中心建设的中国近海海水养殖数据集填补了中国离岸养殖空间分布数据的空白。基于数据精准绘制东北黑土分布图、黑土区土地利用图及各类调查数据图集,支持快速发现高危地区。基于材料腐蚀数据的监测预警与智能管理系统支撑国家电网、川藏铁路、中马友谊大桥等选材选址。全球海洋环境分析数据再分析产品是目前公开发布的唯一含有潮汐和潮流要素的再分析产品。利用国际卫星数据分析预测南美等区域大豆生长和受病害影响情况,有效支撑政府决策。
面对新冠肺炎疫情防控和科研攻关,生命科学领域3个国家科学数据中心积极参与新冠肺炎疫情防控工作。国家微生物科学数据中心联合国家病原微生物资源库全球首发新冠病毒毒株信息及高清电镜照片,建成了全球冠状病毒组学数据共享与分析系统,实现病毒组学数据集成与标准化的分析挖掘。国家基因组科学数据中心收录全球范围内公开发布的226万余条新冠病毒基因组科学序列信息,构建了全球新冠病毒基因组变异的动态图谱,实时监测序列突变的时空动态变化。国家人口健康科学数据中心先后制作发布了新冠病毒疾病术语、防疫指南、标准规范等专题数据库,牵头组织建设新冠肺炎临床和流行病学数据库并已收集新冠感染病例信息5万余条。国家科学数据中心支撑新冠肺炎疫情防控相关工作被写入国务院新闻办发布的《抗击新冠肺炎疫情的中国行动》白皮书。
目前国际科学联盟理事会(ICSU)下设的科学数据国际组织世界数据系统(WDS)在全球认可的86个科学数据中心,中国大陆地区共有9个,其中8个隶属于相关的国家科学数据中心。国家微生物科学数据中心同时承建世界微生物数据中心,牵头研制ISO体系中第一个微生物数据国际标准,牵头全球微生物基因组和微生物组测序计划,建设的全球微生物菌种目录数据库(GCM)是由我国主导的国际最大的微生物资源数据库。国家基因组科学数据中心成为与美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)齐名的国际主要生物数据中心,建设的基因组学原始数据库(GSA)是多个国际出版集团认可的数据存储库,汇聚国内外近500家机构提交的序列数据,70%以上数据来源于国际知名期刊论文发表的关联数据。
大数据时代,科学数据作为科技创新的物质基础,正在为科技创新赋能,在形成显著的拉动效应、放大效应和乘数效应等方面作用日益凸显,国际社会的相互依存达到前所未有程度。未来,我们需要进一步加强科技平台建设,完善国家科学数据中心布局,强化能力建设,推动平台建设和科技数据开放共享工作迈进新发展阶段;以更加开放的态度加强国际科技交流,积极参与全球创新网络,促进科学数据互联互通与共享共用,驱动科学研究和技术创新。