刘 杨,陈晓玲,全志薇,毛 刚
(吉林省科学技术信息研究所,长春 130033)
科学数据是指人类社会科技活动所产生的基本数据,以及按照不同需求而系统加工的数据产品和相关信息。科学数据中心可以是物理的或虚拟的,具备数据仓储能力,配以相应的政策、人员和支撑体系,为特定的学科领域、团体或特别的应用目的提供科学数据的相关功能或服务,包括数据采集、传输、保存、处理、展示、共享、计算、增值等。也是现代科学研究进入数据密集型科学发现范式的基本保障,是国家信息基础设施的重要组成部分。
本文通过国家级科学数据中心的比较研究和理论研究,将国家级科学数据中心的管理模式、资源体系、功能体系进行归纳总结,分析其对应的理念、体制、机制和方法;试图结合理论研究和吉林省的实践经验,形成吉林省科学数据中心的建设框架,并将具体的对策建议予以理论化表达;侧重于从社会学和政策学角度分析调研国家级科学数据中心的体制机制和管理运行等议题,在一定意义上拓展了省级科学数据中心的研究对象和研究视野。
国际很早就有一定规模的科学数据中心,且学科涵盖面较广。如美国国会授权科学与技术政策办公室、国家科学基金会、国家航天航空局、国家海洋与大气管理局、地质调查局、国立卫生研究院等为数据基础设施建设的主导者,以国家级科学数据中心为核心,加大政策约束与资金投入,加强数据存储与共享方面的引导与激励,构建美国科学数据基础设施,维护美国在国际科学与工程领域的领先地位。英国国家科学数据中心体系主要依托英国研究理事会(RCUK)下的7个理事会构建,自然环境研究理事会、经济与社会研究理事会、艺术与人文研究理事会等设有数据中心的机构就相继发布了数据管理与共享政策。
我国政府对科学数据资源建设给予了高度重视,2002 年科技部正式启动了“国家科学数据共享工程”,数据资源建设和共享作为支持国家创新发展的战略工程,纳入《2004—2010 年国家科技基础条件平台建设纲要》,并成为国家中长期科技发展规划中的一项重要内容。2018 年国务院办公厅印发了《科学数据管理办法》,这进一步加强和规范了科学数据管理。2001 年底在气象科学数据领域启动科学数据共享工程第一个试点以来,2002 年又在农业、林业、水文水资源、地震、测绘、地球系统科学等8 个领域开展试点,初步形成了一批资源优势明显的科学数据中心,有利于推动我国多个领域的科学数据共享工作,强调学科性、开放性和服务性。2019 年6 月,科技部、财政部在原有科学数据类国家平台基础上,进一步优化调整为“国家高能物理科学数据中心”等20 个国家科学数据中心。2020 年1月,全国首家国家计量科学数据中心浙江分中心获批,目前正在筹建。
本文选取了10 个典型的国家科学数据中心,如表1 所示。
表1 国家级典型科学数据中心汇总
(1)典型的国家级科学数据中心的组织机构是以领域内的高水平科研机构作为承担单位,依托全国各省的相关领域高校、科研机构及企业作为分中心或者子网共同建设。如农业农村部主管的国家农业科学数据中心依托中国农业科学院农业信息研究所,自然资源部主管的国家海洋科学数据中心依托国家海洋信息中心,林草局主管的国家林业和草原科学数据中心依托中国林业科学研究院资源信息研究所。
(2)在数据领域方面,每个中心都以某领域的科学数据资源汇交、共享、融合为主,如国家基础学科公共科学数据中心以“物理、化学、材料、动物、植物、病毒和信息科学等基础学科”为核心;国家高能物理科学数据中心以“高能物理领域”为核心;国家地球系统科学数据中心以“地球系统科学领域”为核心。
2.2.1 “学科分类+联合共建”数据管理模式
国家地球系统科学数据中心按照“圈层系统-学科分类-典型区域”多层次开展数据资源的自主加工与整合集成,已建成涵盖大气圈、水圈、冰冻圈、岩石圈、陆地表层、海洋以及外层空间的18 个一级学科且学科面广、多时空尺度、综合性国内规模最大的地球系统科学数据库群,建立了面向全球变化及应对、生态修复与环境保护、重大自然灾害监测与防范、自然资源(水、土、气、生、矿产、能源等)开发利用、地球观测与导航等多学科领域主题数据库115 个。国家基础学科公共科学数据中心形成了基础学科数据资源体系、分布式科学数据资源统一管理、集成融合、分析挖掘和应用服务的技术体系、标准体系和服务体系,支撑了98 个国家重点研发计划项目数据汇交,建立自主学科领域数据库,数据标准体系分为专用标准和指导标准。
2.2.2 “中心站+分中心+子节点”数据管理模式
国家气象科学数据中心由1 个国家级主节点、31个省级分节点,以及若干个专题服务分节点组成的覆盖全国的分布式气象数据共享服务网络体系。国家农业科学数据中心建立包括作物科学、动物科学与动物医学、农业区划科学、草地与草业科学等12 个大类核心学科资源整合框架,由数据主中心、数据分中心、数据节点三个层次组成的资源整合体系,作物、动物、渔业与水产、热带作物、区划、草地与草业等7 个分中心开展领域数据加工、挖掘应用和共享服务;广东、湖南、江苏、江西、新疆等20 多个省级服务分中心提供区域性科学数据共享服务。
国家基础学科公共科学数据中心数据资源覆盖17类一级学科,支撑“科学技术部高技术研究发展中心”“工业和信息化部产业发展促进中心”及“中国21 世纪议程管理中心” 三个项目管理机构的国家重点研发项目科学数据汇交工作。基于云门户的“数据服务-信息服务-知识服务”多元化服务体系,有效促进了基础科学数据的资源汇聚、开放共享、多学科交叉融合分析和应用。国家地球系统科学数据中心形成了气候气象指标、大气理化数据、自然资源数据、环境与灾害数据、人地关系数据、地理背景数据、人文过程数据、陆地水循环数据、陆地生态系统数据、古气候古环境数据、对地观测数据的数据分类体系。国家生态科学数据中心按数据中心节点、台站节点、数据论文数据、专题数据进行数据资源分类,获得实时数据资源,实物资源包括样地资源、样品资源(土壤、植物、其他)、标本资源(植物、动物、土壤剖面、其他)、仪器资源、设施资源。
(1)全方位、多角度、多维度的数据服务功能。如国家海洋科学数据中心提供热门数据、推荐数据功能,如海流综合数据集大面分集、全球海平面观测、综合波浪数据集等热门数据,逐时水位观测数据和船舶观测数据等推荐数据。
(2)实时更新数据资源功能。如国家海洋科学数据中心提供实测数据(海洋水文、海洋气象、海洋生物、海洋化学、海洋地质、海洋地球物理、海底地形)、分析预报数据(实况分析数据、再分析数据、统计分析数据)、地理与遥感数据(海洋环境遥感产品、矢量地图数据、遥感影像、海底地形)、专题信息产品、数据节点、数据可视化、数据汇交功能。
(3)科研项目数据汇交和汇交服务功能。如国家农业科学数据中心提供农业科学数据是指在农业领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于农业科学研究活动的原始数据及其衍生数据,制订了汇交标准模板、数据汇交流程、数据汇交说明、数据汇交视频。
(4)大数据挖掘建模与可视化功能。如国家地震科学数据中心形成了观测数据、探测数据、调查数据、实验数据和专题数据五大类。国家气象科学数据中心的地面观测、卫星云图、雷达拼图、智能网络等可视化气象数据服务。
(5)多源异构数据的采集和关联功能。如国家基础学科公共科学数据中心提供的分布式数据资源自主管理与服务,数据资源集成整合管理与服务,数据资源与服务监控、统计分析及评估管理,数据资源统一发布、共享、服务及应用等。
(6)高质量高水平的科学数据产品。如国家海洋科学数据中心形成了专题信息产品,如海底地形命名、海洋经济产品、海域海岛产品、潮汐潮流预报、海洋灾害产品、海洋专题图集等,在2020 年3 月发布了特色资源“全球新冠肺炎重点疫区地面资料日值数据集”,当前全球新冠肺炎疫情重灾区国家(疫情人数大于1 000人)的温度、气压、风速、降水观测数据。
(7)对外数据接口服务。如国家气象科学数据中心的气象大数据接口服务构建气象数据对外服务接口,提供丰富的全球逐时次滚动天气实况、全球高空天气监测实况、全球海洋监测实况等数据接口服务,满足用户高时效的并发访问需求。
(8)开展科学数据应用和宣传服务。如国家农业科学数据中心提出的数据服务专员为用户提供基于学科和区域的数据资源咨询和推介、数据素养培训等服务。
(1)立足吉林省经济社会发展战略需求,面向吉林省经济社会发展需要,按照《科学数据管理办法》《吉林省科学数据管理办法》 要求,建立吉林省科学数据中心。以吉林省科学数据中心建设为契机和纽带,从科学数据的角度全面融入“一带一路”建设,使吉林省的科学数据能够服务全局、参与全面决策。同时,在新的国际国内形势下,在面对新任务新要求的同时,进一步做好吉林省科学数据战略资源储备。
(2)建立健全组织保障体系,根据科学数据资源多源且异质异构的复杂特点,制定完善的科学数据标准体系,涉及包括数据采集与加工、元数据、数据管理、数据质量、数据服务等方面的标准规范,内容需要覆盖科学数据资源全生命周期的关键业务节点,并根据需要制定相应的指导规范。
(3)优化吉林省科学数据生态环境,切实发挥科学数据的作用,体现科学数据的价值,把科学数据 “搞活”,让科学数据更好地“说话”,使科学数据能够“繁殖”。
(4)建立科研项目科学数据汇交管理办法,根据《吉林省科学数据管理办法》,定期开展科学数据组织管理与呈交共享等方面的奖惩工作。将科学数据呈交情况纳入省级重点实验室考核评价工作中。将科学数据汇交情况纳入省科技发展计划项目结项环节。
(5)与国家科学数据平台建立对接合作机制,确保接口连接顺畅,数据格式统一。与国内其他省份科学数据中心建立交流机制,不断学习先进经验和做法为我所用。
(6)科学数据纳入人才激励机制,结合吉林省“破五唯”工作的全面开展,将科学数据呈交情况纳入人才评价工作中。协同省委组织部、省人社厅、省科技厅等部门,将评奖、职称晋级、科技进步奖评选等工作与科学数据工作进行有机结合,以此开拓吉林省科技人才工作新局面。
(1)为满足吉林省科技创新和社会经济发展对科学数据资源的需求,应该加强吉林省的国家科学数据中心建设,构建吉林省完善的科学数据中心体系,以省级科学数据中心建设带动地市州级科学数据资源统一汇聚,强化省级科学数据中心对科学数据资源的汇聚整合能力,通过开展省级政府资助的科技计划项目产生的科学数据向省科学数据中心强制性汇交,不断提升省科学数据中心的科学数据资源质量和规模,使科学数据资源发展成为助力中国科技创新的重要资源。
(2)推动科学数据汇交制度在吉林省的具体实施。坚持“开放为常态、不开放为例外”的理念,对科学数据进行充分分析、挖掘和共享,打好手中“科学数据”这张牌。
(3)对全省汇交上来的科学数据进行统一保管,明确科学数据的密级和保密期限、开放条件、开放对象和审核程序等。根据要求建立应急管理和容灾备份机制,建立应急管理系统,对重要的科学数据进行备份。
(1)组织编制科学数据资源目录,目录和科学数据应按要求及时与国家相关部门进行数据共享与交换。指导法人单位对本单位的科学数据进行分级分类。
(2)在数据共享方面,旨在提升数据中心的数据汇聚能力、分析挖掘能力和共享服务能力,持续推动和引领中国科学数据共享的发展。依托省科学数据中心进行科学数据的分级分类、加工整理和分析挖掘,对有效整合的各领域各学科的科学数据资源进行科学管理,构建符合吉林省发展需求的科学数据管理与应用服务体系。
(3)在数据再利用方面,加强科学数据的规范管理,通过进一步制定科学数据管理的相关制度、规范、标准和质量控制体系,以科学方法进行科学数据的规范加工、整理、安全保存和使用。加强科学数据的分析挖掘与应用技术方法研究,特别是围绕吉林省经济社会发展战略等重大需求,综合运用关联、聚类等分析方法,提升利用科学数据开展知识发现的能力和水平,强化利用科学数据开展增值服务能力建设。
(4)建立吉林省科学数据共享服务平台,该平台负责承担全省科学数据的汇交、审核、宣传、培训、咨询与技术支持的保障服务工作。其中,吉林省科学数据共享服务平台,是吉林省科技基础条件平台的重要组成部分,今后吉林省科学数据的一系列具体实施工作应通过该平台来开展。通过在线下载、离线共享、定制服务等方式向社会开放数据,实现数据共享。
加快发展壮大从事科学数据的共享服务人才队伍和专业分析人才队伍建设。积极促进科学数据管理与服务人才队伍的培养,省级科学数据中心的依托单位必须更加重视科学数据管理与服务人员队伍的建设,通过探索在职位设置、薪资报酬、考核评价等相关方面的鼓励政策支持,切实保障从事科学数据资源管理和共享服务人员的利益,提升科学数据管理与服务人员的业务能力,不断壮大科学数据管理人员队伍,提升科学数据服务水平。
同时,要加强培养或引进高水平科学数据分析挖掘人才,充分发挥利用好省科学数据中心汇聚整合的海量科学数据资源,提升省科学数据中心的科学数据分析挖掘与应用能力,以高水平科学数据分析挖掘人才队伍的建设带动科学数据分析挖掘能力提升,支撑吉林省科学数据中心的科学数据资源管理与应用。
在吉林省科学数据中心建设与发展中,必须充分利用国际和国家科学数据中心的战略规划和引领指导作用,积极探索以科学数据中心、多种方式的联合共建等模式,创新省级科学数据中心的交流与合作方式,省级科学数据中心的建设必须紧跟国家科学数据中心发展趋势,充分借鉴国内外科学数据中心建设与发展中的成熟经验。
(1)“1+N”共建,加强与省内外重点领域的科研机构、重大科学数据组织的交流与合作,优先考虑与省内研究所、高校以及各重点实验室进行合作。
(2)依托新型研发机构的发展模型,与省内一流的科研院所、高校、企业一同创办新型研发机构,主要以科学数据资源为基础,在科学数据的分析挖掘方法、科学数据的升值与应用、科学数据作为生产要素参与生产以实现新旧动能转化等方面开展研究。
(3)建立吉林省大数据学会的协同模式,以吉林省科学数据中心为法人,组建吉林省大数据(或科学数据)学会,联合省内的省级重点实验室、科技发展计划项目的部分承担单位等作为会员单位,在科学数据方面开展学术研究、科研攻关。
(4)采用“科学数据+科技成果转化”的实用模式,联合科学数据呈交方、科学数据生产制造方一同对科学数据进行开发并形成数据产品,吉林省科学数据中心按照相关要求负责对这些数据产品进行科技成果转移转化,科学数据的需求方可以用创新券购买。部分科学数据对行业发展、企业发展具有广泛支撑作用的,或基础性、实用性较强的科学数据的开发成果,可以由政府买单。科学数据的转移转化属于科技成果转移转化的重要组成部分,应参照《中华人民共和国促进科技成果转化法》《吉林省促进科技成果转化条例》等文件执行。
(5)吉林省科学数据中心采用“集中管理+科学数据开发技术外包”管理模式,吉林省科学数据中心作为吉林省科学技术信息研究所的内设机构,负责吉林省科学数据的相关日常管理工作。涉及科学数据开发的技术部分,以技术外包、对外招标等形式外包给第三方。
(1)面向全社会不断宣传科学数据工作的重要性,为科学数据工作营造良好的社会环境,培养科研工作者树立科学数据意识,使吉林省科学数据相关单位和相关人员对科学数据工作能够进一步了解,并掌握一定的科学数据汇交能力,不断提高科学数据生产能力和生产质量。
(2)吉林省作为科教大省,每年有大量新的科研成果面世,但是基于科学数据绘制的对外宣传用的科研成果图表,目前是个空白。在合作框架或协议框架下,根据省政府、省科技厅对外宣传的需要,可以基于科学数据,应用3DS Max、Illustrator、Chem3D、Matlab、Origin等软件制作出设计感优美、科技感爆棚、科普感十足、人文感浓郁的宣传作品,为吉林省科技工作对外宣传开拓新的模式和渠道。
综上所述,吉林省要提升科学数据质量,形成重点学科数据、重大科研攻关数据、资源汇聚等领域的权威品牌数据资源体系;建立不同学科和领域的数据分析工具和算法平台,提高科学数据中心对数据的再分析、再利用能力和数据产品开发能力;瞄准国家战略、吉林省发展需求和科技前沿,提升数据资源精准推荐和定制化服务水平,形成多种形式并存的数据共享服务体系;加强数据知识产权保护;加强数据科技人才培养,提升专业化水平;优化省内数据资源布局,全面加强国内合作,全面提升吉林省科学数据中心在国内的影响力。