前沿领域国内外典型数据库调研与启示

2023-05-16 02:45段博文王卷乐石蕾高孟绪
农业大数据学报 2023年1期
关键词:数据中心领域数据库

段博文,王卷乐,,石蕾,高孟绪

研究论文

前沿领域国内外典型数据库调研与启示

段博文1,王卷乐1,2*,石蕾3,高孟绪3

1. 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101;2. 江苏省地理信息资源开发与利用协同创新中心,南京 210023;3. 国家科技基础条件平台中心,北京 100862

科学数据是“数据—信息—知识—智慧”创新价值链的基础,是最基本的科技资源,对经济社会发展和科技创新起到重要作用。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》部署了实施战略性科学计划和科学工程的9大前沿领域。及时掌握这些前沿领域的科学数据共享现状和需求,对于更好地加强我国科学数据中心建设并发挥数据对前沿领域的支撑作用意义重大。文章跟踪人工智能、量子信息、集成电路、生命健康、脑科学、生物育种、深地、深海以及可持续发展9大领域数据库国内外进展,从数据资源情况、数据库/平台整合能力、应用服务以及典型案例等方面进行调研分析。以在海洋和地球系统科学领域具有代表性的德国PANGAEA数据库为代表,剖析其在组织架构、技术运维和运营管理流程等方面的特点。总结提出面向我国前沿领域需求的科学数据治理和发展建议。

数据共享;科学数据;数据库;PANGAEA;前沿领域;十四五规划

1 引言

随着“大数据”理念的普及和数据驱动科学研究“第四范式”的兴起,世界各国将科学数据视为一个国家重要的战略性资源和科技实力竞争的重要资本[1]。由各学科领域科学数据所构成的规范化、集成化和规模化的数据库体现着一个国家的科学数据积累和服务能力。发达国家已经将科学数据的持续积累和开放利用能力提高到了国家科技战略的高度进行部署,并投入了大量的人力、物力和财力,通过多年持续积累,形成了一批权威、长序列和多尺度的科学数据库,在科研过程中发挥了重要作用。例如,在农业科学领域,有被誉为世界上最古老的农业研究中心之一的英国洛桑农业实验站,拥有170年序列的土壤科学数据资料,其数据内容包括遗传学、生物化学、细胞生物学和生态系统研究等方面。该中心为科学家研究农业、环境、生态平衡和分子生物学等问题提供了宝贵的信息资源[2]。在地球科学领域,美国地球资源观测科学中心(EROS)存放着时间序列最长的Landsat等民用遥感卫星归档资料,并通过美国地质调查局(USGS)的门户对全球共享[3]。在生命科学领域,国际核酸序列共享联盟(INSDC)包括国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)和日本DNA数据库(DDBJ)3大数据库系统,形成领域内数据存储和共享使用的标准,接收并存储来自全世界科学家提交的组学数据[4]。

从国际视野整体来看,全球科学数据中心的发展仍然是主流态势。世界数据系统(WDS)①[https://www.worlddatasystem.org/]是国际上最大的科学数据组织。截至2020年12月,WDS共建立128个数据中心成员,其中有86个具有实体数据库平台的正式成员。其推出CoreTrustSeal(CTS)数据中心认证体系,提出TRUST原则(透明、责任、面向用户、可持续和技术),推动了全球科学数据共享和服务。Confederation of Open Access Repositories (COAR)②[https://www.coar-repositories.org/]是一个年轻的、迅速成长的开放存取知识库联盟,成立于2009年,是目前最为活跃的开放获取国际组织之一。目前,它拥有来自世界各地的140多名成员和合作伙伴,代表图书馆、大学、研究机构、政府资助者和其他利益相关方。

我国自上世纪80年代起,通过不同渠道建设了涉及诸多学科与行业领域的科学数据库。2018年3月,国务院办公厅印发《科学数据管理办法》[5]。同期,科技部、财政部印发《国家科技资源共享服务平台管理办法》,规范管理国家科技资源共享服务平台,推进科技资源向社会开放共享。2019年6月,科技部、财政部落实《科学数据管理办法》和《国家科技资源共享服务平台管理办法》的要求,按照《国家科技创新基地优化整合方案》对原有国家平台开展了优化调整工作,共形成“国家高能物理科学数据中心”等20个国家科学数据中心,逐步在建设和积累我国的科学数据库资源体系和服务体系[6]。中国在不同学科领域的科学数据中心也在蓬勃发展,例如,有世界可再生资源与环境数据中心(WDC-RRE)、全球变化科学数据出版系统和国家空间科学数据中心(NSSDC)等9家面向不同领域的数据中心进入WDS;有中国地震科学探测台阵数据中心、国家气象信息中心(CMDC)和中国天文数据中心(CAsDC)等多领域数据中心进入re3data.org系统。

围绕《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(“十四五”规划)的发展要求,国内数据中心的蓬勃发展发挥了很大的支撑和促进作用。但是这些数据中心与“十四五”规划中提到的优势领域对应性还不强,当前的科学数据中心还不能完全覆盖所有的学科领域,还需要针对性地加强支撑前沿领域发展的数据库。为此,本文面向国家中长期发展规划中的前沿领域数据需求,开展数据库调研分析和国际影响力较强的典型领域案例剖析,以助力于我国科学数据共享的发展。

2 重点前沿领域专题数据库调研情况

“十四五”规划提到要实施战略性科学计划和科学工程,要瞄准9大前沿领域,包括人工智能、量子信息、集成电路、生命健康、脑科学、生物育种、深地、深海以及可持续发展[7]。在此背景下,本次重点专题数据库调研从9大前沿领域中,分别遴选国内外有影响的数据中心,并从数据库概述、数据资源情况、数据库/平台整合能力、应用服务以及典型案例等多个方面进行调研与分析。

人工智能是计算机科学的一个分支,属于自然科学和社会科学的交叉。在实际应用中,人工智能可用于多个领域,例如在自动识别领域可服务于机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别和掌纹识别等。在国内外人工智能领域中,建有较为成熟的数据库/数据中心。例如,英国牛津大学机器人研究所的牛津机器人车数据集(Oxford RobotCar Dataset)③[https://robotcar-dataset.robots.ox.ac.uk/]和生物识别与安全技术研究中心(CBSR)④[http://www.cbsr.ia.ac.cn/]。前者是由汽车摄像头拍摄的照片组成的数据集,主要呈现行驶路线在一年内的变化,包含不同天气、交通和行人的组合,以及建筑和道路工程的变化。CBSR是国内专业从事生物特征识别的研究机构。两者相比较,牛津机器人车数据平台建设较为完善,提供了数据、手册、示例等,但数据集的应用范围较小,局限于英国街道。CBSR主要产出生物识别领域数据集,涉及数据集较多。此外,在应用方面,CBSR的CASIA-FaceV5数据集为亚洲人脸数据集,常被用于人脸识别应用。

量子信息领域是量子力学与信息学交叉形成的一门边缘学科。它的发展在各个方面影响着人类日常生活。比如,人类使用的互联网、计算机、手机导航和医院里的磁共振成像等,这些无一不依赖于量子科学的发展。在量子信息领域数据库的建设发展中,美国物理研究所的美国物理学会(APS)⑤[https://www.aps.org/]和依托于中国科学技术大学的合肥微尺度物质科学国家研究中心⑥[http://www.hfnl.ustc.edu.cn/]是国内外建设体系成熟、发展迅速的数据库/数据中心之一。APS是一个非营利性会员组织,它致力于通过学术期刊、科学会议以及教育、宣传和国际活动来促进和传播物理知识,是世界上最具声望的物理学专业学会之一。APS的成立时间远早于同类型的数据中心且人员组成丰富,资源庞大,共有5万多名成员,包括美国和世界各地的学术界、国家实验室和行业的物理学家。合肥微尺度物质科学国家研究中心是科技部在2017年批准组建的6个国家研究中心之一,它的研究方面涉及广泛,我国在量子科技领域取得的众多成果均有该中心的参与。在应用方面,合肥微尺度物质科学国家研究中心利用“墨子号”量子科学实验卫星,在国际上首次实现千公里级基于纠缠的量子密钥分发。

集成电路是微电子技术发展的基础,主要将常用电子元件,包括电阻、电容和晶体管等,通过半导体工艺集成在一起,形成具有特定功能的电路,在各行各业中发挥着非常重要的作用,是现代信息社会的重要基石。集成电路领域的数据库主要作用是关注半导体的发展情况,及时了解动态数据,来量化相关业务战略的有效性。国际典型数据库有总部位于美国加利福尼亚州圣何塞的世界半导体贸易统计数据库(WSTS)⑦[https://www.wsts.org/]。它不仅关注当前的市场状况,还可以预测未来半导体市场的发展,是提供全行业市场统计数据的重要来源。此外,这些市场信息还能帮助研究团队加强分析,并为调整关键基准提供重要的参考点。国内在该领域的典型数据库起步较晚,不过有一些潜力较大的数据库,如中国集成电路材料产业技术创新联盟参与建设的联合分析监测与技术合作服务平台⑧[http://www.icmtia.com/]。该平台着力于收集、发布联盟成员所属仪器和设备等资源,并向社会开放共享,以求推动国内半导体行业技术创新发展。与WSTS相比,该服务平台起步晚,主要通过持续发布更新仪器、设备信息,吸引更多企业、研究所和高校等能参与其中。

生命健康领域主要是指与人类健康紧密相关的生产和服务领域。在国内外数据库的发展进程中,该领域的数据库具有很重要的地位并且拥有成熟的管理体系。例如,在国际上该领域的典型数据库有国家生物技术信息中心(NCBI)⑨[https://www.ncbi.nlm.nih.gov/],国内则是有由深圳华大生命科学研究院(原深圳华大基因研究院)承建的(深圳)国家基因库(CNGB)⑩[https://www.cngb.org/]。NCBI建立于1988年,是公共生物医学数据库、分子及基因组数据的软件工具及计算机生物学研究的领先机构。它的使命是开发新的信息技术,以帮助理解控制健康和疾病的基本分子和遗传过程,其网站访问量每天大约在300万。CNGB建设于2011年,是世界领先的国家级综合性基因库,目前已初步建成了“三库两平台”的业务架构,拥有10TB+的元信息。从成立时间看,NCBI的建立早于CNGB,并且用户访问量也高于国内数据库。但CNGB拥有一些独有的优势,首先,CNGB不仅包括生物信息数据库,还包括生物样本资源库、动植物资源活体库、数字化平台和合成与编辑平台;第二,CNGB不仅仅进行样本和数据的存储,还实现了遗传资源存、读和写的全贯穿;第三,像NCBI、EBI和DDBJ等大多数国际数据库更多地面向科研,而CNGB在支撑科研的同时,也面向产业转化和应用。脑科学既是生物科学里较为神秘的领域,也是未来生命科学发展中很重要的一个领域。世界各国普遍重视脑科学研究,并有相应政策扶持。比如,国际脑研究组织(IBRO)于1995年在日本京都举办的第4届世界神经科学大会上,提议把21世纪称为“脑的世纪”;美国在101届国会通过一个议案“命名1990年1月1日开始的十年为脑的十年”;欧共体成立了“欧洲脑的十年委员会”及脑研究联盟;中国也提出了“脑功能及其细胞和分子基础”的研究项目,并列入了国家的“攀登计划”[8]。脑科学领域数据库的建立与发展,在推动脑科学的研究中起到很重要的作用,也是各国在发展该领域研究中很重要的前沿基础。例如,美国功能性磁共振成像组织2009年启动的1 000个功能性连接体项目(1000FCP)⑪[http://fcon_1000.projects.nitrc.org/index.html],目前已发布1 200多个静态功能磁共振数据集。它重视大规模数据集的共享,将脑科学研究数据标准的建立和数据平台的建设作为促进脑科学创新的关键。该数据在78个国家/地区的1 223个城市产生了超过9 000次下载和约32 000次页面浏览记录。该数据集在美国科学院院刊(PNAS)上的发表,证明了使用数据集进行数据汇集和发现科学的可行性[9]。国内典型数据库有中国科学院脑科学与智能技术卓越创新中心(CEBSIT)下设的脑科学数据与计算中心⑫[http://www.ion.ac.cn/]。该中心负责开发脑科学研究相关的数据处理与计算分析技术,协助攻克脑与类脑领域的科学、技术与工程问题,预期建成国际领先水平的多纬度、多层次脑科学数据库。

生物育种是利用遗传学、细胞生物学和现代生物工程技术等方法原理培育生物新品种的过程,因此数据库/数据中心更专注于物种信息的收集与整理,以支撑前沿科学的研究与发现。例如,美国马里兰州贝茨维尔国家种质资源实验室运营的美国种质资源信息网络(GRIN)⑬[https://www.ars-grin.gov/]和中国科学院植物研究所创建并负责运营的植物科学数据中心⑭[https://www.plantplus.cn/]。GRIN最初建立于20世纪70年代,致力于保护植物遗传多样性,提高作物的品质和产量。它专注的重点不仅包括植物种质体系,同时建立了微生物种质体系、动物种质体系以及无脊椎动物种质体系。植物科学数据中心为国家植物名录的建造和相关科研工作提供了重要支撑。这两个典型数据库有一个共同的特点,即数据量庞大,且面向群体广。例如,运用植物科学数据中心的彩色照片和物种信息等数据,研发出可识别5000余种植物的花伴侣专业版拍照识花APP,助力了对公众的科普教育,用户人群达1200万,总识别量1.6亿次。

从地球认知的角度,深地主要是探究地表以下的部分。例如,包括浅表的地下空间、地壳、地幔、地核和地心在内的整个固体地球系统。深地领域数据库的建立可以在防灾减灾、资源开发和科学发现等方面更好地服务国家和社会。在国际上,该领域典型数据库有英国地质调查局建设的全球地质一张图(One Geology)⑮[https://onegeology.org/]和美国国家科学基金会(NSF)资助的地质年代(GeoChron)⑯[https://www.geochron.org]。这两个数据库均启动和运行于2007年。One Geology致力于在网络上以最佳比例尺在全球范围内获取地质和其他地球科学数据;GeoChron旨在捕获完整的数据和元数据以记录地球年代。相对于国外两家在深地领域具有成熟运营管理体系的数据库相比,总部设在中国的国际深时数字地球科学计划(DDE)⑰[https://www.ddeworld.org/]正处于起步阶段。DDE计划是一项创新的国际大科学计划,它将为地球科学的发展提供新的机遇和方向[10]。上世纪,我国错失参与板块理论提出和建立的机会,导致在国际地球科学学术舞台上长期没有话语权和影响力。今天,我国科学家主导发起的DDE的顺利实施,将为我国科学家在新世纪数据驱动科学重大突破提供平台,创造难得机遇,对实现我国原始创新发展、显著提升我国地球科学水平和国际影响力以及实现地球科学强国具有重大的科学意义。

从字面上讲,国际上对深海的定义是位于200米以下的区域就属于深海区域。在该领域上,国际大洋发现计划(IODP)数据库⑱[https://web.iodp.tamu.edu/]是目前地球科学领域迄今为止历时最长、成效最大的国际科学合作计划之一。其中,LIMS数据库是IODP核心的数据库,其整体体系较为成熟,所含数据类型及共享方式也日趋完善和体系化。国内该领域的典型数据库有国家海洋局第一海洋研究所筹建的国家自然科学基金青岛海洋科学资料共享服务中心⑲[http://www.nsfcodc.cn/]。该中心建立的目的是开展自然科学基金海洋科学资料共享服务工作,建立各类海洋科学基金项目资料的收集、整编和共享服务体系。虽然中心起步较晚,但是其数据库的运营维护具有独特的特点。

2015年9月,联合国193个成员国在联合国可持续发展峰会上正式通过17个可持续发展目标(SDGs)[11]。可持续发展的内容包括生态可持续发展、经济可持续发展和社会可持续发展3个方面。开放SDG数据枢纽⑳[https://www.sdg.org/]是联合国通过地理空间数据帮助发展中国家实现和跟踪其可持续发展目标。它可以提供SDG指标的地理空间数据Web服务,适用于地图和其他数据可视化和分析表达,并以提供数据故事/数据案例的方式向用户展示。在国内,中国科学院战略性先导专项“地球大数据科学工程”建立的地球大数据科学工程数据共享服务系统(CASEarth)㉑[中文网站链接:http://www.casearth.cn/;英文网站链接:http://english.casearth.com/index.php]致力于构建全球领先的地球大数据基础设施、形成国际一流的地球大数据学科驱动平台和构建服务政府高层的决策支持平台[12]。例如,CASEarth全景展示和动态推演“一带一路”可持续发展过程与态势,实现对全景美丽中国可持续发展的精准评价与决策支持。该数据库的特点是将地球作为一个对象,以数字地球的概念将数据组织在一个平台上。

3 地球科学领域案例——PANGAEA数据库

PANGAEA O2是地球科学领域的一个国际数据库,由德国阿尔弗雷德韦格纳研究所、赫尔姆霍兹极地和海洋研究中心和不莱梅大学海洋环境科学中心共建。它不仅是地球与环境科学数据的出版平台,具有欧洲科技计划项目数据汇交、数据出版等数据仓储和服务功能,同时也是一个用于地球系统研究的开放式数据图书馆。其数据在空间和时间上都有地理参照,并可以储存在关系数据库和长期磁带档案中。

PANGAEA数据库的发展历程分为3个阶段。早期,它起源于1993年一个古气候数据管理的信息系统(科研项目),逐步发展为一个通用的工具;在2000年,它加入世界数据中心(WDS的前身WDC);在2005年后,与数字唯一标识符(DOI)和出版界合作,使用DOI来识别、共享、发布和引用每个数据集。PANGAEA数据库将数据作为科学论文的补充或作为可引用的数据集合与领域数据期刊紧耦合。它与Earth System Science Data (ESSD)、Geoscience Data Journal和Scientific Data等数据期刊相结合,并迅速在全球形成高影响力。PANGAEA数据库是ESSD期刊的指定仓储,它在2022年影响因子为11.815,是国际认可的顶级期刊。通过与ESSD等数据期刊合作,不仅迅速带动了其影响力,并且成功汇聚大量精品数据资源[13]。截至2022年11月,PANGAEA中有22972数据集和ESSD关联,并且它也承担了欧盟支持的多种项目的数据汇交工作,收录762个研究计划,414678个数据集,超过220亿条数据。

PANGAEA数据库收录的数据主要为地球科学数据,一级分类以学科要素为主,包括农业(AGRI- CULTURE)、大气(ATMOSPHERE)、生物分类(BIO- LOGICAL CLASSIFICATION)、生物圈(BIO-SPHERE)、化学(CHEMISTRY)、冰冻圈(CRYOSPHERE)、生态(ECOLOGY)、渔业(FISHERIES)、地球物理学(GEOPHYSICS)、人文方面(HUMAN DIMENSIONS)、湖&河(LAKES&RIVERS)、陆地表层(LAND SURFACE)、岩石圈(LITHOSPHERE)、海洋(OCEANS)和古生物学(PALEONTOLOGY)15个大类。从数量上看,PANGAEA数据库更偏向于收录地球化学类数据和岩石圈数据,均超过了13万条;湖&河、人文方面、渔业、农业类数据收较少,均没有超过千余条(图1)。

PANGAEA数据库的数据提取和存档工作流程分为4个部分:前台系统、编辑系统、中间件系统和后台系统(图2)[14],符合开放档案信息系统(OAIS)标准[15]。根据Diepenbroek等[14]专家的描述,PANGAEA数据库的数据首先使用前台系统(Jira)提交,并分配给相应数据领域的专家编辑,通过编辑系统完成输入数据的准备工作。编辑系统检查数据和元数据的有效性和完整性,并根据PANGAEA的导入格式重新格式化数据。编辑部的审查通过邀请作者和外部同行评价人员来完成。通过审核的数据被接受后,数据将被归档并提供DOI。该系统的元数据统一在DataCite内注册,提高数据的互操作性。除了人工提交和收录数据外,该系统还支持外部经过认证的程序访问。

非常值得一提的是,PANGAEA数据管理团队人员组成丰富,总计包括约50余人。运营团队由数据管理者、数据编辑和IT专家构成。领导管理层由4人构成且分工明确,职务分别为主任、人力团队负责人、技术团队负责人和主任助理。数据编辑5人,IT技术研发10人,项目和数据管理12人,数据咨询和服务12人,对外合作5人以及学术兼职人员4人。其中IT技术、数据管理和数据服务人员是其团队主体。

4 重点领域科学数据发展工作建议

4.1 继续加强和普及科学数据共享和治理的政策

面对国际科学数据治理态势,我国迫切需要进一步完善数据政策和生态体系。这包括科学数据全链条管理体系的健全和分类分组管理、科学数据的持续积累和增值开发利用、科学数据标准体系的完善及其国际化接轨、科学数据处理软件和工具自主开发等。发达国家重视科学数据库的建设,并形成了相对成熟的建设体系,这为我国数据生态的构建提供了一定的借鉴。美国在法律和制度保护下,依托国家航空航天局(NASA)、大气和海洋局(NOAA)和USGS等成立若干涉及地球科学、环境科学、生命科学等领域的数据中心[16]。英国研究理事会(RCUK)、英国癌症研究中心(CRUK)、欧盟委员会(EC)和维康信托(WT)等科研资助机构对英国科学数据库进行注资,并依托相应的国家部门构建,如隶属于司法部的英国国家档案馆[17]。澳大利亚通过高校系统促进科学数据库建设,尤其是在《Australian Code for the Responsible Conduct of Research》颁布后,更加推动了高校数据政策制定[18]。

图1 PANGAEA数据库各领域数据收录量(截止时间:2022-11-29)

图2 PANGAEA收录和归档工作流程的UML活动图[14]

4.2 权威科学数据中心要有权威的精品数据资源

科学数据中心是有信誉的数据银行,是数字化的科学研究基础设施。有信誉的数据银行,要求这个科学数据中心要有足够的影响力,要有标志性的精品科学数据库。例如,国际上的一些数据中心都有自己有影响力的数据产品。USGS的遥感卫星数据中心是地理学、地质学和水文学领域的全球重要数据中心之一,拥有自1972年开始的全球30m Landsat卫星系列的影像数据产品。哥伦比亚大学的国际地球系统科学信息网络中心(CIESIN)作为美国的分布式国家数据中心(DAACs)之一,拥有权威的全球人口空间数据集、城市极端高温数据集等。

4.3 可持续发展的科学数据中心要有稳定的能力结构

科学数据中心要具有长期可持续发展能力,需要重点加强3个方面建设。一是数据汇聚和存储能力,即要有足够的数据资源存量,例如PANGAEA数据中心拥有40多万个数据集,其数据量超过220亿条。二是数据处理分析能力,即,要有增值分析加工的能力,例如世界遥感大气数据中心(WDC-RSAT)研发和大气相关的遥感卫星数据产品,不但提供基础遥感科学数据和大气数据,而且提供再加工参数数据信息。三是,现代化的基础设施和用户界面,要有足够便捷的服务能力,例如英国国家档案馆数据中心的门户网站设计十分简洁、直接,完全按照用户需求定位服务项目,拥有良好的用户体验。

4.4 加强科学数据中心群体之间的合作

在全球治理的框架下,需要兼顾同一问题在不同学科领域和区域的多样化认知,加强多个领域和区域科学数据中心间的协同。各科学数据中心之间应避免重复建设和低水平的竞争,加强数据中心之间的优势互补。例如结合自身的学科或区域优势,推出本数据中心的关键参考型和资源型数据库;围绕重大国家或用户需求,提供有特色的专题数据服务;通过不间断的合作交流,提升各科学数据中心之间的协作水平。

4.5 对标国际加强国内前沿领域科学数据中心建设

在前沿领域调研中,发现国外数据中心在影响力和访问量等方面呈现3个等级。首先,美国物理学会、NCBI、IODP、One Geology和开放SDG数据枢纽可位于首级。例如,NCBI作为生命健康领域国际地位很强的数据库,其每天的网站访问量达到了300万,下载量达到了27TB;深海领域的IODP是地球科学领域迄今为止历时最长、成效最大的国际科学合作计划。影响力相对一般的包括WSTS、GRIN和Geo-Chron数据库。最后,由于牛津机器人车数据集和1000FCP在各领域的数据种类较为单一,影响力较为薄弱。结合这些认识,我国可更多借鉴优势数据中心的经验,加大在该领域投入力度,提升我国自身能力。

4.6 提早谋划国内前沿领域科学数据中心建设

结合国内十四五前沿领域科学数据中心调研,发现不同领域数据中心的学科、区域差异性明显,可以根据自身条件及时推动更多数据库和数据中心建设。例如,就国际大科学计划而言,DDE是由我国科学家主导发起的首批国际大科学计划之一,通过构建固体地球科学全领域知识体系与知识图谱,整合过去数十亿年地球时空大数据,为地球演化重大科学问题提供全球服务,因此具有很大的发展潜力。围绕人类命运共同体和可持续发展,可以考虑加强地球大数据支持可持续发展的相关数据平台建设,提升我国对支持联合国可持续发展目标的贡献度。在人工智能、量子信息以及集成电路领域,需要考虑扶持和培育更多有条件的数据中心建设,提升这些数据的大数据支撑能力。

[1] 卢雨生. 论大数据背景下科学发展的第四范式[J]. 现代交际, 2020, 13: 244-245.

Lu Y S. The Fourth Paradigm of scientific development in the context of big data [J]. Modern Communication, 2020, 13: 244-245.

[2] 黄丹丹, 李冬初, 张陆彪, 等. 湖南祁阳红壤实验站与英国洛桑实验站比较分析[J]. 世界农业, 2014(4): 146-151. DOI: 10. 13856/j. cn11-1097/s. 2014. 04. 029.

Huang D D, Li D C, Zhang L B, et al. Comparative analysis of Hunan Qiyang Red Soil Experimental Station and the British Lausanne Experimental Station [J]. World Agriculture, 2014 (4): 146-151. DOI: 10. 13856/j. cn 11-1097/ s. 2014. 04. 029.

[3] United States Geological Survey (USGS). (2021). https:// www. usgs. gov/centers/eros.

[4] Karsch-Mizrachi I, Takagi T, Cochrane G, et al. The international nucleotide sequence database collaboration[J]. Nucleic Acids Research, 2018, 46(D1): D48-D51.

[5] 科学数据管理办法(国办发〔2018〕17号)[EB/OL]. http:// www. gov. cn/zhengce/content/2018-04/02/content_5279272. htm.

Administrative Measures for Scientific Data (GBF [2018] No. 17) [EB/OL]. http://www. gov. cn/zhengce/content/2018- 04/02/content_ 5279272. htm.

[6] 科技部财政部关于发布国家科技资源共享服务平台优化调整名单的通知(国科发基〔2019〕194号)[EB/OL]. http://www.most.gov.cn/ xxgk/xinxifenlei/fdzdgknr/qtwj/qtwj2019/201906/t20190610_ 147031. html.

Notice of the Ministry of Science and Technology and the Ministry of Finance on Issuing the List of Optimization and Adjustment of the National Science and Technology Re-source Sharing Service Platform (GKFJ [2019]No. 194) [EB/ OL]. https://www.most.gov.cn/xxgk/ xinxifenlei/fdzdgknr/qt-wj/qtwj2019/201906/t20190610_147031. html.

[7] 中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要[EB/OL]. https://www.ndrc.gov.cn/xxgk/ zcfb/ghwb/202103/t20210323_1270124.html?code=&state=123.

Outline of the 14th Five-Year Plan (2021-2025) for National Economic and Social Development and Vision 2035 of the People's Republic of China[EB/OL]. https://www.ndrc.gov.cn/ xxgk/zcfb/ghwb/202103/t20210323_1270124.html?code=&state= 123.

[8] 傅俊英, 赵蕴华, 王道仁, 等. 基于论文和专利的中美脑科学领域对比研究[J]. 现代生物医学进展, 2017, 17(1): 170-176.

Fu J Y, Zhao Y H, Wang D R, et al. Study on gaps between China and the U. S. based on paper and patent in the field of brain science[J]. Progress in Modern Biomedicine, 2017, 17 (1): 170- 176.

[9] Biswal B B, Mennes M, Zuo X N, et al. Toward discovery science of human brain function[J]. Proceedings of the National Academy of Sciences, 2010, 107(10): 4734-4739.

[10] Wang C S, Hazen R M, Cheng Q M, et al. The Deep-Time-Digital Earth program: data-driven discovery in geosciences [J]. National Science Review, 2021, 8(9): nwab027.

[11] UN. Transforming Our World: The 2030 Agenda for Sustainable Development. (2015-09-02) [2022-11-29]. https://sdgs.un. org/ 2030agenda.

[12] 郭华东, 梁栋, 陈方, 等. 地球大数据促进联合国可持续发展目标实现[J]. 中国科学院院刊, 2021, 36(8): 874-884.

Guo H D, Liang D, Chen F, et al. Big earth data facilitates sustainable development goals[J]. Bulletin of Chinese Academy of Sciences, 2021, 36(8): 874-884.

[13] Schumacher S, Sieger R. An introduction to the Data Library PANGAEA [C]. 2012.

[14] Diepenbroek M, Schindler U, Huber R, et al. Terminology supported archiving and publication of environmental science data in PANGAEA [J]. Journal of biotechnology, 2017, 261: 177-186.

[15] Lee C A. Open archival information system (OAIS) reference model[J]. Encyclopedia of library and information Sciences, 2010, 3: 4020-4030.

[16] 王卷乐, 王明明, 石蕾, 等. 科学数据管理态势及其对我国地球科学领域的启示[J]. 地球科学进展, 2019, 34(03): 306-315. DOI: 10. 11867/j. issn. 1001-8166. 2019. 03. 0306.

Wang J L, Wang M M, Shi L, et al. The situation of scientific data management and its enlightenment to earth sciences of China [J]. Advances in Earth Science, 2019, 34 (3 ) : 306-315. DOI: 10. 11867/j. issn. 1001-8166. 2019. 03. 0306.

[17] 王卷乐, 石蕾, 王淑强, 等. 国际科学数据管理概述[M], 北京:科学技术文献出版社, 2021.

Wang J L, Shi L, Wang S Q, et al. Overview of International Scientific Data Management [M], Beijing: Scientific and Technical Documentation Press, 2021.

[18] 完颜邓邓. 澳大利亚高校科学数据管理与共享政策研究 [J]. 信息资源管理学报, 2016, 6(1): 30-37.

Wanyan D D. Research on the scientific data management and sharing policies in Australian universities [J]. Journal of Information Resources Management, 2016, 6(1):30-37.

Research and Analysis of Typical Databases in Major Frontier Fields at Domestic and International Level

DUAN Bowen1, WANG Juanle1,2*, SHI Lei3, GAO Mengxu3

1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences Natural Re-sources Research, Chinese Academy of Sciences, Beijing 100101, China; 2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China; 3. National Science and Technology Infrastructure, Beijing 100862, China

Science data is the basis of the innovation value chain "data-information-knowledge-wisdom", and is the most basic science and technology resource, which plays an important role in economic and social development and scientific innovation. “Outline of the 14th Five-Year Plan (2021—2025) for National Economic and Social Development and Vision 2035 of the People's Republic of China”deployed nine frontier areas for the implementation strategic science programs and science projects. A timely grasp of the current situation and demand for science data sharing in these frontier areas was significant for better strengthen the construction of China's Science Data Center and to play the role of data support for the frontier areas. This paper tracked the domestic and foreign progress in nine areas databases including artificial intelligence, quantum information, integrated circuits, life and health, brain science, biological breeding, deep earth, ocean science, and sustainable development, and investigated and analyzed from data resources, database/platform integration capabilities, application services and typical cases. The study took PANGAEA database as a representative case, which in German and in the deep sea and earth system science field, analyzed its characteristics in organizational structure, technical operation and maintenance, and operation and management process. Suggestions for scientific data governance were proposed for the requirements of frontier fields development.

data sharing; science data; database; PANGAEA; frontier areas; 14th Five-Year Plan

段博文,王卷乐,石蕾,等. 前沿领域国内外典型数据库调研与启示[J]. 农业大数据学报, 2023,5(1):46-54.

DUAN Bowen,WANG Juanle, SHI Lei, et al. Research and analysis of typical databases in major frontier fields at domestic and international level[J].Journal of Agricultural Big Data,2023,5(1): 46-54.

10.19788/j.issn.2096-6369.230113

2022-11-30

国家重点研发计划项目(2022YFF0711600);国家科技基础条件平台委托任务(2020WT22)

第一作者代段博文,女,研究生,研究方向:环境科学;E-mail:duanbw@lreis.ac.cn。通信作者王卷乐,男,研究生,研究方向:资源环境数据集成与共享;E-mail:wangjl@igsnrr.ac.cn。

猜你喜欢
数据中心领域数据库
酒泉云计算大数据中心
领域·对峙
民航绿色云数据中心PUE控制
数据库
数据库
数据库
数据库
基于云计算的交通运输数据中心实现与应用
新常态下推动多层次多领域依法治理初探
Overlay Network技术在云计算数据中心中的应用