摘要:科学数据的重要性已得到广泛共识,随着科学数据的不断积累,其数据处理分析软件的能力水平将成为科学数据能否高效发挥作用的关键和瓶颈。地球科学领域研究涉及多尺度、多类型、多来源的数据,其数据处理与分析软件的需求极为强烈。本研究针对地球科学领域的特点,分析其主要数据处理和分析软件的现况,辨识我国的软件自主程度。调研分析涉及地理、海洋、地质、大气、生态、灾害、农业等16个专题,选取了177个主流软件/工具,重点获取其软件/工具名称、概况、主要功能、应用服务/典型案例、优缺点、对标产品等指标。分析发现地学科学数据处理与分析领域软件/工具完全开放(开源)的占三分之二,商业的、限制性的或开放程度不明确的占三分之一。主要软件/工具开发国家有美国、中国、加拿大、英国等以及一些国际组织。从专题分布看,主要体现在土地退化、人口社会经济、知识图谱、遥感处理等。自主保障风险较高的软件主要在空间化、大气、野火、冻土等专题。约三分之一的专业软件/工具可以直接应用到国家科学数据中心,且可与云平台结合。结合人工智能时代和“数据要素×”的发展,从五个方面提出加强我国自主科学数据处理软件/工具的开发应用建议。
关键词:地球科学;科学数据;软件/工具;自主性;国家科学数据中心
1 "引言
科学数据是信息时代传播速度最快、影响面最广、开发利用潜力最大的战略性、基础性科技资源。随着大数据时代的到来,海量科学数据不断产生,以数据驱动为特征的科学研究方法发生了重要的范式变革[1]。在国际视野下,各国均在加强对科学数据的产出汇聚、共享管理和创新应用。美国重视科学数据的积累和重用,在立法层面制定国家科学数据管理的基本原则,从国家层面管理和部署科学数据工作,通过多年持续积累,形成了一批权威、长序列、多尺度的科学数据库,这些科学数据库在科研过程中发挥了重要作用[2]。例如,美国航空航天局(NASA) 持续进行各类太空任务和卫星观测,产生大量对地观测科学数据,涉及地球、太阳系和宇宙等多个空间尺度。美国地质调查局(USGS) 开发的Earth Explorer软件可以提供卫星、飞机和其他遥感产品的在线搜索服务,具有数据量大、实时更新、开放共享等特点。欧盟提出的“地平线2020”(Horizon2020)宣布从2017年开始全面实施科学数据开放制度,促进知识发现和科研创新,进一步推动欧盟“开放科学”战略[3]。日本政府在数据开放方面发展速度也较快。2011年发生的“3·11”东日本大地震促使日本政府意识到开放数据在防灾减灾领域具有积极作用,推动了政府数据开放的进程;至2019年12月,日本内阁会议通过了《数字政府实施计划》,旨在到2025年建立一个使国民能够充分享受信息技术便利的数字化社会[4]。我国也高度重视科学数据的共享和应用。2019年6月,科技部、财政部落实《科学数据管理办法》和《国家科技资源共享服务平台管理办法》的要求,组建了“国家高能物理科学数据中心”等20个国家科学数据中心[5],作为管理和服务数据的核心机构。此外,在各政府部门、科研机构也形成了一批层次不同、类型多样的科学数据中心,为推动科学数据共享共用、提高资源利用效率发挥了积极作用[6]。2023年底,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,其选取科技创新、工业制造、现代农业、商贸流通、交通运输等12个行业和领域,推动发挥数据要素乘数效应,释放数据要素价值,并从提升数据供给水平、优化数据流通环境、加强数据安全保障等3方面,强化保障支撑[7]。
科学数据的重要性已得到广泛认识,但随着科学数据的不断积累,其数据处理软件/工具的能力逐渐成为科学数据能否发挥作用的关键和瓶颈。例如,在发展中国家中,尼日利亚是非洲大陆上经济最大的国家之一,拥有丰富的自然资源和人力资源。尽管该国政府机构收集了大量的数据,包括人口统计数据、经济指标、卫生数据等,但由于数据处理和分析能力不足,这些数据未能充分发挥其潜在的价值[8]。科学数据处理和分析离不开软件/工具,其发展水平直接决定着科学数据的应用能力。但目前这些软件/工具在使用过程开放程度不一,存在各种影响和限制因素。例如,Google Earth Engine(GEE) 是一种提供大规模数据处理能力的平台,利用Google的云计算基础设施,可监测土地利用和土地覆盖变化、研究气候变化的影响、监测自然灾害、分析生态系统变化、评估水资源变化以及提供农业决策支持等。然而,对于大规模数据使用会涉及费用问题,并且某些功能受到Google平台政策限制。ArcGIS 是一款地理信息系统平台,被广泛认为是处理地图及地理信息的领先软件之一,其特点包括强大的空间分析能力、高效的大数据存储与管理、成熟的技术体系、稳定的安全性以及领先的影像管理技术。然而,需要指出的是,ArcGIS是商业软件,存在不开源、应用平台不兼容等问题。
提升软件的自主保障能力是发挥数据共享利用效益的关键,使用国产软件也是提高本国数据安全的一个重要途径。近年来,随着信息技术的飞速发展和数据交换的增加,对数据安全和隐私保护的需求日益迫切。在《科学数据管理办法》中,明确提出在“加强和规范科学数据管理,保障科学数据安全”的基础上提高开放共享水平,该办法也专门设立了“保密与安全”这一章节,强调了主管部门、法人单位和科学数据中心等主体在数据安全方面的责任和要求[9]。此外,为了落实国家安全制度,保障公民信息数据权益,我国制定了《中华人民共和国网络安全法》(2017年)[10]《中华人民共和国数据安全法》(2021年)[11]《中华人民共和国个人信息保护法》(2021年)[12]等法律。国家互联网信息办公室等部门又陆续发布了《数据出境安全评估办法》《个人信息出境标准合同办法》《信息安全技术—个人信息安全规范》《个人信息跨境处理活动安全认证规范》等管理办法及标准,全面支撑数据跨境流动体系的构建[13]。这些法律对数据出境等方面做出了若干原则性规定,提出了一系列合规要求,构建起我国数据保护的监管框架。在这些法律指导下,加强我国自主软件和自主数据的开发和利用是对国家安全的重要支撑。地球科学领域的数据具有突出的复杂性和多样性,涵盖了大气、海洋、陆地、地球内部、人与生态等多要素数据,具有学科领域数据处理的典型代表性。因此,本研究针对地球科学多个专题,开展数据处理与分析软件的自主安全现状调研,并预期通过对比分析提出相应建议。
2 "研究方法
2.1 "调研大纲
本次调研主要覆盖以下几个关键指标:软件/工具名称、概况、主要功能、应用服务/典型案例、优缺点、国别及国内对标软件、参考资料等。
(1)软件/工具名称
软件/工具的官方规范名称,部分有通用简称的亦可提供。
(2)软件/工具概况
软件/工具的开发历史、版本及其变化、开发维护团队、支持语言和平台。
(3)软件/工具的主要功能
软件/工具的核心功能和特色,技术实现和应用场景,以及其满足特定专题领域的需求情况。
(4)应用服务/典型案例
软件在实际应用中的具体案例,了解不同场景中的应用效果和用户反馈。
(5)优缺点
客观分析软件的优势,如易用性、功能丰富、性能优异等。指出软件的潜在不足,如界面复杂、资源消耗大、兼容性问题等。
(6)国别及国内对标软件
介绍软件的来源国家及其在该国的市场地位,
对比国内市场上的类似软件,分析它们的相似点和差异。
2.2 "软件/工具分组
结合地球科学的应用领域分布,对调研获取的177个国内外软件/工具进行分组,见表1所示。共包括16个专题,分别是遥感处理、土地覆盖、海洋、地质、大气、生态评价、资源承载力、冻土、野火、草地、农业、土地退化、自然灾害、人口社会经济、空间化以及知识图谱。
3 "研究结果
3.1 "所属专题分析
调研到的各专题软件/工具如表2所示。土地覆盖、人口社会经济、草地、知识图谱、资源承载力、自然灾害、海洋、地质、遥感处理和大气等专题的软件/工具数量均超过10个,反映出地学领域的软件/工具发展倾向于支持综合性应用的场景。需要深度专业知识的专题,如土地退化、空间化和冻土等,则软件/工具数量相对较少。与国际开发的软件/工具相比,国产软件主要突显在土地退化、人口社会经济、知识图谱和遥感处理等专题。这反映出我国地学研究的区域特色,即关注在生态环境、土地退化、人口社会经济可持续发展、遥感应用等。
土地覆盖的主流数据产品库有Radiant MLHub、ESA WorldCover、LandCoverNet等,土地覆盖模拟模型工具有FLUS、PLUS等。这些数据和模型工具揭示了全球地表覆盖的土地类型历史、现状及未来情景的模拟,对地球表层系统、环境变化和可持续发展研究具有重要意义。自然灾害方面,现有的软件/工具在模拟能力方面有很大提高,如泥石流、地震、洪水和雪崩等。它们结合了大数据分析、数值模拟和地理信息系统(GIS)等技术,可为决策者提供实时的灾害预警和风险评估。海洋专题软件/工具多用于分析和可视化数量庞大的海洋数据集,对于海洋生态系统、气候变化和全球生物地球化学循环研究至关重要。地质专题主要是地球科学和地质工程领域中用于数据分析、建模和可视化的高级软件/工具。它们被广泛应用于自然资源评估、地质建模、环境分析和矿山规划等多种任务中。遥感数据处理主要面向于海量科学数据的高速计算与处理,近年来遥感处理软件与云计算、边缘计算的深度融合使得大批量的数据资源得以高效计算。大气专题软件多为可对气候模式、蒸散发、大气成分、气象要素等提供数据计算的平台和方法,例如全球气候以及近地表环境参量的模拟、下垫面复杂多样的地表蒸散发和干旱指数计算、气象数据反演、预估水循环能力,以及气象灾害预测预防能力等。农业专题使用的软件/工具不断演进,不仅可以更好地监测农田状况、作物生长情况和资源利用效率,还支持大规模数据的存储、处理和分析,提供农业生产管理决策支持。生态方面软件在生态学研究和生态系统管理中发挥着重要作用。这些软件通常用于模拟、分析、监测和管理各种生态系统,以及评估人类活动对生态系统的影响,主要有AHP、GeoDetector、GWR、SRP等。
这些软件/工具涉及很多交叉的应用学科领域。对调研软件/工具的概况、主要功能、应用服务/典型案例等文本信息进行分词、清洗和梳理,采用了权重分析方法来深入调研软件/工具的应用专题领域(图1)。在涉及的177个软件/工具中,“地理”领域是被应用最多的方向,词频超过30次。其次是生态、灾害、海洋和信息学等领域,这些方向的词频均在15次以上。从图1可以看到地理、生态、灾害、海洋、信息、地质、草地等领域具有较鲜明的主流软件特征。而在农业、土地利用、冻土、人口等领域的频次下降,反映出软件/工具的产品较少。
3.2 "所属国家分析
调研软件/工具主要分布在15个国家和区域,其中包括美国、中国、加拿大、英国和荷兰等(图2)。另有19个软件/工具由国际组织或多国协作共同开发或运营。在这些国家中,美国是软件/工具开发的巨头,
其开发的软件/工具占比近40%。相较之下,其他国家的软件/工具开发相对较为有限,绝大多数国家的软件/工具数量不超过10个(包含10个),美国在地学领域软件/工具研发处于主导地位。欧洲在全球范围内软件/工具的开发也处在较为突出地位。非洲、南美洲、“一带一路”沿线国家缺少在地学领域的软件/工具研发,呈现出相对较低的集中度。
3.3 "时间区域专题多维分析
在开发应用时间方面,在草地及生态专题中应用较为广泛的Maximum Entropy Modeling(MaxEnt) 开发时间最早,可追溯至1957年。从图3可知,自2000年以后,软件/工具开发呈现出较为集中的趋势。对于一些新兴的应用领域,如知识图谱,其相关软件/工具的开发时间主要聚焦在2010年以后;而在遥感处理研究专题,开发时间主要集中在2005年之后。这一现象表明软件/工具的开发时间与学科领域的发展趋势密切相关。在农业、草地等专题,大多数软件/工具的开发时间早于2000年,并且近年几乎没有新的软件/工具开发。这进一步说明该专题已有的软件/工具部分较为成熟,基本可以满足当前需求。美国开发的软件/工具几乎在调研的所有应用专题中都有涉及,其次是中国,覆盖了11个专题。此外,许多应用专题中有近5个国家(或国际组织)都开发了不同的软件/工具,然而在空间化、土地退化、冻土、生态评价等专题,仅有两个国家(或国际组织)开发了不同的软件/工具。
3.4 "开放程度分析
软件/工具的开放程度对于全球软件开发的知识共享和推广应用影响显著。在图4的软件/工具开放程度分析中,免费的软件/工具在地学领域占据大多数(占调研总体的67.8%)。美国开源/免费的软件/工具
达到68%,中国为57%。具体而言,针对海洋大数据处理、生态评价、冻土等大多数应用专题,相当一部分软件/工具是以免费形式提供给用户的。然而,在地质、资源承载力评估、自然灾害、知识图谱等专题,一定数量的软件需要用户支付费用。除此之外,调研过程中也有其他情况,如软件/工具的特定版本或者特定用途需要支付费用。用户在选择和使用时会考虑这些外部因素以衡量是否选用。
对有开发时间节点的145个软件/工具进行以5年为周期的软件/工具开源情况分析(见图5,在统计过程中开放访问数据的平台也视作开源)。软件/工具总数、免费软件/工具以及开源软件/工具数量整体趋势一致,呈现先增长后减少的趋势。可发现开源软件/工具数量在2005—2009年达到了峰值,之后有所下降,这可能反映出开源社区的发展经历了一个高速增长期后进入了一个相对平稳或调整的阶段。开源软件的减少也可能与开发者对知识产权、商业化潜力和安全性等因素的重新评估有关。
3.5 "与云平台的结合程度
对全球177款地学领域软件/工具调研中,发现有60款软件已经整合了在线云平台技术或者具备与云平台技术结合的潜力,占到了总数的三分之一以上。这一发现凸显了云计算在地学研究中的日益重要性。进一步分析指出,中国在地学领域的国家级科学数据中心均拥有广泛的软件应用空间,包括国家对地观测科学数据中心、国家极地科学数据中心、国家青藏高原科学数据中心、国家冰川冻土沙漠科学数据中心、国家地球系统科学数据中心、国家农业科学数据中心、国家林业和草原科学数据中心、国家气象科学数据中心、国家海洋科学数据中心,以及国家生态科学和国家地震科学数据中心(图6)。遥感处理、土地覆盖、海洋、地质、草地、空间化以及知识图谱专题的软件/工具在上述11个地学领域国家数据中心均存在应用方向和前景。资源承载力、农业、土地退化专题的软件/工具应用面相对较窄,主要可能应用于国家农业科学数据中心、国家林业科学数据中心、国家生态科学数据中心以及国家地球系统科学数据中心等。应用面较广的地学领域科学数据中心,如地球系统、对地观测、农业等,其可用软件数在近100个及以上。各种软件/工具,包括云计算平台、随机森林算法工具、Python等开源分析软件以及WorldCover等数据库,都能在这些数据中心的云计算环境中提供必要的数据、算法和技术支持。时间序列分析显示,随着时间的推移,越来越多的软件和工具开始采纳云平台技术或者支持云平台技术的开发,反映出地学领域技术进步的发展趋势。
4 "讨论与建议
4.1 "地学领域软件/工具布局与领域发展
在地学领域的软件/工具布局方面,存在着开源软件发展受限、自主研发能力不足等多个方面的问题。开源软件虽然一度蓬勃发展(1990—2009年),但随后出现增长放缓的现象(2010—2023年),这反映出知识产权保护、商业化潜力等方面的挑战。尽管在地学领域中土地退化、人口社会经济、知识图谱、遥感处理等专题取得了一定进展,但特定专题如大气科学
和野火等的软件/工具开发高度依赖国外,自主研发能力不足。从国际视角来看,美国开发的软件/工具几乎涉及所有调研的应用专题,具有明显的技术优势。在空间化、土地退化、冻土、生态评价等专题仅有2个国家(或国际组织)参与研发,反映出部分专题的软件支撑度低。非洲、南美洲以及“一带一路”沿线国家的软件支撑度相对较弱,这可能由多个因素的影响所致,如基础设施和数字化发展不足、缺乏教育和人才培养水平等。此外,国内软件/工具开发多呈现出模仿国际方案的趋势,缺乏原创性和创新性,限制了其市场竞争力。
建议:1)增加对开源软件社区的支持和参与,以及加强科技软件的自主研发能力,特别是在那些自主保障程度较低的关键专题,是提高软件自主性的关键。2)鼓励原创性思维和创新,通过独立研发和创新设计的策略来提供多样化和个性化的服务,从而增强市场竞争力。3)加强与国家科学数据中心的合作,通过数据共享、云计算资源利用等方式,建立软件/工具共享
机制,提高软件/工具的数据处理能力和效率。
4.2 "科技软件/工具的开放与共享发展建议
当前的软件/工具中有部分免费软件/工具,主要体现在海洋大数据、生态评价、冻土等应用专题,但在地质、资源承载力评估、自然灾害、知识图谱等特定专题,还以商业化的软件为主,这可能会限制特定领域研究者或企业的接入和使用。此外,软件/工具的不同版本以及特定用途下的费用问题,增加了用户选择软件时的复杂度和使用成本。这种开放程度的差异性,不仅影响用户的使用体验,也可能影响到软件的普及率和领域内的研究发展。
建议:1)加强政府和机构对开发免费或低成本软件/工具的资助和支持,尤其是在软件依存度高的专业领域。2)鼓励开发者提供多版本软件,包括功能有限的免费版本和高级功能的付费版本,以满足不同用户的需求并促进软件普及,增强用户体验。3)鼓励搭建软件共享平台,促进行业内软件/工具的交流和共享,特别是针对研究和学术用途的软件。
4.3 "科技软件/工具的自主保障上的展望与挑战
尽管有一部分国产软件产品在地学领域应用(占调研比例的26.6%),但在关键软件产品研发中,我国面临着缺乏具有颠覆性和革命性意义的创新产品问题。例如,在遥感处理和地理信息数据处理软件中的软件/工具,大多是在国际知名云计算平台以及空间化产品的影响和启发下发展而来。这种模仿式的发展策略虽然在一定程度上促进了国内软件/工具的增长,但也导致了原创性和创新性的不足。由于这些软件/工具在设计和功能上过度依赖于已有的国际成功方案,它们往往难以形成独特的竞争优势。相对于那些影响力大的国外软件,国产软件的用户群体规模较小,进一步导致了这些软件后期生态系统的建立和维护变得更为困难。这种情况不仅限制了软件的普及和应用,也减弱了其在市场上的竞争力和可持续发展潜力。
建议:1)加强对国产软件研发的支持,尤其是在目前参与度较低的专题,如大气、野火等,可增加研发投入和政府政策扶持。2)鼓励国产软件/工具走向国际,提升国际影响力,通过参与国际合作项目、国际标准制定等方式提高软件/工具可见度和认可度。3)促进学科领域间的国际交流和合作,鼓励多学科融合的软件/工具开发,提高软件/工具的通用性和适用性。
4.4 "数据软件发展与国家科学数据中心的契合
本次调研的部分软件/工具与国家科学数据中心
的契合度存在不足。尽管部分地学领域的数据中心已经在加强软件/工具的开发和应用方面取得了一定进展,但是开发的力度尚不够,尚未形成明显的趋势。随着科学数据的快速增长,现有的软件/工具可能无法完全满足高效处理和分析这些数据的需求。随着时间的推移,越来越多的软件和工具开始采纳云平台技术或支持云平台技术的开发。现有的云平台大多起到数据仓储的作用,但数据利用和开发能力还有提升空间,尤其是在数据分析、处理和应用服务等方面。这说明,云计算技术在国家科学数据中心的应用潜力远未被挖掘。
建议:1)加强软件/工具与国家科学数据中心的合作,特别是在数据共享、云计算资源利用等方面,提高软件/工具的数据处理能力和效率。建议进一步探索和优化地学领域软件与国家科学数据中心的契合度。2)促进软件/工具的标准化和模块化发展,以便更好地集成到国家科学数据中心的技术体系中,提升数据利用的灵活性和便捷性。3)加强算法工具与数据库的整合,推动具体专题在开放、协作和智能化方向的发展,促进大数据与人工智能相结合的科研范式的变革。
4.5 "国家科学数据中心软件/工具开发利用建议
国家科学数据中心是我国科技基础设施的重要组成部分,其主要分布在地球科学、生物科学、物理学、天文学、农学、林雪、医学、材料科学等重点学科领域,各中心根据学科领域特点建立科学数据资源体系。据2022年中国科学数据资源发展研究报告显示[14],截至2020年年底,20个国家科学数据中心整合的数据总量达到104.1PB,发布共计97 093条资源目录数据。另外,国家科学数据中心基于所管理的学科领域数据,面向科研应用的实际需求,研发和形成了一大批具有影响力的特色软件/工具。例如,在空间科学领域,研发融合处理加工类、分析挖掘类、重大任务支撑类和科普传播类软件/工具共40个;在基础学科领域通用、学科领域分析和挖掘工具近20个;在海洋领域研发了分析产品制作工具、数据自动化清洗工具、研究数据处理工具等。许多国家科学数据中心同时也是国际数据仓储,承担着国内外数据汇交、期刊论文存档等重要作用,如国家青藏高原科学数据中心 ,国家空间科学数据中心 、国家高能物理科学数据中心 、国家地球系统科学数据中心 等。随着这些数据中心数据量的不断增加,其数据资源开发利用的潜力越来越大。如何挖掘这些资源,加强增值加工和服务,是当前的紧迫需求。
建议:1)参考国际主流软件的先进经验和技术,以加强自主研发能力的提升,特别是在用户体验、数据安全和处理效率等方面,从而提升国家数据中心软件/工具的国际竞争力。2)培训和建立跨学科开发团队,鼓励软件工程师、数据科学家、地学研究者等不同背景的专家共同参与软件/工具的开发,以确保软件/工具更好地服务于地学领域的研究和应用需求。3)建立更加开放的数据和软件/工具共享机制,鼓励国内外的科研机构、高校和企业参与到国家数据中心的软件开发和改进工作中,共同推进软件/工具的创新和优化。
5 "结语
本文面向地学科学数据处理分析工具的自主性问题,开展了地学领域科学数据处理分析软件调研与分析。通过对地学16个专题领域的177个软件在总体领域分布、国别分布、时间演变、开放程度、与云平台结合程度等方面分析,初步识别出现有软件发展现状及我国科学数据中心与这些软件/工具之间的契合度。在此基础上,从地学领域软件/工具布局与领域发展、软件/工具的开放与共享发展、科技软件/工具的自主保障、软件/工具发展与国家科学数据中心的契合、国家科学数据中心软件/工具开发利用等方面提出相应的发展建议。需要说明的是,由于检索语言和检索方式限制,本研究调研的软件/工具数量和范围尚不充分,还有许多未在线的软件/工具、多语言的软件/工具以及未被搜索引擎发现的软件/工具未纳入统计,未来应进一步结合实践在更大范围开展调研和对比。
参考文献
[1] 王卷乐,王明明,石蕾,等.科学数据管理态势及其对我国地球科学领域的启示.地球科学进展[J],2019,34(3):306-315.
[2] 王卷乐,石蕾,王淑强.国际科学数据资源管理概述[M].北京:科学技术文献出版社,2021.
[3] 张玉娥,王永珍.欧盟科研数据管理与开放获取政策及其启示——以“欧盟地平线2020”计划为例[J].图书情报工作,2017,61(13): 70-76.
[4] 黄雨婷,傅文奇.日本政府数据开放的政策保障及其启示[J].数字图书馆论坛,2020(9):9-17.
[5] 科技部财政部关于发布国家科技资源共享服务平台优化调整名单的通知(国科发基〔2019〕194 号)[EB/OL]. http://www.most. gov.cn/xxgk/xinxifenlei/fdzdgknr/qtwj/qtwj2019/201906/t20190610_ 147031.html.
[6] 石蕾,高孟绪,徐波,等.欧美建设发展科学数据中心的经验及对我国的启示[J].中国科技资源导刊,2022,54(3):31-36+110.
[7] 国家数据局等部门关于印发《“数据要素×”三年行动计划(2024—2026年)》的通知(国数政策〔2023〕11号). [EB/OL]. https:// mp.weixin.qq.com/s/YyhLQo4lZIFNMiyupdvO1A.
[8] Oluwaseun O O, Uzochukwu B, Aderemi A. Data Analytics in Nigeria: Challenges, Opportunities and Future Directions[C]//Proceedings of the 2019 2nd International Conference on Computational Intelligence and Intelligent Systems (CIIS 2019) (pp. 110-114). Association for Computing Machinery.
[9] 廖方宇,胡良霖,王健,等.科学数据安全标准研究与工作建议[J].科学通报,2024,69(9):1142-1148.
[10] 中华人民共和国网络安全法[EB/OL]. https://www.cac.gov.cn/2016- 11/07/c_1119867116.htm?eqid=ac15f20d0001418a00000006648a8b25.
[11] 中华人民共和国数据安全法[EB/OL]. https://www.gov.cn/xinwen/ 2021-06/11/content_5616919.htm.
[12] 中华人民共和国个人信息保护法[EB/OL]. https://www.gov.cn/ xinwen/2021-08/20/content_5632486.htm?eqid=898a0e2f0002ace800000003648fb2c2.
[13] 王珺,周小林,沈云怡,等.科学数据跨境流动治理的现状、思考与展望[J/OL].科学通报, 2024:1-11.
[14] 国家科技基础条件平台中心.中国科学数据资源发展研究报告[M].北京:科学技术文献出版社,2022.
引用格式:王卷乐,李凯,段博文,苏娜.地学领域科学数据处理与分析软件自主性分析[J].农业大数据学报,2024,6(2):230-240.DOI: 10.19788/j.issn. 2096-6369.000046.
CITATION: WANG JuanLe, LI Kai, DUAN BoWen, SU Na. Analysis of Autonomy in Geosciences Data Processing and Analysis Software[J]. Journal of Agricultural Big Data, 2024,6(2):230-240. DOI: 10.19788/j.issn.2096-6369.000046.
Analysis of Autonomy in Geosciences Data Processing and Analysis Software
WANG JuanLe1,2,3*, LI Kai1,2, DUAN BoWen1, SU Na4
1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China; 2. College of Resources and Environment, University of Chinese Academy of Sciences, Beijing 100049, China; 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China; 4. Institutes of Science and Development, Chinese Academy of Sciences, Beijing 100190, China
Abstract: The importance of scientific data has been widely recognized, and as scientific data continues to accumulate, the capability of its data processing software will become a key bottleneck in determining whether scientific data can be effectively utilized. The field of Earth science involves multi-scale, multi-type, and multi-source data in research, leading to a strong demand for data processing and analysis software. This study, aimed at the characteristics of the earth science field, analyzes the current state of its main data processing and analysis software, identifies the degree of software autonomy in China, and expects to propose corresponding development suggestions. The survey covers 16 topics including geography, oceanography, geology, atmospheric sciences, ecology, disasters, agriculture, etc., and selects 177 mainstream software/tools, focusing on obtaining indicators such as software/tool names, summaries, main functions, application services/typical cases, advantages and disadvantages, and benchmarking software. The analysis found that these software/tools in the field of geoscience data processing and analysis are completely open (open source) accounting for two-thirds, the last one-thirds are commercial, restrictive, or unknown openness. The main software/tools are developed in countries such as the United States, China, Canada, the United Kingdom, and some international organizations. From the perspective of topic distribution, this is mainly reflected in the following areas: land degradation, socio-economic demographics, knowledge graphs, and remote sensing big data processing. From the perspective of autonomy, the main high-risk software packages are mainly distributed in fields such as spatialization, atmosphere, wildfires, and permafrost. Among the surveyed software/tools, about one-third of the professional software/tool can be applied to the National Science Data Center, and can be used in Cloud Platform. Combining the era of artificial intelligence and the development of \"Data Element X\", the future should strongly enhance the development and deployment application of China's autonomous scientific data processing software/tool from 5 perspectives.
Keywords: earth science; scientific data; software; autonomy; National Scientific Data Center