人工智能在气象数据集研制中的应用综述

2025-02-19 00:00:00李波潘勐孙越
人民长江 2025年1期
关键词:尺度气象降水

摘要:

长序列、高时空分辨率气象数据集对气象业务和科研具有重要意义,但是应用过程中存在数据质量低、空间分辨率不足等问题。随着人工智能的发展,机器学习以及深度学习算法在气象领域逐步开展应用。针对气象数据集研制中的技术难点问题,梳理了人工智能技术的4个关键应用场景,即观测数据的质量控制、缺测数据的插补和重构、多源数据的融合以及低分辨网格数据的降尺度,对各类机器学习模型在上述场景应用中的优势和不足进行了综述,并采用文献计量方法对研究前沿及发展趋势进行了定量分析。研究表明:相比传统方法,人工智能算法在计算效率、结果准确性、应用灵活性等方面更具竞争力。建议从建立高质量训练数据集、加强多源数据和异构数据的应用以及探索基于气象数据物理机制的建模等多个方面,进一步推动人工智能在气象数据产品研制中的应用。

关" 键" 词:

气象数据集; 人工智能; 机器学习; 深度学习; 质量控制; 降尺度

中图法分类号: P409

文献标志码: A

DOI:10.16232/j.cnki.1001-4179.2025.01.012

收稿日期:2024-05-11;接受日期:2024-09-09

基金项目:

中国长江电力股份有限公司科研项目(Z242302005);水利部重大科技计划项目(SKS-2022004)

作者简介:

李" 波,男,高级工程师,主要从事水电气象预报研究工作。E-mail:li_bo@ctg.com.cn

通信作者:

潘" 勐,男,高级工程师,研究方向为气象信息技术。E-mail:20330061@qq.com

Editorial Office of Yangtze River. This is an open access article under the CC BY-NC-ND 4.0 license.

文章编号:1001-4179(2025) 01-0088-09

引用本文:

李波,潘勐,孙越.

人工智能在气象数据集研制中的应用综述

[J].人民长江,2025,56(1):88-96.

0" 引 言

高价值数据产品是预报、预测、服务等气象业务高质量发展的基础,对于科学认识天气与气候变化过程、开展相关物理机制研究均具有重要的意义。随着综合气象观测业务的不断发展,中国已建成由地面自动气象站、天气雷达站、探空站、风云气象卫星等组成的综合立体、智慧协同的气象观测系统[1]。在国际上,世界气象组织积极推动建设综合全球观测系统,更好地整合和共享来自各个国家气象水文部门以及其他组织的观测数据,以高效和可持续的方式满足在天气、气候、水和相关环境服务领域日益增长的观测需求[2]。

进入大数据时代,面对海量、多源气象数据,研制高价值数据集产品是推动气象数据价值释放的重要途径。气象数据集为可标识数据的集合,可以分为地面气象资料、高空气象资料、气象卫星资料等多个类别,包含数据质量信息、时间标识信息、地理覆盖范围等元数据信息[3]。数据集具有数据质量高、格式规范、读取操作规范的特点,便于共享、应用以及开展服务。传统数据集的制作主要侧重于数据的收集与整理,以及简单的加工处理,已无法满足气象精细化服务与应用的要求;同时,传统数据集主要针对站点数据,也无法满足各行业对格点化的时空连续的气象数据产品越来越高的需求。随着多源观测数据量和数据种类越来越多,研制长序列、高时空分辨率的网格数据集可以进一步为气象业务和科研提供有力的数据支撑[4]。

近年来,随着信息技术和智能算法技术的发展,人工智能技术在气象领域的融合与应用逐渐深入。国内外学者在数据插补和重构、质量控制以及实况产品研发、产品质检等领域开展了人工智能气象应用算法的探索[5]。人工智能技术中机器学习在计算效率、准确性、可移植性等方面具有较大的优势,在数据集研制方面有很高的适配性和广阔的应用前景。本文主要针对常规气象观测要素,从数据、方法和应用3个方面对人工智能技术在气象数据集研制中的应用现状进行总结和探讨,并对该领域的发展方向进行展望。

1" 数据来源

长序列、高时空分辨率气象数据集的研制通常基于站点观测数据、卫星遥感数据和模式模拟数据,通过对这些数据的收集、加工处理、分析融合得到能反映气象要素精细化时空特征的数据产品。

地面自动气象站是观测气象要素最直接和精确的方式。在气象研究中,一般将站点观测数据作为“真值”。但是地面气象站分布不均,特别是在山区和地形复杂的区域十分稀疏。另一种地面观测是基于气象雷达,但是雷达的探测范围受地形障碍的影响很大,雷达波束阻塞、电磁波衰减和其他干扰因素均会造成雷达观测的误差。

卫星遥感数据具有空间分布均匀、覆盖广、数据连续的优点。对于降水来说,卫星遥感数据能够捕捉到降水情势,同时能实现对无站点覆盖区域的降水监测[6]。但是卫星数据可能受到各种误差源的影响,例如重访时间的差距、云层遮挡和大气辐射对地物反射率的干扰,以及反演算法导致的不确定性等[7-8]。

数值模拟数据是利用超大型计算机,应用地球流体动力方程和有关物理法则,对全球或区域的历史(未来)天气进行定量化再现(预测)。模式模拟数据也具有数据连续、覆盖范围广的优点。但是由于初始场和数值模型的不确定性,模式模拟结果存在不同程度的误差,同时还存在空间分辨率不足的缺点。其中,基于数值模式的再分析数据在气象数据集产品的研制中具有广泛的应用。再分析数据是使用资料同化技术将模式预报和历史观测资料融合,从而获取空间覆盖完整、时间序列均一、大气状态变量协调的长时间序列气象要素实况分析场[9-10]。

此外,在气象数据集研制过程中还会使用地理环境数据,以此构建气象要素变量和环境变量之间的关系来捕捉气象要素和预测因子之间复杂的非线性关系[11]。常用的地理环境数据包括归一化植被指数、经度、纬度、海拔、坡度、坡向和地表覆盖类型等。

2" 人工智能在数据集研制领域的常见方法

人工智能是一个结合计算机科学和强大数据集来解决问题的领域,与气象工作在方法论上是相通的。人工智能技术在气象数据领域的应用主要是机器学习、深度学习相关的算法和模型结合气象数据特征应用不断调整和优化。

机器学习是人工智能技术的重要组成部分,可以让计算机在不需要明确编程的情况下从数据中学习,然后利用经验来改善自身的性能[12]。现有的机器学习种类繁多,按学习形式主要可分为监督式学习、非监督式学习、半监督式学习、深度学习和强化学习[13-14]。监督学习是从标记的训练数据来推断一个功能的机器学习任务,常见的算法有决策树、随机森林、支持向量、线性回归等。无监督学习根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,可以用来判定潜在类别(即聚类)或者改变表征形式(即降维),常见算法有K均值算法、主成分分析法等。半监督学习是介于监督和无监督之间的学习方式,使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作,通常目标是预测标签,从而可以提高算法的性能。

深度学习是机器学习的一个分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法[15]。深度学习的实质是通过构建具有很多隐层的机器学习模型和海量的训练数据来学习有用的特征,从而提升分类或预测的准确性。深度学习具有学习能力强、数据驱动和上限高等特点,常用的模型有:① 深度神经网络(DNN),是一种多层次的神经网络模型[16],通过多个非线性变换将原始数据映射到高维空间中,实现对复杂关系的建模和学习,通常用于分类和回归任务;② 卷积神经网络(CNN),是包含卷积层、池化层、全连接层的多层神经网络模型[17],常用于图像识别、计算机视觉等领域;③ 循环神经网络(RNN),最主要的特点是包含记忆单元,可以处理任意长度的序列数据[18],在时间序列预测等任务中具有广泛的应用;④ 生成对抗网络(GAN),是由生成器和判别器两部分组成的网络模型[19],其中生成器的作用是不断优化自己生成的数据让判别器判断不出来,判别器的作用也是通过优化自己让判断更准确,现在主要在图像生成、语音合成、自然语言生成等领域中广泛应用。

3" 人工智能在数据集研制中的关键应用场景

基于地面自动气象站、雷达、卫星等观测数据和模式模拟数据研制长序列、高时空分辨率的气象数据集,通常会面临观测数据错误、缺测,不同分辨率数据之间的时空不匹配、存在系统性偏差,以及现有网格数据产品分辨率低等系列问题。通过机器学习建模的方式,可以实现观测数据的质量控制、缺测数据的插补和重构、多源数据融合以及低分辨率数据的降尺度处理,从而达到研制高质量数据集的目的。

3.1" 质量控制

观测数据的质量是气象业务、科研、服务的基础,也是决定数据集和数据产品质量的关键。各种观测手段,例如地面气象观测站、天气雷达及气象卫星,都会受到各种类型的误差干扰。因此,有必要针对其特定误差结构定制不同的错误数据判别算法来对所获得的数据进行质量控制(QC),以确保数据质量[20]。

质量控制的任务就是要将有问题或影响应用的资料通过一定的技术手段标注出来或将其从资料序列中剔除[21]。从机器学习的角度来看,观测数据的QC是一项分类任务,其中最简单的可分为两类:好数据和坏数据[22]。很多学者提出了基于有监督学习的质控方法,例如,省级地面气象资料业务系统(MDOSv2.2)[23]将孤立森林算法引入降水质量异常数据检测,提出了多源降水资料质控方法,并综合运用卫星、雷达及地面多视觉观测的大气状态参量研制了降水质量异常事件检测算法,将降水识别为晴空降水、虚假小降水、孤站降水、单站大降水、偏大降水等事件。基于决策树模型建立了地面降水多源数据质量诊断模型,经诊断数据最终被划分为错误、可疑和正确3类(图1)。

SVM是一种包含输入输出映射关系的监督学习算法,在解决小样本数据和高维数据方面具有明显的优势。Wu等[24]使用SVM方法结合损失函数,可以得到观测数据的不确定性分布,在处理观测数据时具有更高的精度。Sha等[25]提出了一种使用CNN对不良观测值进行分类的降水自动质量控制方法,该方法通过监督学习使用人工QC标签进行训练,并通过网格降水产品和高程对原始观测值进行分类,分析表明基于CNN的QC方法可以捕捉站点

周围和上游的降水模式,从而达到质控的目的。

为了避免好样本数量级远大于坏样本,影响监督学习的准确性,Castelo[26]提出了一种基于异常检测的海洋学数据质量控制方法,基于机器学习的异常检测模型可以学习好数据的行为,并将坏数据识别为异常值,这样可避免不良数据的相对样本量和绝对样本量对QC分类的影响。基于异常检测也可以实现对资料质量的评价,如刘莹等[27]采用随机森林和极端梯度提升法建立地面观测气象要素估计回归模型,通过要素偏差统计特征确定异常事件类型,达到识别气象数据质量异常事件的目的,可对地面气象数据长期质量问题进行实时监测。

3.2" 数据插补和重构

对缺测数据和无历史观测数据进行插补和重构是研制长时间连续数据集的基础。对于地面观测站来说,自然条件及人为影响导致数据停测、缺测、漏测现象时有发生。此外,由于自动观测站建站时间多在2005年以后,很多区域存在无长时间观测资料的问题。而机器学习模型可以从已观测数据中学习到数据的规律或缺值模式,从而实现对未观测数据的准确估计。

LSTM是循环神经网络的一种形式,不但可以从已观测数据之中学习规律,也可从数据缺失值模式中进一步学习,提高数据插补精度[28]。Song等[29]对比了传统插值方法、时间序列统计方法、RNN和LSTM神经网络对植物茎干水分数据缺失的插补性能,验证了基于LSTM神经网络的数据填充方法在填充长时间丢失时间序列数据方面具有很大的优势。针对野外小气象观测站点半小时温度观测长时间数据缺失问题,郑欣彤等[30]采用时间序列分析和深度学习等方法,对缺失数据进行高精度插补,试验结果表明BiLSTM-I深度学习温度插补方法要优于其他方法,可满足高精度温度数据插补需要。针对气候变化研究对百年数据的需求,Wegmann等[31]提出了一种基于机器学习的非线性气候变异性重建方法,该方法使用RNN从现有的模型输出和再分析数据中学习,基于站点数据重建了400多年来的全球月度温度异常。

GAN网络可以用于学习多变量时间序列的总体分布,从而对观测数据中的缺失值进行插补,例如Luo等[32]提出基于端到端GAN的插补模型E2GAN来估算多变量时间序列中的缺失值,通过获得更好的样本特征表示来提高插补性能,从而重建样本并改进插补。针对在历史数据缺失情况下新能源发电场景生成方法失效的问题,张承圣等[33]提出一种基于条件深度卷积生成对抗网络(C-DCGAN)的新能源发电场景数据迁移方法,以历史数据大规模缺失的新能源电站为目标电站,以历史数据完整的邻近站为源电站,通过GAN学习源电站与目标电站之间的场景数据映射关系,进而根据源电站场景数据生成目标电站场景数据,所生成的数据符合真实场景数据分布规律。

近年来,深度神经网络技术的出现有效地推动了图像补全领域的发展,例如上下文编码器、U-Net、CGAN、DCGAN等[34]。天气雷达在扫描过程中会接收到大量非气象回波信息,如地物回波、生物回波、同波长干扰回波等。Sun等[35]将天气雷达波束阻塞校正问题视为一个图像补全问题,设计了一个具有密集连接的全卷积神经网络,并使用多类交叉熵损失函数对模型进行优化,对于观测图像补全取得了较好的校正效果。Tan等[36]将GAN应用于恢复极化雷达观测中的部分波束阻塞区域,结果表明深度学习模型优于传统的插值方法,应用基于深度学习的修复方法后,降水系统的连续性都得到了极大的提高。

同理,对于卫星遥感数据来说,也存在由于云的遮挡或传感器故障造成图像时间序列中的空白问题。Wang等[37]提出了一种通过间隙填充去除厚云的空间光谱随机森林方法,该方法是基于随机森林同时使用已知图像的空间相邻和多光谱信息构建的,具有拟合非线性关系和自适应分配可变贡献的能力,学习已知图像和模糊图像之间潜在的复杂关系从而更准确地预测。Wang等[38]也提出了一种基于深度学习重建方法的内容序列纹理生成网络,该方法考虑了图像的内容、时间序列和空间纹理的恢复,在时间序列中缺失区域较大或重叠的情况下可以恢复具有详细纹理的时间序列图像。

此外,基于机器学习的图像重建思想也可以用于数据重建。例如针对全球历史气温数据集中存在20世纪中期之前缺测数据多的问题,Kadow等[39]利用图像修复技术来填补网格化空间气候数据集中缺失的数据点,使用堆叠的部分卷积和自动掩码更新机制来重建缺失值,恢复了1877年7月记录的厄尔尼诺现象的缺失空间模式;试验结果表明该方法可以填充缺失气候数据的大而不规则的区域,并能够重建传统空间插值技术无法捕捉到的特定气候模式。

3.3" 多源数据融合

数据融合是对多来源的信息所提供的关于某一环境特征的不完整信息加以综合,以形成相对完整一致、准确统一的信息的过程,是用于整合不同数据优势的常用方法[40]。利用数据融合,综合多种来源气象资料,是获得高精度、高质量、时空连续的多源数据融合气象格点数据集行之有效的手段[41]。

以降水为例,利用数据融合方法能够综合具有各自优点的多源降水数据,来实现对某一区域的降水特征形成相对全面的监测[42]。人工神经网络(ANN)作为一种高度复杂的非线性动力学习系统,适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。Hong等[43]使用ANN方法对青藏高原地区的站点降水、卫星降水以及ERA5再分析降水数据进行融合,研究表明融合数据能较好地反映缺资料地区的降水分布。Zhang等[44]提出了双机器学习方法用于多种卫星降水融合,并比较了4种机器学习方法、4种双机器学习方法以及3种线性权重法的融合效果,结果表明双机器学习方法能够提升卫星降水质量。Xu等[45]使用ANN方法对柴达木盆地的站点降水和TRMM降水进行融合,结果表明以海拔、经度和纬度为降水主要影响因素的数据挖掘可以有效改进卫星降水的精度。南天一等[46]对比了CNN、ANN以及主流统计方法的融合算法对青藏高原多源降水(站点、格点、卫星、动力降尺度)融合和水文模拟的效果,结果表明CNN对青藏高原降水融合的效果更优。此外,图神经网络通过神经网络来学习图结构数据中的特征和模式,通过对非欧氏空间的数据进行建模,捕获数据的内部依赖关系,例如吴铭等[47]通过构建卫星-观测站多模态数据融合框架进行多模态特征融合,并提出基于多图融合的图卷积神经网络框架,从多角度挖掘站点地理位置之间的关系、不同气象要素之间的内在联系,可以很好地达到多源数据融合的目的。

3.4" 数据降尺度

降尺度是将大尺度、低分辨率的格点信息转化为小尺度、高分辨率的信息,是研制高分辨率数据集的关键技术。

由于气象要素时空结构特征复杂,尤其是对于降水,得到高质量的降尺度数据一直是数据集研制的难题。经典CNN方法常被用于气候降尺度,但CNN模型的性能并不总是优于传统的统计降尺度方法[48-50]。这可能是由于浅层CNN模型无法描述复杂的结构特征,而具有较深层的CNN模型会受到爆炸梯度和退化问题的影响[49]。此外,CNN倾向于学习模拟训练数据中已有的规律,而无法预测未知领域中的极端、罕见事件,这使得极端事件(例如极端降水)的降尺度具有挑战性。除了再现局部尺度的极端事件之外,降尺度模型面临的另一个挑战是在数据稀疏区域缺乏训练数据。

相比传统神经网络,深度学习拥有更多的神经网络层数,具备更强的学习能力和更有效的训练机制。用于深度学习的迁移学习使用从具有大量样本的任务中获得的知识来执行可能具有少量数据甚至没有数据的类似任务[51],并且具有改善数据稀疏区域上的降尺度的巨大潜力。近年来,超分辨率重建技术作为一种可以将低分辨率图像重建成高分辨率图像的技术,常被应用于医疗成像、卫星遥感、公共安全监控、多媒体通讯等领域。大气的物理场(比如500 hPa气压、地面温度等)也可以视为有RGB三通道的图片,不同的变量场或者不同的垂直层堆叠起来可以视为多通道的图片。同时,图像超分辨率与气象空间降尺度有着相似的目标,即尽可能减少重建损失。因此,基于超分辨率技术,将低分辨率数据结合地形,通过神经网络得到高分辨率数据,可实现降尺度[52](图2)。

目前各式基于深度学习的超分辨率算法在各种公开数据集上取得了较好的降尺度效果。CNN和GAN是两种常见的超分算法框架。例如,Wang等[53]提出了一种新的超分辨率深度残差网络(SRDRN)方法用于降尺度降水和温度。SRDRN方法是基于改进的超分辨率CNN架构构建的,数据增强技术解决了由于高度不平衡的降水和非降水天数以及稀疏的极端降水而导致的过度拟合问题,很好地捕捉了局部极端事件,并显示出在没有局部尺度数据的情况下进行精确降尺度的巨大潜力。Vandal等[52]将深度学习超分辨率技术应用于时间降尺度,采用了SRCNN超分辨率模型作为降尺度算法。SRCNN模型将深度学习与传统稀疏编码之间的关系作为依据,将3层网络划分为图像块提取、非线性映射以及最终的图像重建结构。周康等[54]在SRGAN模型的基础上提出了CPGAN降尺度方法,可以实现对降水时间序列的降尺度。Toumelin等[55]采用CNN模型训练模式模拟数据以复制大气模型的行为,然后基于高分辨率(30 m)地形信息对低分辨率风场进行降尺度处理,结果表明该模型能够仅使用地形信息来表示山区风场的复杂性,在复杂地形中重现风场的主要特征(例如山脊上的加速度、背风减速、障碍物周围的偏差)。Yu等[56]提出了一种具有轴向相似性约束的存储网络,以轴向注意力的方式将低分辨率数据插值到高分辨率;为了精确的细节重建,基于高分辨率遥感数据提出了一种地形引导增强损失函数,该函数将风的空间分布和地形完美地结合在一起实现了对风场的降尺度。Hhlein等[57]提出了一种基于U-Net的CNN模型DeepRU,它能够推断出风结构,将31 km分辨率的ERA5风场降尺度到9 km,同时还能具有较高的时效。此外,深度学习技术在对气温、相对湿度等其他气象要素的降尺度上也取得了较好的效果[53,58-62]。

3.5" 研究前沿趋势分析

本节采用文献计量定量分析方法,以Web of Science核心数据库为数据源,以上述4个关键应用场景、相关气象要素以及机器学习算法构建检索条件,采用LDA自然语言主题模型挖掘得到人工智能技术在各个应用场景的前沿主题;然后利用主题新颖度(Nj)、主题强度(Sj)、主题影响力(Aj)、主题增长度(Gj)4个指标,并基于CRITIC法加权得到前沿主题综合指数[63],定量分析各应用场景的研究前沿发展趋势。其中,主题新颖度指标从时间角度分析主题新颖性,主题影响力指标与主题强度指标分别从文献引用及文献集中度分析主题的关注度,主题增长度指标从科研成果数量上测度主题的成长趋势。经综合评价得到的各应用场景前沿主题如表1所列。

(1) 2018~2022年,在数据质量控制方面全球发表SCI论文91篇,共识别出4项研究主题。该领域前沿研究大多关注使用神经网络等机器学习方法对雷达数据进行质量控制、偏差校正和缺失数据的重建等。

(2) 2018~2022年,在数据插补和重构方面全球共发表1 518篇SCI论文,综合指标前5位的前沿主题如表1所列。该领域前沿研究聚焦于利用机器学习等技术进行降水、气温等气象数据的重建,并用于灾害

预测等。其中,最新且受到较多研究者关注的研究主题是“利用插值技术预测降水空间分布”,论文增长速度也最快;而“基于卷积神经网络的光学遥感数据重建”相关研究影响力最大,引用量高。

(3) 2018~2022年,在多源数据融合方面全球共发表1 104篇SCI论文,综合指标前5位的前沿主题如表1所列。该领域前沿研究重点关注利用深度学习等技术对多类型、多时空尺度、地面及卫星观测源的数据进行融合,目的是提升分辨率、进行综合预测等,尤其对降水方面的研究较多。综合来看,“基于深度学习的激光雷达和卫星数据融合”相关研究最为前沿。

(4) 2018~2022年,在数据降尺度方面全球共发表477篇SCI论文,综合指标前5位的前沿主题如表1所列。该领域前沿研究重点关注利用机器学习的降水量降尺度方法研究,包括时间、空间降尺度等方面。综合来看,最为前沿的研究主题是“利用数据融合和机器学习的数据降尺度方法”,关注采用多源数据和机器学习方法进行数据降尺度。

4" 讨 论

以上研究表明人工智能技术在气象数据集研制的4个关键应用场景——观测数据的质量控制、缺测数据的插补和重构、多源数据的融合以及低分辨网格数据的降尺度中有广泛的应用前景。随着未来各类观测数据的持续性增长,通过数据产品提供更加精准、可靠、多样的数据支持是释放数据要素价值的新要求。从数据本身出发,在下一步工作中可以从以下几个方面入手,进一步推动人工智能技术与数据产品研制的深度融合:

(1) 在质量控制方面,加强标准化训练数据集的收集与共享。目前常用于气象数据质量控制的算法属于有监督学习。该方法依赖于有标签的训练数据,实际情况下获得大量有标签数据的成本是十分高昂的。虽然深度学习可以解决缺乏标签数据的问题,但是存在计算量大、硬件需求高、模型设计复杂的缺点。气象观测数据存在样本分布不平衡、故障样本较少、异常特征不明显等问题,因为异常数据通常比正常数据更为罕见,难以收集足够的真实异常数据来训练模型。因此,需重视样本数据采集,建立标准化训练数据集。可以通过数据共享平台和规范数据采集流程的方式,为用户提供高质量人工智能训练集,这也是提高机器学习模型的根本。

(2) 在插补和重构方面,加强多源数据的协同应用。目前对数据的插补或重构模型主要是基于数据本身,例如对缺测站点降水的插补主要是基于邻近站点观测。随着观测手段的不断多元化,数据产品不断丰富,对降水来说除了传统的地面观测站以外,还有雷达、卫星、雨滴谱等观测数据,同时还能根据降水和地形、风向风速的关系借助其他的要素增加插补模型的输入因子。

(3) 在多源数据融合方面,加强多源异构数据的融合方法研究。传统的数据融合主要局限在不同来源的同一种类数据产品。气象观测中存在海量、多源、异构的数据,数据形态结构也呈现多样化,既有数字、表格等结构化数据,也有文本、图片、声音、视频等非结构化及半结构化数据。因此,需发挥机器学习自动学习和适应性强的特点,处理整合大规模、复杂的异构数据,捕捉不同数据模态之间复杂的关系,从而更好地挖掘多源数据的价值。

(4) 在数据降尺度方面,探索气象物理机制与人工智能模型的融合应用。人工智能模型很大程度上依赖于使用的数据,对数据背后物理原理的可解释性差,应用于低分辨率网格数据的降尺度时存在空间泛化能力差、极值刻画能力差的问题。动力降尺度方法则是基于低分辨率的全球气候模型和高分辨率的区域气候模型(RCM)完成,这种方法的主要限制是数值模型计算成本高。Doury等[64]尝试了用UNet神经网络学习构建RCM的仿真器,结果显示了较好的降尺度效果,同时相比数值模型降低了计算成本。这种数据-知识耦合驱动的人工智能机制是探索人工智能技术在气象领域应用的方向之一。

5" 结 语

针对人工智能技术在气象数据集研制中的应用现状,本文简要介绍了数据来源和常见方法,聚焦数据集研制中的4个关键应用场景,总结发现:相比传统方法,众多机器学习方法展现了其显著的优势,例如数据结果的准确性、对多种非线性过程的适用性、计算效率高、易用性好等。针对数据质量问题,机器学习方法可以实现更高效的质量控制和评估,同时对缺测和空白数据可以实现准确的插补和重建,从而为数据集研制提供高质量数据源。同时机器学习或深度学习能对大量信息进行自主学习,建立能描述气象要素复杂特征和非线性过程的模型,达到多源数据融合和低分辨率网格数据降尺度的目的。最后,从数据本身出发对下一步的工作进行了展望,指出可以从建立高质量训练数据集、加强多源数据和异构数据的应用以及探索基于气象数据物理机制的建模等多个方面,进一步推动人工智能技术在气象数据产品研制中的应用。

参考文献:

[1]" 王天天.乘势而上 全面推进综合气象观测业务高质量发展[N].中国气象报,2022-11-30(1).

[2]" 杨晓武,林雪娇,张楠,等.世界气象组织(WMO)全球综合观测系统(WIGOS)最新进展[J].气象科技进展,2022,12(5):120-126.

[3]" 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.气象数据集核心元数据:GB/T 33674—2017[S].北京:中国标准出版社,2017.

[4]" 赵珊珊,周向阳,童锦施.中国典型降水产品精度多时间尺度变化及空间分布[J].人民长江,2024,55(4):103-117.

[5]" 杜智涛,姜明波,杜晓勇,等.机器学习在气象领域的应用现状与展望[J].气象科技,2021,49(6):930-941.

[6]" 熊立华,刘成凯,陈石磊,等.遥感降水资料后处理研究综述[J].水科学进展,2021,32(4):627-637.

[7]" 仇晓兰,胡玉新,上官松涛,等.遥感卫星大数据高精度一体化处理技术[J].大数据,2022,8(2):15-27.

[8]" 段震,王超,邸燕,等.IMERG系列产品在大汶河流域的降水监测能力评价[J].人民长江,2023,54(7):89-97.

[9]" 李俊,方宗义.卫星气象的发展:机遇与挑战[J].气象,2012,38(2):129-146.

[10]廖捷,胡开喜,江慧,等.全球大气再分析常规气象观测资料的预处理与同化应用[J].气象科技进展,2018,8(1):133-142.

[11]YU X J,ZHANG L X,ZHOU T J,et al.The Asian subtropical westerly jet stream in CRA-40,ERA5,and CFSR reanalysis data:comparative assessment[J].Journal of Meteorological Research,2021,35(1):46-63.

[12]CHEN C,HU B,LI Y.Easy-to-use spatial random forest-based downscaling-calibration method for producing high resolution and accurate precipitation data[J].Hydrology and Earth System Science,2021,25:5667-5682.

[13]SAMUEL A L.Machine learning[J].The Technology Review,1959,62(1):42-45.

[14]MAHESH B.Machine learning algorithms-a review[J].International Journal of Science and Research,2020,9(1):381-386.

[15]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.

[16]SZE V,CHEN Y H,YANG T J,et al.Efficient processing of deep neural networks:a tutorial and survey[J].Proceedings of the IEEE,2017,105(12):2295-2329.

[17]ALBAWI S,MOHAMMED T A,AL-ZAWI S.Understanding of a convolutional neural network[C]∥2017 International Conference On Engineering And Technology,2017.

[18]MEDSKER L R,JAIN L C.Recurrent neural networks:design and Applications[J].Computer Science and Engineering,1999(1):416.

[19]CRESWELL A,WHITE T,DUMOULIN V,et al.Generative adversarial networks:an overview[J].IEEE Signal Processing Magazine,2018,35(1):53-65.

[20]JAN S.Precipitation Science[M].Amsterdam:Elsevier,2022:91-133.

[21]王海军,杨志彪,杨代才,等.自动气象站实时资料自动质量控制方法及其应用[J].气象,2007,33(10):102-109.

[22]SMITH D,TIMMS G,DE SOUZA P,et al.A bayesian framework for the automated online assessment of sensor data quality[J].Sensors,2012,12(7):9476-9501.

[23]刘莹等,王海军,范增禄,等.省级地面气象资料业务系统(MDOSv2.2)[R].武汉:湖北省气象信息与技术保障中心,2019.

[24]WU Y P,TAO G Q.Application of a new loss function-based support vector machine algorithm in quality control of measurement observation data[J].Mathematical Problems in Engineering,2022(1):7266719.

[25]SHA Y K,GAGNE D J,WEST G,et al.Deep-learning-based precipitation observation quality control[J].Journal of Atmospheric and Oceanic Technology,2021,5:1075-1091.

[26]CASTELO G P.A machine learning approach to quality control oceanographic data[J].Computers amp; Geosciences,2021,155:104803.

[27]刘莹,闫荞荞,刘园园,等.基于多源数据和机器学习的气象数据异常事件识别方法:202310400212.8[P].2023-07-14.

[28]周祥,张世明,苏林鹏,等.基于注意力机制与LSTM-CCN的月降水量预测[J].人民长江,2024,55(6):129-135.

[29]SONG W,GAO C,ZHAO Y,et al.A time series data filling method based on LSTM:taking the stem moisture as an example[J].Sensors,2020,20(18):5045.

[30]郑欣彤,边婷婷,张德强,等.ARIMA和LSTM方法长时间温度观测数据缺失值插补的比较[J].计算机应用,2022,42(增1):130-135.

[31]WEGMANN,M,JAUME-SANTERO F.Artificial intelligence achieves easy-to-adapt nonlinear global temperature reconstructions using minimal local data[J].Communications Earth amp; Environment,2023,4:217.

[32]LUO Y H,ZHANG Y,CAI X R,et al.E2GAN:end-to-end generative adversarial network for multivariate time series imputation[C]∥ Proceedings of the 28th International Joint Conference on Artificial Intelligence.Macao,2019:3094-3100.

[33]张承圣,邵振国,陈飞雄,等.基于条件深度卷积生成对抗网络的新能源发电场景数据迁移方法[J].电网技术,2022,46(6):2182-2190.

[34]LIU Q,YANG Z Y,JI R,et al.Deep Vision in analysis and recognition of radar data:achievements,advancements and challenges[J].IEEE Systems Man and Cybernetics Magazine,2023,9(4):4-12.

[35]SUN J,WU H,LIU Q,et al.Dense-FCN:a deep learning approach for weather radar beam blockage correction[C]∥2022 IEEE International Symposium on Dependable,Autonomic and Secure Computing(DASC),2022:1-6.

[36]TAN S,CHEN H,YAO S,et al.Weather radar beam blockage correction using deep learning[C]∥ 2023 United States National Committee of URSI National Radio Science Meeting(USNC-URSI NRSM),2023:296-297.

[37]WANG Q,WANG L,ZHU X,et al.Remote sensing image gap filling based on spatial-spectral random forests[J].Science of Remote Sensing,2022,5:10048.

[38]WANG Y,ZHOU X,AO Z,et al.Gap-filling and missing information recovery for time series of MODIS data using deep learning-based methods[J].Remote Sensing,2022,14(19):4692.

[39]KADOW C,HALL D M,ULBRICH U.Artificial intelligence reconstructs missing climate information[J].Nature Geoscience,2020,13:408-413.

[40]叶瑶,黄瑶,宋雯雯,等.多源融合实况降水分析产品在大渡河流域的适用性评估[J].水利水电快报,2024,45(10):12-17.

[41]师春香,谷军霞,韩帅,等.全国智能网格实况融合分析产品进展[C]∥第35届中国气象学会年会 S20 深度信息化:应用支持与智能发展,2018:5.

[42]覃晓东,朱仟,周东旸,等.基于深度学习的多源降水数据融合方法及其应用[J].人民长江,2023,54(11):68-75.

[43]HONG Z,HAN Z,LI X,et al.Generation of an improved precipitation data set from multisource information over the Tibetan Plateau[J].Journal of Hydrometeorology,2021,22:1275-1295.

[44]ZHANG L,LI X,ZHENG D,et al.Merging multiple satellite-based precipitation products and gauge observations using a novel double machine learning approach[J].Journal of Hydrology,2021,594:125969.

[45]XU G,WANG Z,XIA T.Mapping areal precipitation with fusion data by ANN machine learning in sparse gauged region[J].Applied Sciences,2019,9(11):2294.

[46]南天一,陈杰,丁智威,等.基于深度学习的青藏高原多源降水融合[J].中国科学:地球科学,2023,53(4):836-855.

[47]吴铭,张闯,朱洵,等.基于图神经网络多模态气象数据融合的气象要素预报方法:202310751074.8[P].2023-09-08.

[48]BAO-MEDINA J,MANZANAS R,GUTIRREZ J M.Configuration and intercomparison of deep learning neural models for statistical downscaling[J].Geoscientific Model Development,2019,13:2109-2124.

[49]PAN B,HSU K,AGHAKOUCHAK A,et al.Improving precipitation estimation using convolutional neural network[J].Water Resources Research,2019,55(3):2301-2321.

[50]VANDAL T,KODRA E,DY J,et al.Quantifying uncertainty in discrete-continuous and skewed data with Bayesian deep learning[C]∥ Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining,2018:2377-2386.

[51]YOSINSKI J,CLUNE J,BENGIO Y,et al.How transferable are features in deep neural networks?[C]∥Proceedings of the 27th International Conference on Neural Information Processing Systems,2014,2:3320-3328.

[52]VANDAL T,KODRA E,GANGULY S,et al.DeepSD:generating high resolution climate change projections through single image super-resolution[C]∥Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2017:1663-1672.

[53]WANG F,TIAN D,LOWE L,KALIN L,et al.Deep learning for daily precipitation and temperature downscaling[J].Water Resources Research,2021,57:e2020WR029308.

[54]周康,丁立新,程建新.基于深度学习超分辨率网络的降水时间降尺度预测方法:202110077737.3[P].2021-04-30.

[55]LE TOUMELIN L,GOUTTEVIN I,HELBIG N,et al.Emulating the adaptation of wind fields to complex terrain with deep learning[J].Artificial Intelligence for the Earth Systems,2023,2(1):e220034.

[56]YU T,YANG R,HUANG Y,et al.Terrain-guided flatten memory network for deep spatial wind downscaling[J].Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:9468-9481.

[57]HHLEIN K,KERN M,HEWSON T,et al.A Comparative study of convolutional neural network models for wind field downscaling[J].Meteorological Applications,2020,27:e1961.

[58]SHEN Z,SHI C,SHEN R,et al.Spatial downscaling of near-surface air temperature basedon deep learning cross-attention mechanism[J].Remote Sensing,2023,15(21):5084.

[59]WEI X,WANG G,FENG D,et al.Deep-learning-based harmonization and super-resolution of near-surface air temperature from CMIP6 models(1850-2100)[J].International Journal of Climatology,2023,43(3):1461-1479.

[60]CAO Y,ZENG B,ZHANG F,et al.A spatial downscaling method for multielement meteorological data:case study from a water conservation area of the upper Yellow River basin[J].Theoretical and Applied Climatology,2023,153:853-871.

[61]TIE R,SHI C,WAN G,et al.CLDASSD:reconstructing fine textures of the temperature field using super-resolution technology[J].Advances in Atmospheric Sciences,2022,39:117-130.

[62]TIE R,SHI C,WAN G,et al.To accurately and lightly downscale the temperature field by deep learning[J].Journal of Atmospheric and Oceanic Technology,2022,39(4):479-490.

[63]陈稳,陈伟.科学与技术对比视角下的前沿主题识别与演化分析[J].情报杂志,2022,41(1):67-73,163.

[64]DOURY A,SOMOT S,GADAT S,et al.Regional climate model emulator based on deep learning:concept and first evaluation of a novel hybrid downscaling approach[J].Climate Dynamics,2022,60:1-29.

(编辑:谢玲娴)

Review on application of artificial intelligence in meteorological datasets development

LI Bo1,PAN Meng2,SUN Yue2

(1.China Yangtze Power Co.,Ltd.,Yichang 443002,China;

2.Hubei Meteorological Information and Technological Support Center,Wuhan 430074,China)

Abstract:

Long-term meteorological datasets with high spatio-temporal resolution are of great significance to meteorological operations and scientific research.However,challenges such as low quality and low spatial resolution emerge during application of existing datasets.With the development of artificial intelligence,machine learning and deep learning algorithms have been applied in the field of meteorology.Addressing the technical challenges in the development of meteorological datasets,we outlined four application scenarios for artificial intelligence technologies:quality control of observations,interpolation and reconstruction of missing data,fusion of multi-source data,and downscaling of low-resolution gridding data.We comprehensively reviewed on the advantages and disadvantages of various machine learning models in these application scenarios and conducted a quantitative analysis on research frontiers and development trends using bibliometric methods.The research showed that compared to traditional methods,artificial intelligence algorithms are more competitive in terms of computational efficiency,accuracy,and application flexibility.It is recommended to further promote the application of artificial intelligence in the development of meteorological data products by establishing high-quality training datasets,enhancing the use of multi-source and heterogeneous data,and exploring modeling based on the physical mechanisms of meteorological data.

Key words:

meteorological datasets; artificial intelligence; machine learning; deep learning; quality control; downscaling

猜你喜欢
尺度气象降水
气象树
黑龙江省玉米生长季自然降水与有效降水对比分析
黑龙江气象(2021年2期)2021-11-05 07:07:00
《内蒙古气象》征稿简则
内蒙古气象(2021年2期)2021-07-01 06:19:58
财产的五大尺度和五重应对
气象战士之歌
心声歌刊(2019年5期)2020-01-19 01:52:52
为什么南极降水很少却有很厚的冰层?
家教世界(2018年16期)2018-06-20 02:22:00
大国气象
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
降水现象仪模拟软件设计与实现
ESSENTIAL NORMS OF PRODUCTS OF WEIGHTED COMPOSITION OPERATORS AND DIFFERENTIATION OPERATORS BETWEEN BANACH SPACES OF ANALYTIC FUNCTIONS∗