张乐,杨昊源,周宁
(1.商洛学院电子信息与电气工程学院,陕西商洛 726000;2.陕西省商洛市气象局,陕西商洛 726000)
临近降水预报是一项对未来两小时内降水量进行高分辨率预测的任务,支持着许多依赖于天气进行决策的相关部门的现实需求[1]。作为实现临近降水预报的重要方法,天气雷达回波外推可视为对时间序列图像变化趋势的估计和预测,即用“现在”之前的一段时间内雷达回波图像预测“未来”一定时间内的雷达回波图像,也即从雷达回波历史观测数据中学习时空域中隐含的动
力学规律,从而预测未来临近时刻的云层走向[2-5]。此项工作在气象领域也称为雷达预测外推或雷达外推[6],也常被视为一个时空序列预测问题[4,7]和视频预测任务。从算法的角度,天气雷达回波外推可分为传统外推方法和基于深度学习(Deep Learning,DL)的外推方法[8]。传统外推方法主要有交叉相关法[9-11]、光流法[12]和质心跟踪法[13-14]等。但由于在局部强对流天气中,回波发展变化比较快,无法满足守恒条件,因而传统外推方法的预测效果会随着外推时间增长而逐渐变差。此外,除大气及其相关动力过程的复杂性外,对临近降水预报实时性、规模性、细粒度等需求的日益增长也给雷达回拨外推研究带来新的挑战。在过去的七十年里,DL技术发展十分迅猛,已在图像、语音和自然语言处理等领域大放异彩[15-18]。基于此,越来越多的学者也将DL技术用于天气雷达回波外推,并取得了令人满意的效果。目前,解决天气雷达回波外推问题的DL方法主要基于三类模型:循环神经网络(Recursive Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)、深度生成模型(Deep Generative Models,DGM)。利用DL方法实现天气雷达回波外推的核心是构建DL模型以实现图像序列预测。因而,本文将以DL方法在天气雷达回波外推中的应用为主线,重点对可用于天气雷达回波外推相关的DL模型进行概况阐述和总结。
RNN是一类具有记忆能力的神经网络。其中,简单循环网络(Simple Recurrent Network,S RN)[19]是一类典型的具有短期记忆能力的神经网络,难以建模长时间间隔状态之间的依赖关系。为了解决短期记忆网络的长程依赖问题,相关学者提出了长短期记忆网络(Long Short-Term Memory Network,LSTM)[20]和门控循环单元(Gated Recurrent Unit,GRU)[21]。
RNN因其能在网络中存储历史信息,从而建立持久数据依赖关系,适合用来对雷达回波图中的时间信息进行建模。近年来,许多研究以RNN为核心的网络来实现天气雷达回波外推。
WANG Y B等[22]提出了PredRNN-v2模型,该模型可沿着循环状态转换的水平和之字形路径解耦扭曲的记忆状态,能够从学习分布式表示中受益,这些表示可以涵盖时空变化的不同方面。此外,还提出了一种新的课程学习策略:反向计划抽样。该策略迫使模型的编码部分从较长时间的上下文框架中学习时间动态信息,可以达到较好的预测效果。研究表明,该模型对于无动作和动作条件预测学习场景都能获得极具竞争力的结果。
BALLAS N等[23]提出了卷积门循环单元(Convolutional GRU,ConvGRU), 该模型将RNN单元中的全连接层替换为了卷积层;同时,也将输入状态和隐状态进行了空间维度的扩展,使空间特征信息能够以三维张量的形式在RNN节点间进行流动,使模型具有较强的天气雷达回波外推能力。研究表明,该模型可利用来自不同空间分辨率的感知,更精细地捕获图像中的运动模式。
虽然ConvLSTM模型比传统方法具有更好的性能,但在基于ConvLSTM单元的模型中,卷积递归结构是位置不变的,而自然运动和变换(如旋转、翻转和平移等)一般是涉及位置变化的。基于此,SHI X J等[5]提出了一种轨迹门控递归单元(Trajectory GRU,TrajGRU),该模型可以先学习全局运动趋势,然后再对更多局部邻域的运动细节信息进行预测。试验证明,TrajGRU超越了ConvLSTM,比现有的ConvGRU更能有效地捕捉时空相关性。
SHI X J等[2]将临近降雨预测当作一个可以用Seq2Seq学习框架解决的天气雷达回波外推任务,并由此提出了卷积长短时记忆网络(Convolutional LSTM,ConvLSTM)。通过堆叠多层ConvLSTM单元,从而构建端到端的可训练模型,形成一个编码-解码器结构,从而有效地解决了传统LSTM模型在天气雷达回波外推问题中,存在的无法准确刻画空间结构信息的难题。WANG Y B等[24]为了更好地提取时空特征信息,提升天气雷达回波外推效果,提出了一种新的端到端循环网络PredRNN。该网络的核心是一个新的时空LSTM(ST-LSTM)单元,可同时提取和存储空间和时间信息的表示。内存状态不再被限制在每个LSTM单元内,而是在两个方向上曲折:垂直穿过堆叠的RNN层与水平穿过所有RNN状态。WANG Y B等[25]为解决ST-LSTM单元内部的双记忆状态耦合方式存在的缺点,提出了一种因果长短时记忆单元(Causal LSTM)。同时,为缓解深度转移预测模型中梯度传播的困难,提出了一种新型卷积循环网络模块:梯度高速公路单元 (Gradient Highway Unit,GHU)。 通过融合Causal LSTM和GHU,较好地解决了深度转移模型(Deep Transition Model)和梯度消失(Vanishing Gradient Problem)之间的矛盾问题,并由此提出了PredRNN++模型。
自然时空过程在许多方面可以是高度非平稳的,如降水预报中雷达回波的积累、变形或消散等变化过程。根据Cramér分解理论[26],任何非平稳过程都可以分解为确定性、时变多项式及零均值随机项。通过适当地应用差分运算,就可以将时变多项式转化为常数,使确定性分量可预测。然而,大多数以前用于时空预测的递归神经网络没有有效地使用差分信号,它们相对简单的状态转移函数阻止了它们学习太复杂的时空变化。受此启发,YunboW等[27]提出了嵌套记忆单元(Memory In Memory,MIM),该单元利用相邻递归状态之间的差分信号来建模具有两个级联自更新存储器模块的时空动力学中的非平稳和近似平稳特性。MIM单元主要改进了ST-LSTM中的时间记忆状态的遗忘门,用另外两个内层LSTM单元替换了原本的遗忘门,从而改善了循环神经网络中的记忆状态转移机制,较好地解决了由遗忘门负饱和而造成的长时特征的灾难性遗忘问题。通过堆叠多个MIM块,可以潜在地处理高阶非平稳性。研究表明,MIM网络在合成和真实数据集的三个时空预测任务上取得了最先进的成果。
WANGYB等[28]提出了Eidetic3DLSTM(E3DLSTM)模型,该模型一方面将LSTM内部的记忆状态从三维(依次为空间宽度、空间高度和通道数)扩展至四维(依次为时间长度、空间宽度、空间高度和通道数),即在其内部所有隐状态和记忆状态上都增加了时间特征维度,并将三维卷积集成到LSTM节点的状态转移方程中;另一方面引入了可微分的记忆状态读写机制。研究表明,由于E3D-LSTM网络针对动作意图和趋势进行了较好的建模,可以根据现有视频帧进行准确地推断;同时,其在早期活动识别方面也表现出良好性能。CHEN G X等[29]用三层不同的LSTM来捕获目标的空间、时间和轨迹信息,并将基于LSTM的编码-解码器模型作为一个整体,提出了一种新的基于时空图的时空长短时记忆单(Spatiotemporal LSTM,ST-LSTM)。研究表明,与现有方法相比,该方法可以在短时间范围内实现更准确的目标运动轨迹预测。KIM S等[30]提出了一种全新的数据驱动预加密预测模型DeepRain。该模型使用卷积 LSTM(ConvLSTM)[6],从而根据天气雷达数据(三维四通道数据)预测降雨量。ConvLSTM是LSTM(长期短期存储器)的一种变体,在LSTM单元内包含卷积运算。通过试验,使用了两年的雷达反射率数据,其输入是以6 min为单位的时间序列格式,分为15个记录。输出是输入数据的预测降雨量信息。研究表明,与线性回归相比,两层堆叠的ConvLSTM将RMSE降低了23.0%。
卷积神经网络(Convolutional Neural Network,CNN)是受生物学上的感受野机制[31]启发而提出一类神经网络。最早的CNN可追溯至20世纪末期,Fukushima受生物学家Huble等的层级模型[31]的启发而提出的神经认知机(Neocognitron)[32]。最具有代表性的CNN网络结构为LeNet-5[33]。随后,CNN迅速进入人们的视野,并在图像任务领域所向披靡。CNN具有良好的图像处理能力,擅于从图像中提取空间特征,适合用来对雷达回波图中的空间信息进行建模。近年来,许多研究是以CNN为核心的网络来实现天气雷达回波外推。
施恩等[34]注意到雷达回波外推任务中,输入回波图与输出回波图之间具有较强的关联性,并由此提出了一种动态卷积神经网络架构(DCNN-I)。该网络添加了动态子网络和概率预测层,构建了卷积核与输入图像见映射关系,加强了输入图像与预测图像间的联系,从而提升了天气雷达回波外推任务的效果。
考虑到基于物理的数值模拟模型可能非常复杂,且无法解释测量和建模中的复合不确定性。此外,考虑到大气控制方程中的非线性对初始条件产生了敏感的依赖性,数值天气预报模型对降水量的准确预测仅限于较短的时间。基于此,ZHUANG Y等[35]提出了一种时空卷积神经网络(ST-CNN),用以充分利用时空信息,从极端降水集群预测数据中自动学习降水前兆的潜在模式。并在美国爱荷华州收集的62年(1948—2010年)历史降水数据中验证了ST-CNN模型的有效性。
在视频帧预测任务中,主流的递归网络模型存在巨大的内存占用和计算成本,而卷积模型无法有效地捕获连续视频帧之间的时间相关性。为解决此问题,XU Z R等[36]提出了一个完全基于CNN的网络架构PredCNN,该网络完全由卷积组成,简化了梯度传播,减少了计算和内存负担。同时,还引入了一个级联乘法单元(Cascade Multiplicative Unit,CMU),它将更多的运算应用于先前的帧,这明确地捕获了时间相关性。此外,提出了一种分层级联结构,通过叠加级联乘法单元来捕获下一帧和输入帧之间的时间相关性。所提出的PredCNN模型在标准移动MNIST数据集和两个具有挑战性的交通拥挤流预测数据集上实现了最先进的性能。
AGRAWAL S等[37]受CNN在图像-图像翻译中成功应用的启发,将预测视为图像到图像的转换问题,使用U-Net[38]网络架构进行重构。该模型分为两部分:编码器(先将一个基本卷积块作用于图像,然后迭代几个下采样卷积块)和解码器(用基本卷积块接受编码器的输出,再用一系列上采样块)。研究表明,该模型比光流法等传统雷达外推手段的结果更优。
AYZEL G等[39]提出了一种简单的全卷积神经网络架构(DozdyaNet),其中,六个后续的2D卷积层根据所使用的核大小进行参数化,第一层到最后一层的卷积层数量分别为 48,24,12,6,3和1。相较于传统深度神经网络,DozdyaNet网络更侧重于选择和采用合适的数据预处理程序、网络结构和损失函数,从而获得了更好的效果。
WU K等[40]根据自动站探测和多普勒雷达回波外推图上方不同高度天气观测区域的周边历史降雨量数据,提出了一种3D卷积神经网络(3D Convolution Neural Network)。 研究表明,该方法能够对特定区域上空的临近降水量进行较为精准的预报,且该网络模型具有较好的鲁棒性与稳定性。ZHANG W等[41]构建了一个多通道3D立方体连续卷积网络(3D-cube Successive Convolution Network,3D-SCN)。该网络利用原始3D雷达数据进行分析,不需要额外的特征工程。用于训练的数据被表示为多通道3D立方体,将被馈送到3D-SCN网络中,并通过跨通道3D卷积进行卷积。通过堆叠连续的卷积层而不使用池化层,构建一个端到端的可训练模型。研究表明,该模型方法比传统的天气雷达回波外推方法更有优势。
KLEIN B等[42]考虑到传统卷积层在模型学习和预测期间均保持不变而存在的弊端,而提出了一种新型动态卷积层(Dynamic Convolutional Layer,DCL),用于构建一类动态卷积神经网络。与传统卷积层不同的是DCL的卷积核来源于一个任意深度的子网络,即该卷积核是输入图像数据的函数生成的,故而卷积核随着输入样本的不同而不同。研究表明,使用DCL的网络比其它基线方法拥有更好性能。
目前,虽然以CNN和RNN为核心的网络模型已经取得了不俗的效果,但外雷达回波外推过程中仍然存在两个问题:天气系统演化过程较大程度地影响着外推精度;回波图像预测模糊。
DGM是一类试图把概率论与数理统计的知识与强有力的深度神经网络的表示学习能力相结合的模型[43],是挖掘可观变量之间复杂依赖关系和可观变量背后隐藏内部表示的强有力工具。由于其擅长生成以假乱真的图像,因此能更好地刻画雷达回波演变过程,生成更清晰的回波图像信息。近年来,许多研究以RNN为核心的网络来实现天气雷达回波外推。
从处理极大似然函数的方法的角度,可将DGM分成三种[43]:近似法(如深度信念网络)、隐式法(如生成对抗网络)、变形法(如流模型和自回归模型)。
JING J R等[44]提出了多级相关长期短期记忆(MLC-LSTM),并将对抗训练集成到该方法中。该网络可利用多级雷达回波之间的时空相关性,并对其演变进行建模,而对抗训练可以帮助模型推断真实和尖锐的回波。为了训练和测试其模型,研究者基于中国国家气象信息中心提供的原始CINRAD/SA雷达观测数据,构建了一个真实的多层次天气雷达回波数据集。研究表明,该模型可以准确地预测回波的运动和演变,同时保持预测的回波看起来真实和细粒度。然而,虽然该模型已经对回波运动和演变进行了适当的建模,但外推的回波形状与地面真实情况并不完全匹配,有时回波强度会波动,强度的一致性也无法保证。因此,设计一个准确和性能可靠的长期外推模型是十分必要的。
LIU H B等[45]提出了气象预测学习GAN模型(MPL-GAN),该模型使用了条件GAN和预测学习模块来处理未来帧预测中的不确定性,能够将传统基于均方误差损失的预测学习方法产生的模糊预测映射回其原始数据分布,因而可以改进和锐化预测图像。该模型能更准确地检测到传统无条件GAN难以做到的气象运动模式。研究表明,MPL-GAN不仅可以生成清晰逼真的气象预测,而且还可以在预测学习模块的约束下对真实世界的气象运动模式进行建模。但是,尽管GAN模型提高了预测的清晰度,但是却带来了不确定性因素,降低了预测的准确性。因此,提高预测精度仍有较大的提升空间。
尽管ConvGRU性能很好,但其外推图像往往会比较模糊,并且无法实现多模态和偏斜的强度分布。为了克服这些限制,TIAN L等[46]提出了一种生成式对抗性ConvGRU模型(GAConvGRU)。该模型由两个对抗性学习系统组成,即基于ConvGRU的生成器和基于CNN的鉴别器。这种对抗性学习方案,使得GA ConvGRU可以产生更真实、更准确的外推。研究表明,GA ConvGRU的性能明显优于ConvGRU和光流法,但依然没有很好地解决图像模糊失真的问题。
RAVURI S等[1]提出了一种条件生成对抗网络(DGMR),着重提升罕见的中到大雨的预测。研究表明,在89%的案例中,该模型的准确性和实用性排名第一,极大地提高了预测质量、预测一致性和预测价值,实现了一种快速准确的短期预测方法。然而,DGMR对于预测长时间的强降水仍然是困难的。
为了更好地反映区域降水的变化趋势,张鹏程等[47]提出了一种深度信念网络模型(DBN),用于降水量预报。该模型通过模拟了人脑神经元的多层结构,并利用反向传播算法对网络进行调整。DBN网络以与降雨量最为相关的七种关键特征数据作为输入,未来二十四小时降雨量为输出。研究表明,DBN网络较支持向量机和自回归滑动平均模型等方法更具优势。
为解决来自噪声观测中的感知不确定性和正演模拟中的动力学不确定性,WANG Y B等[48]提出用一个端到端的可训练模型贝叶斯预测网络(BP-Net)。与现有的随机视频预测工作不同,该工作假设时空一致性,因此无法处理感知不确定性,BP网络在一个集成框架中对两种不确定性水平进行建模。此外,与之前只能提供未来帧的未排序估计的工作不同,BP网络利用可微分顺序重要性抽样(SIS)方法实现基于潜在物理状态的推断进行未来预测,从而根据SIS重要性权重(即置信度)提供排序的预测候选。研究证明,BP网络在从噪声数据预测未来帧方面显著优于现有方法。
注意力是人类十分重要的认知功能,可在广泛的信息中聚焦重要的信息,从而有效地避免信息的过载问题。在计算机领域,注意力机制常被当作一种算力资源分配方案,即将受限的算力资源用于处理少而重要的信息。在天气雷达回波外推研究中,利用注意力机制可有效改善回波图像信息过载的问题,提高神经网络的效能。
在结合卷积神经网(CNN)和递归神经网络(RNN)的雷达回波预测模型中,多层CNN和RNN中传递的特征流通常伴随着信息丢失,且因无法对长期依赖性进行建模而难以准确预测暴雨强度趋势。LUO C Y等[7]通过将时间注意力模块(TAM)和层注意力模块(LAM)嵌入预测单元来提出PredRANN模型,以分别从时间和空间维度保留更多的表示。在合成数据集和真实世界数据集上的大量试验结果证明,所提出的方法具有较高的效能和优越性。
针对现有的基于深度学习的方法没有考虑不同地区和渠道对降水产生不同影响的问题,YAN Q等[49]提出了一种基于深度学习的双通道多头注意力模型(Convolutional Residual-Attention)。 该模型中引入了剩余连接,很好地保留了基于注意力的全局信息,避免了因引入注意力机制而导致的全局信息过度丢失的问题。大量研究证明,通过向CNN添加多头关注,该模型可以精确提取雷达反射率图像的局部空间特征。此外,所提出的双信道网络中的第二信道可以有效地提取云彩的颜色、移动速度和大小等信息。此外,研究证明,该模型的训练收敛速度更快、更稳定。定量和定性结果表明,所提出的方法在雷达回波数据集上实现了最先进的降水预测精度,为降水预报中的时空特征提取提供了一种新的有效方案。
天气雷达回波外推是进行临近降水预测的重要手段,其基本原理是利用气象雷达探测云层回波数据,确定回波的强度分布和回波体的移动速度与方向,再通过对回波体进行线性或非线性的外推,从而预测一定时间段后的雷达回波状态。本文对围绕DL方法进行天气雷达回波外推展开了介绍,重点总结了以CNN、RNN和DGM等为核心的方法。就目前来看,以CNN和RNN为核心的深度学习方法研究较为成熟,而基于深度生成模型和注意力机制的方法还有较大地探索空间。由于雷达回波也可以看成是图像序列预测或视频预测任务,因而序列生成模型方法也可以用于此项研究。此外,现有的天气雷达回波外推模型仅以多个时刻雷达图像的反射率因子信息作为输入,因而可考虑加入风场信息及数值预报环境场等信息,使得网络可以学习到更多的物理变化机制,对天气系统的演变可能有更好的建模,能更进一步提高预报的精准度。