邓天云,刘二小,徐晨
杭州电子科技大学通信工程学院,杭州 310018
电离层等离子体对流是空间天气的重要现象,也是电离层研究过程中的重要研究目标.其中蕴含着太阳风向磁层-电离层系统能量传输的一系列重要信息.过去的很多研究都表明,高纬电离层等离子体对流与其他许多空间参数存在着密不可分的联系,比如IMF(Interplanetary Magnetic Field)、太阳风速度及动压和地磁活动指数等(Ruohoniemi and Greenwald,1995;Thomas and Shepherd,2018;Bristow et al.,2004;Cousins et al.,2010;Grocott and Milan,2014).但实际上电离层对流对其他空间参数的依赖关系是非常复杂的,很难用一个明确的解析函数将其表达出来,因此,本文从电离层对流对于自身的依赖性出发,研究其在时间和空间上的演变规律,构建电离层对流电势30 min预测模型,这对空间天气建模和预测以及深入理解太阳风-磁层-电离层能量传输过程具有重要的意义.
众所周知,在中高纬地区,太阳风和磁层的相互作用产生的大尺度电场会沿着地球磁力线映射到高纬电离层,形成等离子体对流.等离子体对流的实质是电子和离子一起作E×B的漂移运动,运动的方向垂直于磁力线.行星际磁场IMF在磁层-电离层耦合中起着重要作用(Lu et al.,2019;Liu et al.,2018),根据行星际磁场IMF方向和大小的不同,对流图的结构也有显著的差异.当IMF南向时,由于磁层顶的耦合较强,磁层环流也较强,对流图像往往呈现为典型的双涡旋结构.当IMF北向时,耦合较弱,环流也较弱,但对流图像更复杂,往往呈现为畸变的双涡旋结构甚至是多涡旋结构.当IMF存在东西方向的分量时,对流图像会在原有的基础上引入不对称性.电离层对流图中包含着一些表征电离层电动力学的重要参数,如越极盖电势CPCP(Cross Polar Cap Potential)、越极盖电场CPEF(Cross Polar Electric Field)、涡间距以及晨昏侧不对称性等.这些参数对于空间天气变化有着重要的指示作用.一些学者已对这些参数进行了深入的研究,并取得了重要成果.Khachikjan等(2008)研究了CPCP与行星际电场、太阳风动压以及磁层顶日下点距离的依赖关系,结果表明随着行星际电场的增大,CPCP趋向于饱和,而磁层顶日下点距离是导致这种饱和效应的一个重要因素.Wilder等(2011)基于DMSP卫星(Defense Meteorological Sate-llite Program)和SuperDARN雷达数据研究了CPCP随一系列太阳风-行星际磁场参数的非线性关系,结果表明通过线性拟合得到的CPCP模型的预测值与太阳风的阿尔芬马赫数存在显著的相关性,而与太阳风动压的相关性并不明显.熊雯(2014)利用OMNI的太阳风数据和AMIE(Assimilative Mapping of Ionospheric Electrodynamics)模型输出的跨极盖电势值,对暴时跨极盖电势饱和效应进行统计学研究,得到行星际电场晨昏分量与跨极盖电势两者之间的定量关系式.Myllys等(2017)通过研究北极盖指数PCN(North Polar Cross Index)与太阳风的耦合效率深入探讨了CPCP饱和效应的产生原因,结果表明PCN的饱和发生在中等上游的阿尔芬马赫数条件下,且随着太阳风速度的增大,其耦合效率也在不断增大.Liu等(2019)使用线性回归模型和BP神经网络模型对越极盖电势CPCP进行了预测,并采用独立的数据集进行验证,证明了反向传播神经网络BP在CPCP建模中的有效性.Liu等(2020)使用长短时记忆网络LSTM(Long Short-Term Memory)模型对CPCP进行了预测,使得误差进一步降低到4.1 kV,证明了时序模型在CPCP建模上的强大潜力.
深度学习在空间天气建模中的应用已经引起许多学者的兴趣,比如在电离层参数建模与预测领域,已经有一些学者使用深度学习技术对火箭、雷达或是卫星探测到的海量数据进行了建模,实现参数预测或者是重构的功能.例如,Sun等(2017)采用长短时记忆网络对北京地区的电离层总电子含量TEC进行预测,并与传统的多层感知机进行比较,结果表明LSTM的预测精度更好,误差更低.Tan等(2018)使用组合的LSTM模型实现了地磁指数Kp的预测,使其均方误差和平均绝对误差达到了0.48和0.64.韩冰等(2019)使用BP和GRNN两种神经网络模型对极光卵边界进行建模,结果表明GRNN建模的极光卵边界模型具有更高的准确性,赤道向边界预测平均绝对误差为0.77~1.20磁纬度.Chen等(2019)提出了深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Networks,DCGAN),通过添加一个额外的判决器以及使用IGS提供的TEC地图作为先验知识,实现TEC图片的修补.胡泽骏等(2020)基于Polar卫星的紫外极光成像仪数据,采用曲线拟合和网格化两种不同的极光强度表征方法,以行星际-太阳风参数和地磁指数作为输入参数,构建了两种极光强度预测模型,并使用结构相似度作为评估指标,最终取得了较好的效果.以上说明了深度学习在空间天气建模中的应用已经较成熟,但是基于深度学习的极区电离层对流建模相关的研究工作很少,需要深入开展下去.
本文首先对SuperDARN雷达网收集到的2014年12月份的电离层对流电势数据进行预处理,然后基于Python中的Tensorflow模块搭建了三种不同的深度学习网络模型,分别为BP(Back Propagation)模型、FC-LSTM(Fully Connected-LSTM)模型以及ED-ConvLSTM(Encoding Decoding-Convolutional LSTM)模型.其中对于BP模型和FC-LSTM模型,其输入为对流电势值,并且BP模型中添加了20 min(Bargatze et al.,1985)的历史对流电势值.对于ED-ConvLSTM模型,其输入为二维的对流电势数据,尺寸为39×181,每个点都代表某个经纬度的对流电势值.模型搭建完成后,使用训练数据集对模型进行训练和调参,得到电离层对流电势30 min预测模型.本文采用结构相似度SSIM(Structural Similarity)、均方根误差RMSE(Root Mean Square Error)以及线性相关系数LC(Linear Correlation Coefficient)三个评价指标在独立的测试数据集上对模型进行评估,同时进一步研究模型预测的CPCP分布和CPEF分布与实测数据分布的差异,对比分析各种模型的性能.
SuperDARN雷达网(Chisham et al.,2007;Nishitani et al.,2019)诞生于20世纪80年代,截至目前为止,共有35部雷达在运行,其中北半球有21部,南半球有14部.因其较高的时间分辨率和巨大的空间覆盖率,在研究磁层、电离层、热层以及中间层方面取得了很大的成功,已经逐渐成为当前国际上探测电离层等离子体对流的强有力的工具(徐良等,2008).在SuperDARN雷达的数据处理软件系统中,对流图是基于对流电势数据生成的.SuperDARN雷达首先通过MAP POTENTIAL算法(Ruohoniemi and Baker,1998;Shepherd and Ruohoniemi,2000)基于现有的回波视线多普勒速度测量值,结合离散后的模型数据进行8阶或者更高阶的球谐函数最佳拟合求得极区静电势.随后根据求得的极区静电势,绘制其等高线,得到描述不规则体流动的全域对流图.图1为SuperDARN雷达在2014年12月24日02∶46—02∶48UT观测的全域对流图.越极盖电势CPCP定义为图中最大电势CPmax和最小电势CPmin之间的差值,即CPCP=CPmax-CPmin,越极盖电场CPEF定义为图中CPCP与涡间距d之间的比值,即CPEF=CPCP/d,其中涡间距d为最大电势CPmax到最小电势CPmin的距离,如图所示.
图1 SuperDARN雷达在2014年12月24日02∶46—02∶48UT的对流图Fig.1 A typical SuperDARN convection map for 02∶46—02∶48UT on 24 December 2014
另外,在SuperDARN雷达数据处理过程中,雷达的回波点数会对数据的真实性有很大的影响(Ruohoniemi and Greenwald,1997;Mori and Koustov,2013),通常会选择回波点数大于200(Koustov et al.,2004)或者更高的对流图,回波点数越高代表着雷达观测到的数据越可靠.此外,由于仪器的原因,不同年积日接收到的对流图个数也不相同,如图2所示.为了后续更好的建模,我们尽可能选择对流图个数较多的时间段.
图2 2014年SuperDARN雷达接收到的每日对流图数量随年积日的变化图Fig.2 Variation of daily convection map numbers received by SuperDARN with the day of year in 2014
本文所用数据为SuperDARN雷达网在2014年11月28日到12月12日,12月15日到12月21日测量的共21天的数据,如图3a所示.在该时间段内,SuperDARN雷达网观测的对流图在全部时间段内的回波点数都高于200,在绝大部分时间段内都高于300.整个数据集内,回波点数大于300的对流图占比约为99.74%.其中,11月28日到12月12日共15天的数据作为训练数据集,12月15日到12月21日共7天的数据为测试数据集,时间分辨率为2 min.相较于卫星、磁力计等其他测量手段,使用SuperDARN雷达网测量的最大优势就是其能够捕捉到分钟量级的电势变化.与此同时,如图3b所示,训练集和测试集的CPCP值主要介于20~100 kV之间,且二者的分布相似,而CPCP又是对流图最为重要的参数,因此本文可以忽略测试与训练之间数据的不平衡引入的误差.
图3 训练数据集和测试数据集的(a)回波矢量点的统计分布图和(b)CPCP的统计分布图Fig.3 Statistical distribution of (a)echo vector points and (b)Cross Polar Cap Potential for training and testing data
由于电离层对流主要发生在中高纬地区,因此需要对雷达接收到的全球范围内的数据进行裁剪,以消除无效数据对于建模的不利影响.这里选择纬度50°为边界点(Thomas and Shepherd,2018),裁剪掉纬度低于50°的部分,这样每一个时刻的对流电势数据都由39×181共7059个的电势值构成,其中39代表纬度,181代表经度,分辨率为1°×2°.
本文所使用的BP算法的基本框架如图4所示,其中输入层用来接收由前20 min该经纬度对流电势值构成的输入向量,在图中以红色的圆圈表示,隐含层共有3层,每层由50个节点构成,在图中以绿色的圆圈表示,输出层为未来30 min该经纬度的对流电势值,在图中以紫色圆圈表示.BP后向传播神经网络是1986年Rumelhart等(1986)提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,目前应用广泛.另外本文使用elu激活函数替代传统的sigmoid激活函数,计算公式为
图4 BP架构图,红色为输入层,绿色为隐藏层,紫色为输出层Fig.4 The structure for BP.The red represents the input layer,the green represents the hidden layer and the purple represents the output layer
(1)
由于elu函数的线性部分能够解决梯度消失的问题(Clevert et al.,2015),负值部分能够对输入变化或噪声更鲁棒,从而一定程度上缓解了传统BP算法中因使用sigmoid或tanh激活函数而导致的学习速度慢、容易陷入局部最优的问题.
FC-LSTM网络主要由LSTM层和全连接层构成,整体结构如图5所示,其中对于LSTM层(Hochreiter and Schmidhuber,1997),它主要通过三个门限机制来控制信息的累积速度,实现长短期记忆的功能,特别擅长对时间序列数据进行建模与预测.其中,σ为sigmoid函数,输出值为0到1,tanh是双曲正切函数,输出值为-1到1.Wxi、Whi、Wxf、Whf、Wxc、Whc、Wxo、Who分别为输入门it、遗忘门ft以及输出门ot的系数矩阵,bi、bf、bc、bo为偏置.xt为当前时刻该经纬度的对流电势值记为pot(i),yt为未来30 min该经纬度的对流电势值记为pot(i+15).其具体的计算公式如下:
图5 FC-LSTM内部单元结构图Fig.5 The internal unit structure for FC-LSTM
(2)
ft=σf(xtWxf+ht-1Whf+bf),(3)
(4)
(5)
ot=σo(xtWxo+ht-1Who+bo),(6)
ht=ot∘tanh(ct),(7)
yt=Dense2(Dense1(ht)).
(8)
ConvLSTM算法的基本框架如图6所示,该算法将卷积神经网络(Convolutional Neural Networks,CNN)与循环神经网络(Recurrent Neural Networks,RNN)相结合.对于卷积神经网络,其擅长提取数据的空间结构信息,主要应用于图像识别、计算机视觉等领域.而对于循环神经网络,其擅长提取数据的时间结构信息,主要应用于自然语言处理、机器翻译等领域.由于本文中所使用到的高纬电离层对流电势数据,是一种典型的时空序列数据,其不仅仅具有时间上的相关性,同时它也是一个尺寸为39×181的网格数据,每一个网格点都代表某个经纬度的电势值,在空间上也具有相关性,因此本文部分采用了时空序列模型ConvLSTM(Shi et al.,2015).ConvLSTM模型擅长对时空序列数据进行处理,主要应用在智慧交通、降水预测和台风预测等领域(Pan et al.,2019;Shi et al.,2017;Yu et al.,2017).由图可知,相较于LSTM网络模型,其不同点就是将LSTM模型中的hadamard乘积更改为卷积运算,从而实现了对数据的空间结构特征和时间结构特征的同时提取.其公式如下:
图6 ConvLSTM内部单元结构图Fig.6 The internal unit structure of ConvLSTM
it=σ(xt*Wxi+ht-1*Whi+ct-1∘Wci+bi),(9)
ft=σ(xt*Wxf+ht-1*Whf+ct-1∘Wcf+bf),(10)
(11)
(12)
ot=σ(xt*Wxo+ht-1*Who+ct∘Wco+bo),(13)
ht=ot∘tanh(ct).
(14)
但是直接使用ConvLSTM神经网络模型会存在内存占用过大、运算时间较长的问题,这里我们引入编码器-解码器(Encoding-Decoding,ED)结构(Cho et al.,2014),其基本思路就是在原有的模型中加入编码器和解码器.2021年,张富彬等(2021)基于加入编码器解码器的卷积长短时记忆网络实现全球电离层TEC的预测,仅仅以图像数据作为输入便取得了较好的效果.其中,编码器是由卷积层和池化层构成的下采样结构,主要功能是对输入图像进行降维并转换为中间向量.解码器是由反卷积层和上采样层构成的上采样结构,主要功能是将中间向量转换为与输入图像尺寸一致的输出图像.通过加入这样包含卷积的对称结构,能在压缩图像、减少参数量的同时,进一步挖掘到更多的空间特征,比单纯使用ConvLSTM更加有效.
ED-ConvLSTM的模型架构如图7所示.该架构主要分为五个部分:第一部分为输入,也就是当前时刻二维的对流电势数据,由39×181个网格点构成,每一个网格点都代表某个经纬度的电势值,这里我们将其当成单通道的灰度图像数据进行处理.第二部分为编码器,由两组卷积层和池化层构成,主要作用是对输入图像进行降维并提取空间上的关键特征.第三部分为一层ConvLSTM和一层Dropout,前者是时空序列预测的关键部分,主要负责提取图像的时空特征,后者是防止过拟合的手段,主要是为了通过随机失活某些神经元的方式降低模型的复杂度.第四部分为解码器,由两组转置卷积层和上采样层构成,其作用与编码器恰恰相反,主要是为了对图像进行升维和关键特征的逆提取.最后一个部分为输出,也就是未来30 min二维的对流电势数据,通过一层Conv3D将其恢复为与输入一致的尺寸,即39×181.
图7 ED-ConvLSTM模型架构图Fig.7 The structure for ED-ConvLSTM
本文基于以下三个指标对模型的性能进行分析与评估,分别是雷达实测值与模型预测值之间的均方根误差RMSE、线性相关系数LC以及结构相似度SSIM,计算表达式分别为
(15)
(16)
(17)
这三个指标均从不同的角度对模型的性能进行评估.SSIM主要是衡量两幅图像在亮度、对比度和结构上的相似性,RMSE主要是衡量误差的大小,而LC则是对预测值和测量值的拟合程度进行评估.SSIM和LC的取值范围是从-1到1,RMSE的取值范围是从0到正无穷.总而言之,SSIM和LC越接近于1,RMSE越小,则代表模型的预测性能越好,反之则越差.按照上述提出的深度学习模型,使用Python语言中的Tensorflow模块进行模型的搭建,并使用网格搜索算法进行参数的调试,选择最佳的模型参数,同时使用早停技术防止模型的过拟合.
根据雷达实测和模型预测的对流电势数据,使用matplotlib进行可视化并绘制其等高线,生成对流图像.图8是三种模型预测的2014年12月16日01∶32时刻的对流图像,其中(a)SD、(b)BP、(c)FC-LSTM、(d)ED-ConvLSTM分别为SuperDARN雷达的实测图像、BP模型的预测图像、FC-LSTM模型的预测图像以及ED-ConvLSTM模型的预测图像.由图可知,ED-ConvLSTM的预测图像明显优于FC-LSTM模型和BP模型的预测图像,不仅能将两个涡旋结构准确地预测出来,而且最大电势CPmax和最小电势CPmin的位置以及涡间距的预测也较准确.具体而言,BP模型、FC-LSTM模型以及ED-ConvLSTM模型在该时刻的预测图像与雷达实测图像的SSIM分别为0.66、0.58、0.84,RMSE为2.93 kV、3.52 kV、2.63 kV,LC为0.86、0.79、0.93,ED-ConvLSTM模型的SSIM超过了0.8,LC更是超过了0.9,显著高于其他两种模型,RMSE则小于2.7,显著低于其他两种模型.
图8 2014-12-16 01∶32时刻的(a)SuperDARN雷达实测、(b)BP模型、(c)FC-LSTM模型和(d)ED-ConvLSTM模型预测的对流图像Fig.8 The convection map for (a)SuperDARN measurement,(b)BP model,(c)FC-LSTM model and (d)ED-ConvLSTM model at 01∶32 on December 16,2014
从统计角度出发,对测试集7天共4200个对流电势数据使用训练好的三种深度学习模型进行评估,结果如表1所示.BP模型、FC-LSTM模型以及ED-ConvLSTM模型的平均SSIM分别为0.80、0.76、0.83,平均RMSE分别为4.38 kV、4.96 kV、3.96 kV,平均LC分别为0.89、0.86、0.91.总体而言,ED-ConvLSTM模型在SSIM、RMSE以及LC三个指标上的表现明显优于BP模型和FC-LSTM模型,说明了仅仅提取对流图的时间上的信息是远远不够的,其空间上的信息也具有非常重要的作用和价值.
表1 预测值与实测值在测试数据集上的平均结构相似度SSIM、平均均方根误差RMSE和平均线性相关系数LCTable 1 The average SSIM,average RMSE and average LC of the predicted value and the measured value on testing data
图9展示了三种模型在测试集上的SSIM、LC以及RMSE的条形分布图和条形散点图.从图9a中可以看到,对于SSIM指标,ED-ConvLSTM模型主要集中在0.85左右,而BP模型和FC-LSTM模型主要集中在0.8左右.对于LC指标,BP模型、FC-LSTM模型、ED-ConvLSTM模型都集中在0.95左右,但ED-ConvLSTM模型的LC分布更加集中,拟合曲线的峰值更高.对于RMSE指标,ED-ConvLSTM模型的RMSE也集中在相较于其他两种模型更小的区域.从图9b中同样也可以看到,ED-ConvLSTM的SSIM和LC的条形分布图的顶部离1更近,RMSE底部离0更近,表现最好.综上,ED-ConvLSTM模型在SSIM、LC以及RMSE三个指标上的表现比其他两种模型更好,显示了其在电离层对流电势建模的优越性.
图9 (a)三种模型在测试集上的SSIM、LC和RMSE条形分布图像(包含核密度估计);(b)三种模型在测试集上的SSIM、LC和RMSE条形散点分布图像Fig.9 (a)Histogram distribution (including kernel density estimation)and (b)scatter distribution of SSIM,LC and RMSE for the three models on testing data
为了进一步分析结果,本文将三种不同模型预测的越极盖电势CPCP和越极盖电场CPEF的分布与实际测量的分布做对比.对比结果如图10所示,可以看到BP和FC-LSTM两种模型预测的CPCP分布与雷达实测的CPCP分布差异较大,预测CPCP分布的最大值明显偏离雷达实测分布的最大值,且两条拟合曲线的高度差较大.相反,ED-ConvLSTM模型预测的CPCP分布与雷达实测的分布差异较小,预测CPCP分布的最大值与雷达实测分布的最大值非常接近,且两条拟合曲线的高度差较小.
图10 三种模型在测试集上预测的CPCP分布与实测CPCP分布的对比图像Fig.10 Comparison charts of the CPCP distribution on testing data
越极盖电场分布结果如图11所示,可以清晰地看到,ED-ConvLSTM模型预测的CPEF分布与雷达实测的CPEF分布非常接近,而BP模型和FC-LSTM模型预测的CPEF分布则存在较大的误差,对比结果与CPCP对比结果类似.
图11 三种模型在测试集上预测的CPEF分布与实测CPEF分布的对比图像Fig.11 Comparison charts of the CPEF distribution on testing data
综上,我们分析了三种不同深度学习模型预测的越极盖电势CPCP和越极盖电场CPEF分布与雷达实测分布的差距,发现相较于BP模型和FC-LSTM模型,ED-ConvLSTM模型预测的分布结果更加接近实测分布,预测分布的最大值更加接近实测分布的最大值,预测分布的拟合曲线峰值更加接近实测分布的拟合曲线峰值,说明在三种模型中,ED-ConvLSTM模型的性能最优.
针对全球电离层等离子体对流的建模和预测问题,本文采用了三种深度学习模型,分别为BP模型、FC-LSTM模型和ED-ConvLSTM模型,同时基于SuperDARN雷达测量的高分辨率对流电势数据,实现了高纬电离层对流电势30min的预测,并根据预测的对流电势数据生成高纬等离子体对流图.前两种深度学习模型BP模型和FC-LSTM模型由于其输入为单个电势值,因此只能捕捉到时间上的相关信息,整体预测误差较大,ED-ConvLSTM模型由于其输入为二维的对流电势数据,因此模型能够同时捕捉到时间和空间上的相关信息,整体预测误差较小,性能明显优于前两种模型.该模型可为以后空间天气建模中电离层对流的建模和预测提供一定的参考.
根据三种深度学习模型在SuperDARN雷达数据的建模和预测的结果,本文得到以下结论:
(1)基于SSIM、LC以及RMSE 三个评价指标在独立的测试数据集上进行评估,结果表明BP模型和FC-LSTM模型的SSIM、LC、RMSE分别为0.80、0.89、4.38 kV和0.76、0.86、4.96 kV,与之相比,ED-ConvLSTM模型则为0.83、0.91、3.96 kV,显著高于前两种模型.
(2)基于三种模型预测的对流图结果,生成越极盖电势CPCP和越极盖电场CPEF的分布,结果表明BP模型和FC-LSTM模型预测的分布与雷达实测的分布存在较大的误差,而ED-ConvLSTM模型的预测分布与实测分布较接近,拟合程度最好.
(3)总体而言,BP模型和FC-LSTM模型只能捕捉到时间上的相关信息,而ED-ConvLSTM模型则能同时捕捉到时间和空间上的相关信息,总体效果更好.
致谢感谢弗吉尼亚理工学院暨州立大学提供的SuperDARN数据,该数据可从SuperDARN官方网站免费获得(http:∥vt.superdarn.org/).SuperDARN是由澳大利亚、加拿大、中国、法国、意大利、日本、挪威、南非、英国和美国的国家科学基金机构资助的全球雷达观测网.同时感谢NASA/GSFC提供的OMNIWeb服务和OMNI数据.非常感谢编辑和审稿人的建议和意见.