唐丝语 黄智
(江苏师范大学物理与电子工程学院 徐州 221116)
电离层是地球大气层的重要组成部分,电离层的扰动会导致无线通信、导航定位、超视距雷达等系统产生工作误差[1]。电离层总电子含量(Total Electron Content,TEC)是表征电离层形态变化的重要物理量之一,对电波传播修正和电离层理论研究等诸多方面具有重要的意义[2],因此针对探测和预报电离层TEC 的研究不断深入[3]。早期,有研究利用大量观测数据集,建立了许多电离层经验模型,其中比较著名的是国际参考电离层模型(International Reference Ionosphere,IRI)[4]、Bent 模型、Klobuchar 模型等。电离层经验模型能够较好地描述全球变化的平均行为,但对于区域的小尺度变化缺乏准确性[5]。
由于神经网络能够描述复杂的非线性输入/输出关系,利用神经网络技术进行电离层参数预报为空间天气学研究提供了新的方向,越来越多的学者利用神经网络技术进行电离层参数的预报。Li 等[6]利用BP(Back Propagation)神经网络构建了提前一天预报电离层TEC 参数的模型,实验结果表明训练后的神经网络模型可以反映出不同季节TEC 周日变化以及地磁暴情况TEC 特征。Huang 等[7]以太阳辐射通量F10.7指数、地磁活动Dst指数和电离层TEC 作为预报因子,利用径向基网络模型预报电离层总电子含量,均值误差在5 TECU 之内。Tang 等[8]首次建立基于贝叶斯正则化(Bayesian Regularization)的Elman 回归神经网络(BR-Elman)电离层TEC 预报模型,其预报效果优于传统BP 网络模型。近年来,由于人工智能技术的快速发展,深度学习网络能够克服传统神经网络难以准确表示时间序列动态变化的缺点,研究人员将其应用于电离层参数预报领域,取得了一些有意义的成果。Yuan 等[9]搭建基于递归神经网络(Recurrent Neural Network,RNN)的电离层TEC 预报模型,预测结果相比BP 反向传播神经网络,RNN 网络模型对宁静电离层和电离层暴的预测更为准确。Wen 等[10]利用长短时记忆网络模型(Long Short-term Memory,LSTM)构建了武汉站(30.53°N,114.36°E)电离层TEC 预测模型,实验表明,在磁暴条件下LSTM 模型预测优于BP 模型和IRI-2016 模型预报结果。Sun 等[11]优化了LSTM 网络结构,利用双向长短时记忆网络(Bidirectional Long Short-term Memory,Bi-LSTM)对北京站(40°N,115°E)开展电离层TEC 预报,其误差约为3.35 TECU。
LSTM 网络有效解决了RNN 梯度爆炸、消失等缺点[12],能够较好地捕捉TEC 的时间变化特征,因而被广泛应用于电离层TEC 预报研究。但TEC 不仅是随着时间变化的序列,同时具有明显的空间变化特征,有必要深入探求更适合的神经网络,进一步提升预报精度。本文致力于开发一种基于因果卷积和LSTM 网络的电离层TEC 预报模型,自动提取TEC序列的时空变化特点,建立最优化网络拓扑结构。
本文根据预报模型中因果卷积和长短时记忆网络的基本原理,提出了一种基于因果卷积和LSTM 网络的电离层TEC 混合深度学习预报模型,并详细地描述了预报模型的算法流程。同时利用欧洲定轨中心CODE 提供的2005-2013 年的TEC 数据,深入分析了北京站、武汉站、海口站在不同太阳活动、地磁活动条件下及不同季节混合模型的有效性,进一步给出了与LSTM 网络预报模型的分析比对结果。对预报结果进行了讨论并得出结论。
为了引入时间序列敏感性,搭建的基于因果卷积和长短时记忆网络模型是在长短时记忆网络基础上进行的改进,首先通过因果卷积对电离层TEC 时间维度信息进行聚合,继而再通过LSTM 进一步学习TEC 时空特征并对其进行预测。
卷积神经网络(Convolutional Neural Network,CNN)的核心是卷积操作[13],卷积操作是指将数据与一组固定权重的滤波矩阵进行内积,其主要应用于计算机视觉领域。考虑到时间因素,基础的CNN 并不适用于时序预报领域,通常采用因果卷积预报时间序列并实现不遗漏过去信息的功能[14]。因果卷积通过限制滑动窗口来保证t之后的信息不会用来预报,其计算过程如图1 所示。
由图1 可见,因果卷积是使用一维卷积核(One Dimensional Convolution Kernel)在时域上对时序数据进行卷积计算,每一层的输出都是根据前一层对应未知的输入及其前一个位置的输入共同得到的,具有严格的时间约束,假设卷积核为F={f1,f2,...,fk},序列X0={x1,x2,x3,...,xn},在xt处的因果卷积为
图1 因果卷积结构模型Fig.1 Structure model of the causal convolution
式中xt−K+k表 示输入序列X0={x1,x2,x3,...,xn}中第t−K+k个 值,卷积核的长度为K。
长短时记忆模型LSTM 是一种特殊类型的循环神经网络RNN。标准RNN 模型是一个拥有重复单元的循环式模型,LSTM 模型主要是在传统RNN 模型基础上,对其神经元内部结构进行改进,使网络模型可以学习长期依赖信息,有效地规避了标准RNN中梯度爆炸和梯度消失的问题[15],LSTM 网络单元结构如图2 所示。
图2 中LSTM 神经网络单元主要由三个门构成[16],分别为输入门 i、遗忘门 f、输出门 o,输入门i控制着每个隐藏单元的输入有多少新的信息加入内部状态Ct里 ;遗忘门 f 决定着先前状态Ct−1保留和丢弃的信息;输出门 o 控制着每个单元被保留的激活信息和不相关的信息。LSTM 通过这三个门控单元来选择性地记忆反馈的误差函数以及随梯度下降的修正参数,从而实现时间上记忆或遗忘的功能。设LSTM 层将输入序列x=(x1,x2,...,xt)映射到隐藏层输出序列h=(h1,h2,...,ht),则LSTM 神经网络工作过程中记忆单元的状态和输出表达式为
图2 LSTM 模型神经元结构Fig.2 LSTM model neuron structure
其中,it、ft和ot分别表示t时刻输入门、遗忘门和输出门的输出值,Ct代 表t时刻神经元激活状态,σ为sigmoid 激活函数,tanh 为双曲正切激活函数,w为LSTM 不同层之间的权系数矩阵,b为偏置项。
电离层随纬度、经度呈现复杂的空间变化,为了验证预报模型在中国区域不同空间位置的有效性,选取东经110°E 附近三个不同纬度的GPS 观测站,其地理位置列于表1。电离层TEC 数据来源于欧洲定轨中心(CODE)的全球电离层地图GIM。CODE TEC 采用球谐函数拟合和快速傅里叶变换技术,具有较高的精度,广泛应用于电离层形态以及地震等空间异常前兆分析,文中采用TEC 数据的时间分辨率为2 h。
表1 GPS 观测站位置Table 1 Location of GPS stations
由于电离层TEC 不仅随时间和空间变化,同时也受到太阳活动和地磁活动的影响,因此本实验中除了历史TEC 数据,还加入了太阳活动指数F10.7和地磁活动指数Dst作为电离层TEC 预报模型的预报因子。其中,F10.7指数表示波长为10.7 cm 的太阳射电通量,与太阳黑子数密切相关,是表征太阳活动重要参数之一。Dst是指磁暴环电流指数,被用来描述地磁强度,其时间分辨率为1 h。
为了全面评估基于因果卷积和长短时记忆网络模型的性能,本文采用2005-2013 年连续9 年不同太阳活动期间的数据,其F10.7指数变化如图3(a)所示。由图3(a)可见,2008-2009 年为太阳活动低年,F10.7指数的均值约为70 sfu(1 sfu=10−33W·m−2·Hz−1),2012-2013 为太阳活动高年,F10.7指数的均值明显升高约120 sfu。文中选取2009 年和2013 年数据为网络模型测试数据集,其余样本作为训练集(训练集数据不包括2009 年和2013 年数据)。同时,为分析磁暴期间模型预测精度,图3(b)给出了2013 年Dst指数变化的趋势,由图3(b)可见,其中第76 天、152 天、180 天Dst指数明显下降,其下降最大值分别约为–132 nT、–124 nT、–102 nT。
图3 2005-2013 年F10.7 指数变化和2013 年Dst 指数变化Fig.3 F10.7 index variation during 2005-2013 and Dst index variation in 2013
实验采用基于因果卷积和LSTM 网络的电离层TEC 预报模型,模型结构如图4 所示,输入序列先通过因果卷积,能够提取原始较长数据的抽象特征转换为较短的输出序列,继而将其作为LSTM 网络的输入进行处理。
图4 预报模型结构Fig.4 Structure diagram of the forecast model
2.2.1 数据预处理
将连续9 年TEC 时间序列X0={x1,x2,...,xn}按照7∶2 划分为训练集Xtr={x1,x2,...,xm}和测试集Xte={x1,x2,...,xl},同理将太阳活动指数F10.7和地磁活动指数Dst也按照7∶2 进行训练集和测试集划分。然后对所有数据进行Z-score 标准化处理,标准化公式为
式中,xt表 示原始TEC 数据中的第t个值,µt表示原始TEC 时间序列的均值,σt为原始TEC 时间序列的标准差,表示标准化后的TEC 数据。
2.2.2 模型训练
确定基于因果卷积和LSTM 神经网络的拓扑结构,并初始化预报模型网络的权重,对模型中参数进行调节,其中在因果卷积网络处理层使用128 个时域卷积核,大小为24,最大池化层算子为3,激活函数为tanh,在LSTM 网络处理层中,设置学习率为10–4、隐藏层神经元数为20、输入量长度为30×13、优化器为Adma 算法、目标函数为均方差等,继而将训练集批量地输入电离层TEC 预报模型中,计算有效历史长度的输出误差,并将误差通过反向传播来更新预报模型权重参数,最终得到预报模型。
2.2.3 模型预报
模型训练完成后,载入训练好的权重和偏置,将训练好的模型记为 CC-LSTM,继而将测试集输入进行测试,详细过程如图5 所示,首先利用t时刻和之前的数据集预测(t+1)时刻的TEC,为了实现工程意义上的预报,继而将预测出的(t+1)时刻的数据加入新的基础序列中,再对(t+2)时刻的TEC 数据进行预报[17]。以此类推进行测试集预报直至预报结束,得到预报序列Ti={t1,t2,...,ti},继而将预报序列Ti进行Zscore 反标准化,则可得到最终的预报结果。
图5 测试集预报过程Fig.5 Forecast process chart of the test set
2.2.4 模型评估
将模型预报的结果与真实测量值进行比较,采用相关系数R和均方根误差ERMS(Root Mean Square Error,RMSE)这两个性能指标来评估模型的有效性,即
其中,Ti为第i小时的电离层TEC 预报值,Qi为第i小时电离层TEC 的观测值,n为时间段的长度,cov为 协方差,var为方差。
为了对所提出的基于因果卷积和LSTM 网络的电离层TEC 预报模型有效性进行评估,实验采取2005-2013 年北京站、武汉站和海口站电离层TEC 观测数据、太阳活动指数F10.7和地磁指数Dst作为特征输入参数,进行电离层TEC 的预报。预报模型利用30 天电离层TEC 数据,预测下一天TEC 数据。考虑到太阳活动对电离层TEC 的影响,实验选取了太阳活动高年(2013 年)和太阳活动低年(2009 年)进行模型有效性分析。图6 给出了2009 年2 月3-9 日(34-40 天)和2013 年8 月12-18 日(224-230 天)不同GPS 站TEC 预报值和TEC 实测值的变化曲线。从图6 变化曲线可以清楚看出,无论太阳活动低年还是高年实验模型预报值与实际测量TEC 值的变化趋势基本一致。但随着观测站纬度的降低,预报结果与TEC 测量值出现了一定的偏差,特别在太阳活动高年,低纬地区海口站预测结果明显偏高。
图6 2009 年第34-40 天和2013 年第224-230 天模型预报结果与实际值比较Fig.6 Comparison of the model forecast results and the actual values from the 34th to the 40th day in 2009 and from the 224th to the 230th day in 2013
为详细描述实验模型预报值与TEC 真实测量值的差异,根据式(9)计算并绘制了2009 年和2013 年全年不同站点的散点图分布和回归分析结果(见图7)。图7 中k表示拟合函数的斜率,R为相关系数,k和R越接近1,预报结果与真实值越接近,说明预报效果越好。由图7 可见,太阳活动低年三个观测站的拟合直线斜率k约为0.8,相关系数都大于0.87;太阳活动高年三个站点的相关系数都在0.96 以上,斜率约为0.93。结果表明,太阳活动低年和高年,模型预报值与真实测量值均呈现较高的正相关,海口站在太阳活动高低年的回归线斜率和相关性系数值较高,但其散点图中的离散点相较于北京和武汉站有所增加。
图7 2009 年和2013 年三个站点模型预报值与真实值回归分析结果Fig.7 Regression analysis between the prediction and the observations at three stations in 2009 and 2013
为量化分析混合深度学习预报模型的精度,根据式(10)计算2009 年和2013 年不同站预报的均方根误差(RMSE),其分布直方图如图8 所示。从图8 可以看出,实验模型预报误差绝大多数分布在0~1 TECU 范围内。太阳活动低年(2009 年),北京站约84%、武汉站约88%、海口站约78%的预报误差集中于0~1 TECU 内;太阳活动高年(2013 年)三个观测站位于该范围的预报均方根误差占比依次降低为70%,68%和43%,尤其2013 年海口站有较大比例的误差分布在3 TECU 左右。可见太阳活动增强,模型预报误差明显增大。
图8 模型在2009 年和2013 年的预报误差分布直方图Fig.8 Forecast error distributions of the hybrid model in 2009 and 2013
为进一步分析地磁扰动期间深度学习TEC 预测模型的性能,选取2013 年Dst指数小于–50 nT 的磁暴数据(第76-83 天,第152-159 天,第180-184天),分别计算不同观测站TEC 平均预报误差。结果表明,北京站、武汉站和海口站的预报误差均值分别约 为 2.14 TECU、2.42 TECU、3.70 TECU,而2013 全年北京站、武汉站和海口站的预报误差分别为1.80 TECU、1.87 TECU 和3.60 TECU,可见地磁扰动期间预报模型误差增大。除此之外,不同季节太阳直射地球的位置不同,电离层TEC 分布也不同,因而本实验探究了预报模型在不同季节时段的TEC 预报结果,以春分、夏至、秋分、冬至前后45 天将全年划分春、夏、秋、冬四季,其预报结果如表2 所示。由表2 明显可知,无论太阳活动高年还是低年,模型在三个台站春秋季预报误差最小。在中高纬度地区(北京站)夏季预报误差最大;在低纬地区(武汉和海口),模型在太阳活动低年夏季误差最大,但在太阳活动高年,模型在冬季误差最大。且2013 年冬季,海口地区误差突然增至5 TECU,可能与北纬赤道地区太阳活动和地磁活动等因素有关。
表2 2009 年和2013 年不同站点在不同季节的预报误差RMSE(TECU)Table 2 Forecast RMSEs at different stations in different seasons in 2009 and 2013
为进一步验证 CC-LSTM 混合模型预报的性能,在特征参量、模型参数输入相同的条件下,本文计算了CC-LSTM混合模型与LSTM 网络模型均方根误差,其结果列于表3。表3 中LSTM 模型在三个观测站的RMSE 值都大于 CC-LSTM模型的RMSE 值,根据表3 提供的6 组数据,可计算出实验模型均方根误差相对于LSTM 预报模型大概降低了15%。从太阳活动程度来看,太阳高年两个模型的RMSE 值要高于太阳活动低年;从高低纬度来看,纬度越高预报误差越小,说明两者都可以很好地反映电离层TEC 特性,但 CC-LSTM模型效果略优于LSTM 模型,主要由于与单一LSTM 网络相比,混合模型中的因果卷积能更准确地捕捉TEC 序列的时空变化特征,其输出中隐含了较大时间跨度的TEC 时序特征,使得LSTM 网络进行后续计算可以观察到更早的、分辨率较高的TEC 时序数据,从而有效地提高电离层TEC 预报的准确性。
表3 混合神经网络模型与LSTM 预报均方根误差对比结果(TECU)Table 3 Comparison of the RMSE between the mixed neural network model and LSTM network
针对电离层TEC 时空变化特征和LSTM 网络的不足,提出了一种基于因果卷积和LSTM 混合深度学习预报模型,并利用2005-2013 年不同太阳活动期间的CODE TEC 数据对北京站、武汉站和海口站进行提前24 h 预报。预报结果表明:(1)模型在中高纬地区具有较高的精度,纬度降低特别是赤道附近区域模型预报精度下降;(2)随着太阳活动和地磁活动的增强,模型预报精度有所降低;(3)模型在春秋季预报误差最小,夏季或冬季预报误差较大;(4)混合神经网络模型预报性能明显优于LSTM 网络模型。
与中高纬相比,低纬以及赤道区域的电离层TEC 值和梯度变化明显增大,特别是在太阳活动高年和磁暴发生期间其行为变化更加复杂,极大增加了预测模型对TEC 时空信息捕捉的难度,导致模型预测精度下降。此外,2009 年是太阳活动极小年,电离层TEC 值较小,位于中高纬的北京站部分观测值甚至低于2 TECU,背景观测值过低很可能是导致北京站在太阳低年预测精度相对不高的原因。
CODE 利用全球范围的双频GNSS 观测站数据,采用球谐函数展开技术,获取全球电离层描述GIM,具有较高的精度,广泛应用于电离层形态以及地震等空间异常前兆分析[18]。但与单站GNSS 观测数据相比,TEC 变化相对平缓,未来将收集不同区域GNSS实测数据,同时考虑更多影响电离层TEC 变化的因素针对异常空间环境开展更为深入细致研究。
致谢欧洲定轨中心CODE(ftp://ftp.unibe.ch/CODE/)、国家空间科学数据中心(http://www.nssdc.ac.cn)、国家地球物理数据中心(ftp://ftp.ngdc.noaa.gov/)和京都世界地磁数据中心(http://wdc.kugi.kyoto-u.ac.jp/index.html)为本文提供了分析数据。