高清文,赵国忱
( 辽宁工程技术大学测绘与地理科学学院,辽宁阜新 123000 )
电离层作为大气层的重要组成部分之一,其分布在60~2 000 km.电离层电子总含量(TEC)变化对于无线电通讯、导航定位、卫星信号传输有着重要的影响.在导航定位应用中,电离层误差是信号传播过程的主要误差之一[1].TEC受太阳活动、地震、台风等影响会产生变化,多种因素共同作用下导致TEC在时空上的无序性、随机性和非线性的特点.传统的TEC预报方式是通过Klobuchar、Bent、IRI 等经验模型进行预报.然而采用传统模型有时难以满足对TEC精确预报的需求[2].因此,研究人员采用了基于时间序列的TEC预报模型[3-4],原因是时间序列建模需要的数据量少且结构简单,但时间序列作为一种线型预测模型,当预测的变量受到外界环境干扰而产生变化,或者随着预报时间的增加,都会产生预测精度下降的问题.于是有学者提出了采用神经网络对TEC进行预测.文献[5-6]使用BP神经网络对TEC变化进行了预测,文献[7]提出了使用小波神经网络对TEC进行预报.然而BP神经网络存在着学习率不稳定,网络层数不确定的问题,小波神经网络存在着网络节点数、初始化参数难以确定的问题.因此出现了组合模型预报电离层TEC的方法.文献[8]提出了使用经验模态分解(EMD)结合时间序列ARIMA 的方式进行TCE 预报.组合模型相对于单一模型提高了电离层TEC的预报精度,然而使用EMD算法进行信号分解时会产生模态混叠,因此文献[9]提出了集合经验模态分解(EEMD)代替EMD与神经网络进行组合的方式,以解决TEC时间序列存在噪声的问题.但EEMD不仅迭代次数多,而且在其计算过程中添加的辅助噪声会残留在信号中.
考虑到上述问题,文中采用了互补集总经验模态分解(CEEMD)与广义回归神经网络(GRNN).同EMD相比,CEEMD不但有效地解决了EMD的模态混叠问题,同时也保留了EMD处理非平稳信号的优势[10].GRNN 神经网络是在径向基函数(RBF)的基础上改进而来,相比于BP神经网络、Elman 神经网络、RBF等非线性模型逼近能力更好,学习能力也得到了加强.即使样本数据稀少,网络的输出结果也能够收敛于最优回归表面[11].因此对TEC原始数据进行CEEMD分解,将分解后的各个分量分别用GRNN神经网络进行预测,最终将不同分量预测结果进行重组,将重组后的结果与单一GRNN 预测结果、EMDGRNN 预测结果以及实际值进行比较.最终发现通过CEEMD与GRNN 模型的预报结果要优于单一GRNN 与EMD-GRNN 模型.
EMD分解过程则恰好是将一个非平稳信号转化为一系列平稳信号的过程,其中的每个平稳信号,称作为本征模态函数(IMF)[12].但要实现EMD分解,必须保证的条件有两个:序列x(t)中极值点数量和零点数量相同,或者相差的上限是一个;任意IMF分量上每一个时间节点的局部极大值与极小值所组成的包络线均值为0.对于一个输入信号x(t),进行有效的EMD分解步骤如下:
1)对信号x(t)进行计算并找出x(t)中存在的所有极值点;
2)用插值法对极小值点形成下包络amin(t),对极大值形成上包络amax(t);
3)利用上下包络线求均值,记包络线均值为m(t),m(t)= (amin(t)+amax(t))/2;
4)用原始信号减去步骤3)中得到的平均包络值,得到中间信号h(t),h(t)=x(t)−m(t);
5)令c(t)=h(t),判断c(t)是否满足EMD分解约束条件,如果满足条件则c(t)可以作为一个IMF分量,若不满足条件则以c(t)为基准,重复步骤1)~4);
6)终止条件,计算连续两个c(t)分量的标准差,可由式(1)表示,计算式中标准偏差SD值.
原始信号x(t)经过EMD分解后可由式(2)表示.ci(t)为第i个本质模态函数;r(t)为分解后保留的残余分量,信号分解后获得了n个本质模态函数和一个残余项,n的个数取决于步骤5)以及步骤6),原始信号则是由这些不同时间尺度下的本质模态函数和残余项组成.
由于TEC序列是一种非平稳序列,直接采用原始序列进行数据拟合与预测,将会严重影响其预测结果.因此提出使用CEEMD对TEC序列进行预先处理.CEEMD是由EMD以及EEMD算法改进的一种经验模态分解算法.Huang 等[13]提出希尔伯特方法时首次提到了EMD分解算法,但基于EMD算法对原始信号进行分解得到的IMF分量存在模态混叠问题[14].拥有模态混叠现象IMF分量将会成为一个无用分量,从而影响信号的重构效果,因此文献[15]提出了噪声辅助的集成经验模态分解方法EEMD.EEMD方法通过滤波器组以及辅助添加白噪声(WN)的方式有效抑制了EMD方法产生的模态混叠情况.但EEMD方法采用辅助噪声对原始信号进行分解,分解后的IMF分量难免会受到噪声影响,并且具有较大的重构误差.文献[16]提出了CEEMD方法对信号进行分解,在原始信号中加入成对的噪声,利用成对噪声反相关特性消除添加噪声后分解的IMF分量中的残余噪声,并且CEEMD算法重构误差要小于EEMD重构误差.综上所述,采用CEEMD方式分解电离层时序数据相比于EMD方式分解的优点如下:
1)有效地降低了EMD分解的模态混叠现象;
2)CEEMD作为EEMD算法的改进算法可以分离不同尺度的信号;
3)CEEMD加入正反成对噪声用于降低残余噪声对IMF分量的影响,降低计算时间,提高重构精度.
CEEMD对原始信号x(t)进行分解的具体流程如下:
1)在原始信号x(t)中加入一对相反的高斯白噪声(WGN)w(t),得到两个信号如式(3)所示:
2)将加入相反WGN后得到的新序列x1(t)、x2(t)使用EMD进行分解,分解后可以得到两个分量,分别为IMF1分量、IMF2分量,计算每组分量均值得到结果如式(4)所示:
GRNN 的理论基础是非线性回归分析,即利用密度函数来预测输出[17],是径向基神经网络的一种,最早由Donald F.Specht[18]提出.其优点在于学习速度快、非线性能力强,并且不需要对参数进行过于复杂的调节,可以对非稳定的数据进行处理.GRNN 网络结构包括四层:输入层、模式层、求和层、输出层,结构层次如图1所示.
图1 GRNN 神经网络结构
GRNN 的输入层用于输入测试样本,其节点数与样本的特征维度相同,模式层的节点个数等于训练样本的个数,求和层的节点个数等于输出样本维度加1(k+1),输出层节点个数等于标签向量的维度.
GRNN 网络是由是非线性回归作为支撑的一种网络,其模式层的函数表达式如下
根据上述GRNN原理介绍可知模型层数为四层,将GRNN用于电离层预测时,采用历史数据预测未来时刻数据.
采用CEEMD-GRNN模型进行TEC值预报的流程如下:
1)获取国际GNSS服务(IGS)中心提供的时间间隔为1 h 的TEC数据作为原始数据,规定原始数据为x(t),利用CEEMD对x(t)进行分解,根据文献[16]建议CEEMD添加的噪声不宜超过0.2倍标准差,通过调整试验,选择每组试验较优的WGN 加入到x(t)中,x(t)分解后,得到不同的IMF分量和残余项.
2)设置一个滑动窗口,设训练数据总长度为Leighton,以及延后变量Lags,则窗口宽度为Lags,窗口高度为Leighton−Lags,GRNN 输入神经元个数与窗口宽度相同,输出神经元个数为Leighton−Lags利用窗口可控制GRNN 神经网络的输入与输出并对其更新.
3)将CEEMD分解后得到的各个IMF分量以及残余项输入GRNN 网络中,在预测过程中可设置Ks−1时刻数据对Ks时刻数据产生影响,以此关系作为以此GRNN 预测的输入输出.设初始光滑因子为SStartSpread,光滑因子步长为SGapSpread,光化因子终值为SEndSpread通过交叉验证不断调节光滑因子,得到最优状态下的光化因子,获得最优GRNN模型.
4)使用本小节的步骤3)中得到的最优模型对CEEMD分解后得到的不同分量以及残余项进行预测,得到预测值后利用骤2)的滑动窗口对原始数据进行更新,改变GRNN 输入输出,返回步骤3),依次可得到Ks+1,Ks+2,···,Ks+Lags.
FLP-5型流化床包衣机(常州市佳发制粒干燥设备有限公司);BT-300型蠕动泵(重庆杰恒蠕动泵有限公司);BS400S-WE1型电子天平(德国Sartorius公司);6890型气相色谱仪,包括氢火焰离子化检测器等(美国Agilent公司);KQ-600DE型超声波清洗仪(昆山市超声仪器有限公司)。
5)对每个IMF分量以及残余量预测的结果进行叠加重构,将重构后的值作为CEEMD-GRNN 预测结果最终的预测值.
步骤1)~步骤5)整体流程如图2所示.
图2 CEEMD-GRNN 预报模型
太阳辐射对大气分子的作用是形成电离层的主要因素[19],不同程度的太阳活动,会引起地磁变化,产生磁暴等现象,从而影响TEC值,为了验证CEEMDGRNN 模型对TEC的预报精度,分别选取IGS中心2019年不同时间段,时间间隔为1 h 的低纬度(5°N,120°E),中纬度(30°N,120°E),以及高纬度(75°N,120°E)、(75°N,125°E)的TEC数据,利用不同参数进行试验分析.
选取2019年不同年积日的数据分别为:55—84、244 —273、305—334. 其中年积日55—84选取(5°N,120°E)、(30°N,120°E),年积日244—273选取(5°N,120°E)、(30°N,120°E),年积日305—334选取(75°N,120°E)、(75°N,125°E),共计6组数据,将此6组数据简称为数据1~6.数据1~6的训练部分的年积日为55—79、244—268、305—329,测试部年积日为80—84、269—273、330—334.数据2~3待测试年积日对应Kp指数较高,地磁活动相对强烈,其余数据对应Kp指数相对较低,待测试年积日电离层较为平静.
建立两个对比模型,建立EMD-GRNN模型,将不同地区与时段的TEC数据采用EMD分解,并将分解后的值送入GRNN 中进行预测并重构;建立GRNN 模型,将GRNN模型、EMD-GRNN 模型以及CEEMD-GRNN 模型对电离层TEC的预报结果同实际TEC 值进行对比,以验证预报精度.
采用以下精度评定方式,分别为平均绝对误差(MAE)、均方根误差(RMSE)、平均相对精度P,3种评价方式对应的定义表示为式(12)、(13)、(14).
按1.4节流程,将各数据进行CEEMD分解,并将分解后数据按前文提到的方式划分训练数据与测试数据.各组数据需要确定GRNN训练参数,考虑到电离层存在日变化,变化区间在[0,24],因此选取神经元个数,取其中值在12±2.
其中,对数据1~6进行CEEMD分解后取前25天作为训练数据,数据1的前25天分解图像如图3所示.图3横坐标是以h 为单位的,第一行为原始值,2~8行为CEEMD分解得到IMF1~IMF7分量,为分解剩余量.显然CEEMD与EMD的分解方式相比有效减少了模态混叠现象,拥有更好的分解效果.由于篇幅有限并未给出数据2~6的CEEMD分解图像.
图3 TEC时间序列CEEMD分解
图4(a)~(f)中横坐标为预测的5个年积日,图4(a)对应数据1,年积日为80—84时段上TEC的实际值、GRNN、EMD-GRNN、CEEMD-GRNN 的预测值对比图,数据1选用参数为[12,0.19],第一个参数为神经元个数,第二个参数为光滑因子,从图4(a)可以看出利用在三种预测方式均能够对对TEC电子量的趋势进行预测,但EMD-GRNN与CEEMD-GRNN 的预测值与单一的GRNN预测值相比与原始数据更加贴合.
图4 不同模型预测对比
图4(b)对应数据2,参数为[10,0.2],从图4(b)可知CEEMD-GRNN 模型在年积日为82—83时相对于EMD-GRNN 和单一的GRNN 更加贴合实际TEC值.图4(c)~(d)对应数据3~4,参数分别选取为[10,0.18]、[12,0.18],图4(e)~(f)对应数据5~6,参数分别选取为[13,0.2].文献[14]提出SD结果在0.2~0.3较为合适,文献[16]提出CEEMD添加的噪声不宜超过0.2,综合考虑,在CEEMD分解的过程中除数据4选择0.18倍WGN,其余为0.2 倍WGN.年积日为271—273时Kp指数均在4以上,从图4(c)~(d)上可以看到TEC 值有明显的变化.图4(c)在磁暴日低纬度TEC预测上CEEMD-GRNN 更加贴合真实值,EMD-GRNN次之,GRNN 最差,而在图4(e)~(f)上可以看到,原始TEC 值每日变化范围不大,而GRNN 预测在年积日为330和年积日为334时预测值变化较大.
图5为年积日80—84时段,(5°N,120°E)三种预测方式与TEC实际值残差对比,可以看出在年积日为83以及84时GRNN 预测方式残差值较大,数值在2~4 TECU 较多,有一部分在4~6 TECU,而EMD-GRNN 残差的绝对值在2~3 TECU,CEEMDGRNN 预测的数值大部分在1~2 TECU.图6为数据4 训练部分EMD分解的IMF2~IMF4部分,可以看出利用EMD分解此时间段数据,存在明显的模态混叠,存在模态混叠的分量会影响后续分量的分解,在此分量上的预测误差会相应的增大,从而导致最后各分量叠加重构时对最终预测效果产生一定影响,增大总体误差.
图5 不同模型预测残差
图6 EMD分解模态混叠
精度评定采用2.1节中3种评价方式,表1给出了不同时段不同纬度5天预测值的总体评价标准,从表1中可以看出,在低纬度以及高纬度上,CEEMDGRNN 与GRNN 单一预测的效果相比有显著的提高,在低纬度上MAE和RMSE提升在0.4~0.7 TECU之间,总体精度提升在1%~4%.而在中纬度269—273年积日进行预测时提升效果较差.结合图6,EMDGRNN 在中纬度由于分解数据时产生模态混叠现象,在IMF2~IMF4上预测误差较大,从而导致整体预测误差较大.在高纬度上,三种模型的总体精度都相对较低,可能是因为在高纬度上TEC数值变化较小.
表1 不同模型预测精度统计表
表2、表3为低纬度平静日与磁暴日连续5天的单日预测结果统计,与GRNN 与EMD-GRNN的预测结果相比CEEMD-GRNN在TEC产生变化的271—272年积日预测效果更好,GRNN 在这两天预测的RMSE 分别为3.43 TECU 和3.81 TECU,而CEEMDGRNN 分别为2.61TECU 和2.71TECU,MAE 和P值也有一定程度的提升,EMD-GRNN 在低纬非磁暴日和磁暴日5天的连续预测中在整体上有提高,但在个别年积日精度略有降低.同时,表4给出了低纬处不同年积日预测残差的绝对值百分比.由表4可知看出在低纬度磁暴日和非磁暴日整体的预测中,GRNN单独进行预测时预测残差的绝对值在小于1和1~2内所占的百分比数量明显少于EMD-GRNN 与CEEMD-GRNN,在大于3的部分所占的百分比要高于EMD-GRNN 与CEEMD-GRNN.结合图5与表4,可以很明显的看出,单一GRNN预测残差绝对值超出4的部分远高于CEEMD-GRNN 组合预测,最大值接近6.在预测整体过程中一些极大的残差值造成了整体精度的降低.
表2 80—84不同模型预测精度统计表
表3 269—273不同模型预测精度统计表
表4 低纬度预测残差绝对值百分比%
结合图4(a)~(f)、图5与图6、表1~4可以明显看出,组合的CEEMD-GRNN相对于单一GRNN 以及EMD-GRNN 在整体上有明显提高,在低纬度区间的提升相对较为稳定,但在中纬度磁暴日在整体上虽然有一定提升效果,但稳定性稍差,提升较小.在高纬度区间虽然使用CEEMD-GRNN预测精度提升较高,综合来看三种方式在高纬度预测精度与中低纬度相比都偏低.由表4可知CEEMD-GRNN预测残差绝对值在1~2,占总体预测残差的主要部分,其比例约为70%~80%,而GRNN 单一预测比例超过65%.EMD-GRNN 与CEEMD-GRNN 相比,虽然残差绝对值在1~2部分上相近,但残差绝对值大于3的部分影响了总体的预测精度.因此综合来看在本文试验条件下使用CEEMD-GRNN 方法对TEC进行预报在低、中、高纬度上是有效可靠的.
针对TEC时间序列因外界影响而产生高噪声,动态变化,不易于进行预报的问题,提出了利用CEEMD先行处理TEC数据,将分解后的各IMF分量以及残余项作为GRNN 网络的输入,再选择适合的平滑因子后,使用GRNN 对各分量进行预测.将各分量预测的结果进行重构,合成最终预测值. 将CEEMD-GRNN的预测值分别与GRNN、EEMD-GRNN的预测值进行了比较.选取不同时段内不同纬度的数据进行试验,验证了在本文设定的参数下CEEMD-GRNN 预测方法可行,在低、中、高纬度上总体预报精度要高于单一的GRNN 与EMD-GRNN 组合. CEEMD-GRNN虽然在某些经纬度上存在着预测稳定性失衡的问题,但相对GRNN 和EMD-GRNN 要少.实际电离层情况更加复杂,受诸多因素影响,因此接下来还需考虑多种因素影响下的TEC预测模型.
致谢:感谢IGS中心提供的TEC数据.