李荞每,成丽波
(长春理工大学 理学院,长春 130022)
随着大数据时代的发展,数据处理受到了越来越多人的关注。时间序列预测方法是处理随时间变化的数据最有效的方法之一。近年来,越来越多的人开始利用小波对时间序列进行分析预测,寻找组合方法、模型,逐步完善理论基础。2000年,Whitcher等[1]介绍使用离散小波变换进行2个时间序列之间协方差的多尺度分析。2005年,陈飞[2]开发了一种新的经济时间序列预测方法。近年来,越来越多的学者发现小波分析适用于处理时间序列预测问题。2006年,Percival等[3]出版了Wavelet Methods for time series analysis,具体介绍了小波分析,以及基于小波的时间序列统计分析。2009年,周玉国等[4]将小波分析和自回归滑动模型引入时间序列建模与预测。2011年,Leise等[5]发现可以通过小波变换来分析有周期或幅度变化的昼夜节律。2015年,Joo等[6]提出一种基于小波滤波的预测方法。同年,Sun等[7]提出了一种新的混合模型小波-支持向量机,刘向丽等[8]提出基于小波多分辨率分析的预测方法。2016年,邱金鹏等[9]建立基于风速的功率计算数学模型,证明了采用小波分解与时间序列模型进行风电功率预测的准确性与可靠性。同年,Sharma等[10]提出了一种混合小波神经网络,用于短期太阳辐照度的预测。2019年,吴浩等[11]提出了基于小波分析的改进型3σ粗差探测方法。
本文建立小波分析时间序列组合模型,利用该模型对某国家单日新增病例数据进行分析,并预测其未来发展趋势,为防控疫情起到警示作用。
在对原始时间序列进行小波分解重构后,即可选用合适的时间序列模型进行预测。本文选用的是适合非平稳序列的ARIMA模型。
ARIMA(p,d,q)模型[13]如下
在进行模型拟合时,必须先对序列的平稳性进行检验。ARMA(p,q)模型的平稳条件是:Φ(B)=0的根都在单位圆外。即ARMA(p,q)模型的平稳性是由其自回归部分的平稳性决定的,故只需检验AR(p)的平稳性即可。
对任一AR(p)过程可简记为
xt=ρxt-1+β1xt-1+…+βp-1xt-p+1+εt
式中,ρ=φ1+φ2+…+φp-1,βj=-φj+1-φj+2-…-φp,j=1,2,…,p-1。
AR(p)过程单位根检验的假设条件为
构造ADF检验统计量[13]:
在模型拟合好后,对此模型的拟合效果进行检验。选用Durbin-Watson检验进行时间序列残差自相关性检验。文献[13]中给出DW检验统计量近似等于
根据自相关系数的定义,有
即DW≈2(1-ρ)。
因为-1≤ρ≤1,所以0≤DW≤4。当0≤ρ≤1时,序列正相关,且ρ→1时,DW→0;ρ→0时,DW→2。当-1≤ρ≤0时,序列负相关,且ρ→-1时,DW→4;ρ→0时,DW→2。由此可知当DW值越接近2,ρ值越小,拟合效果越好。
检验假设
文献[13]中给出检验未知参数显著性的t检验统计量
当该检验统计量的绝对值大于自由度为n-m的t分布的1-α分位点,即
|T|≥t1-α(n-m)
或者当该检验量的P值小于α时,拒绝原假设,则参数显著。当P值大于α,参数不显著。
本文使用数据来源于国家健康卫生委员会官方网站。采用2020年1月30日至7月31日该国单日新增病例数据进行分析,在数据处理过程中,先按照论文[14-15]中的方法进行了异常值筛选,再利用上述Wavelet-ARIMA模型,利用MATLAB对2020年8月至2021年1月的该国单日新增病例进行预测。计算过程可按照以下几个步骤进行实施:1)首先对实验数据进行预处理,检测异常值;2)将数据采用Symlet小波进行分解,层数为4;3)将分解后的数据进行重构,消除噪声;4)用ARIMA模型对去噪后的数据进行预测;5)进行ADF检验、T检验及DW检验并分析;6)得到预测及置信区间图,并进行分析;
例西方某国单日新增病例预测
本文选用sym小波对原始时间序列进行4层分解,并对分解后的时间序列进行噪声消除并重构,得到原始时间序列与重构时间序列对比图(图1及图2)。
图1 四层分解图Fig.1 Four-level decomposition
图2 Wavelet-ARIMA模型数据曲线对比图Fig.2 Curve comparison of Wavelet-ARIMA model data
图2中横坐标表示天数(单位为d),纵坐标表示该日新增病例数(单位为人),红色细线段表示该国单日新增病例人数,黑色粗线段表示去噪后该国单日新增病例人数。结果显示去噪后的时间序列更加平稳。
对原始时间序列及重构时间序列进行残差检验,结果说明重构后的时间序列更加适用于本文模型(图3和图4)。
图3 ARIMA模型残差检验的结果图Fig.3 Results of ARIMA model residual test
图4 Wavelet-ARIMA模型残差检验的结果图Fig.4 Results of Wavelet-ARIMA model residual test
由图3图4可知,数据经过小波去噪前后,残差皆服从正态分布,说明模型拟合成功。接下来计算数据标准差,对其平稳性进行ADF检验,对残差进行DW检验,对参数进行T检验(表1)。
表1 检验结果Table 1 Test results
由表1可知,经过小波去噪后的标准差远小于未经小波去噪的时间序列,T检验的p值更大,ADF检验的p值也更大,说明模型效果更好;通过Durbin-Watson对相关性进行检验,未去噪数据结果为2.011 9,去噪数据结果为1.991 9,更接近2,进一步验证重构后的数据更加适用于本文模型。
分别用ARIMA模型和Wavelet-ARIMA模型对该国单日新增病例进行预测,并计算置信区间(图5和图6)。
图5 ARIMA模型预测结果Fig.5 Results of ARIMA model prediction
图6 Wavelet-ARIMA模型预测结果Fig.6 Results of Wavelet-ARIMA model prediction
表2 检验结果Table 2 Test results
图5和图6中横坐标表示天数(单位为d),纵坐标表示单日新增病例数(单位为人)。图5是直接利用ARIMA模型的计算结果,图6是利用Wavelet-ARIMA模型的计算结果,经过对比分析,利用Wavelet-ARIMA模型进行预测可以得到更好结果。其中实际值超出置信区间的数据量见表2。
由表2可以看出,使用Wavelet-ARIMA模型进行预测,超出置信区间的数量明显减少,预测更准确。
针对非线性、非平稳的时间序列,本文提出一种基于小波分析的时间序列预测模型。首先,建立时间序列小波模型,得到去噪的平稳时间序列。然后,用本文模型对去噪后的数据进行预测。最后,通过ADF检验、T检验及Durbin-Watson检验对平稳性、参数及残差相关性进行检验。通过以上分析可知,Wavelet-ARIMA模型比ARIMA模型更有效。由本文模型预测结果可以看出,如果不采取有效防疫措施,2020年11月末,西方某国家单日新增将达到15万,至2021年1月,该国家单日新增将达到20万。为控制病毒继续传播,该国需加强防疫力度。未来,在对时间序列进行预测时,将会进一步考虑其他因素的影响,为时间序列的预测提供更多的新思路。