ARIMA模型与GM(1,1)模型在传染病发病率中的预测效果比较

2021-09-27 12:34邵升清夏桂梅
宁夏师范学院学报 2021年7期
关键词:估计值病毒性差分

邵升清,夏桂梅

(太原科技大学 应用科学学院,山西 太原 030024)

随着新冠疫情的大暴发,传染病问题再一次出现在公众的视野里,传染病的预防问题也受到人们的高度重视.目前,传染病发病率的预测方法多种多样,而且得到了广泛的应用.常用的预测模型有时间序列模型ARIMA[1]、马尔科夫链模型[2]、灰色模型GM(1,1)[3]和趋势外推模型等[4].随着社会的进步和计算机的发展,相关理论研究也不断完善,出现了利用机器学习的预测模型,有支持向量机预测[5]、人工神经网络模型预测[6]、分割K-最邻近算法预测[7]等方法.

本文根据已有的病毒性肝炎的发病率数据,从统计学角度进行研究,比较不同样本容量下ARIMA(p,d,q)模型和GM(1,1)模型对传染病的预测效果,并选择最佳模型预测短期内病毒性肝炎的发病率及发展趋势,为制定防治措施提供理论依据.

1 数据与方法介绍

1.1 研究数据

样本1 我国1990-2019年的病毒性肝炎发病率的数据,样本容量n=30.数据均来源于《中国统计年鉴》.

1.2 研究方法

(i)ARIMA(p,d,q)模型

时间序列{Xt}的自回归滑动平均模型[8]定义

Xt=φ0+φ1Xt-1+φ2Xt-2+…+φpXt-p+εt-θ1εt-1-θ2εt-2-…-θqεt-q,

(1)

将差分运算与ARMA(p,q)模型结合后,构成ARIMA(p,d,q)模型,其中d为差分阶数,B为延迟算子.则ARIMA(p,1,q)的结构为

φ(B)(1-B)Xt=θ(B)εt.

(2)

ARIMA(p,d,q)的结构为

(3)

(ii)GM(1,1)模型

(4)

称式(4)为GM(1,1)模型,求解得到

(5)

其中,a和b可通过式(6)用最小二乘估计得到

(6)

对累加序列{Yt}累减还原,则原序列的预测值为

(7)

1.3 模型评价指标

2 结果

2.1 ARIMA模型的建立

2.1.1 原始序列的平稳性检验

通常,通过观察时间序列图的曲线来确定对每个变量数据进行ADF检验时使用检验方程哪一个[10].观察时序图图1可知,原始序列有截距,无明显的时间趋势,故选择表1中类型2的检验方程xt=μ+φ1xt-1+φ2xt-2+…+φpxt-p+εt.检验水平α取0.05,由表1知,原始序列类型2的p值均大于0.05,故序列不平稳,需要进行差分处理.

图1 原始序列时序图

2.1.2 差分序列平稳性检验与白噪声检验

(i)差分序列的平稳性检验

图2是一阶差分序列的时序图,由图2知,差分序列无截距μ,也没有明显的时间趋势βt,故应选择表1中类型1的检验方程xt=φ1xt-1+φ2xt-2+…+φpxt-p+εt.由表1知,差分序列类型1的p值小于显著水平0.05,故一阶差分序列平稳.

图2 差分序列时序图

表1 原始序列与差分序列在不同情况下ADF检验的p值

(ii)差分序列的白噪声检验

H0序列值之间相互独立;

H1序列值之间存在相关关系.

差分序列在延迟6阶的Q统计量的值为14.593,p-value值为0.02367;延迟12阶的Q统计量的值为32.93,p-value值为0.0009925;故p-value值均小于0.05,应拒绝原假设H0,接受备择假设H1,即差分序列之间存在相关关系.

2.1.3 模型识别与模型诊断

由于样本数据的自相关函数图和偏自相关函数图没有很好的截尾性质,故对p和q分别取遍0、1、2 、3、4的不同的阶数的模型进行检验,同时,也利用截尾性质和AIC/BIC准则确定一些备选模型.对备选模型进行检验,结果见表2.

表2 不同模型下残差的正态性、独立性、参数显著性检验结果汇总表

说明:数字“1”表示通过检验,即残差满足正态性、独立性或参数估计值显著,数字“0”表示未通过检验.“*”号表示显著性比较好.

从表2知,模型ARIMA(0,1,3)的参数估计值显著,残差服从正态分布,且相互独立.又由标准化残差图知,模型的残差序列基本落入(-2,2)内,满足零均值等方差的特点.

综上,模型ARIMA(0,1,3)通过了模型检验.

2.1.4 参数估计

由(3)式计算知,ARIMA(0,1,3)的表达式为

xt=xt-1+εt-θ1εt-1-θ2εt-2-θ3εt-3,

(8)

经计算,模型参数的估计值为MA(1)=0.7487482,MA(2)=0.4133138,MA(3)=0.6645649,且参数估计值的p值都小于0.05,说明参数估计值显著不为零.

将参数估计值代入(8)式中,得到拟合模型ARIMA(0,1,3)的表达式为

xt=xt-1+εt-0.7487482εt-1-0.4133138εt-2-0.6645649εt-3.

2.1.5 模型预测

用样本1(n=30)建立的模型ARIMA(0,1,3)预测2020—2022年病毒性肝炎发病率,分别为90.7401 /10万、88.4158 /10万、88.9763/10万,则我国病毒性肝炎未来的发病率趋势呈下降状态,预测值误差的标准差为5.2880,10.5109,15.4407.从图3看出,原始序列值在均拟合模型的置信区间内,说明模型拟合效果比较好.

图3 ARIMA(0,1,3)模型下原始序列的拟合与预测图

说明:竖虚线右侧为预测值,左侧为拟合曲线.“*”为原始序列值,黑色实线为原始序列的拟合曲线,黑色虚线为95%的置信线.

2.3 GM(1,1)模型的建立

2.3.1 模型建立

样本1(n=30)的参数估计值a= -0.0021,b= 306.53,则拟合方程为

Yt+1=146312.25e0.0021t-145966.67.

2.3.2 模型拟合度检验

使用后验差比值C检验法和小误差概率P检验法对GM(1,1)模型进行检验[11-12].对于样本1(n=30),GM(1,1)模型的C值为0.899,P值为0.5,模型预测精度等级不合格.

2.3.3 模型预测

用样本1(n=30)建立的模型GM(1,1)预测2020年—2022年病毒性肝炎发病率,分别为97.6385 /10万、98.4129 /10万、99.1934/10万.该模型预测精度等级不合格,预测效果较差.

3 结论

对于样本容量n=30的序列,ARIMA(0,1,3)拟合效果较好,MRE值为4.68%(见表3);GM(1,1)模型的拟合度检验不合格,且MER值为15.00%,不适合进行预测.

表3 两种模型的比较

灰色系统GM(1,1)模型和ARIMA(p,d,q)模型都可以进行预测,但每个模型各有利弊,故实际应用中须使用最优模型进行预测.

ARIMA(p,d,q)模型常用于有时间特性(如季节性,周期性)的样本序列,对大样本数据拟合效果较好.ARIMA(p,d,q)模型是提取时间序列中的相关信息,并以此建模进行预测,故其局限性是只适用于平稳非白噪声时间序列.

灰色系统GM(1,1)模型常用于已知信息少,且数据规律性差的样本.该模型将无规律的数据转化为有规律的数据序列,根据此规律进行后期预测.

猜你喜欢
估计值病毒性差分
2022年7月世界直接还原铁产量表
2022年6月世界直接还原铁产量表
RLW-KdV方程的紧致有限差分格式
基于极大似然法的土壤重金属删失数据的相关性
符合差分隐私的流数据统计直方图发布
牛病毒性腹泻病特征、诊断与防治研究
数列与差分
如何快速判读指针式压力表
治病毒性感冒
炎琥宁治疗病毒性上呼吸道感染的不良反应分析