李沛霖
【摘要】目的:构建ARIMA模型预测湖南省常德市手足口病发病趋势,为早期防控提供科学依据。方法:分析处理2010-2015年常德市手足口病发病率时间序列,构建ARIMA模型,对2 016-2 017年常德市手足口病发病趋势进行预测。结果:通过拟合优度检验和残差序列白噪声检验,得出本研究最优模型为ARIMA(1,0,1)(0,1,1),正态化BIC=4.235,Ljung-Box=12. 019( P=O. 678),2016年观测值均位于预测值95%可信区间内,与预测值的相对误差为0.72%-35. 09%,预测2017年常德市手足口病月发病率在6月出现最大值,为24. 03/10万。结论:该ARIMA模型能够较好拟合常德市手足口病发病趋势,预测效果良好。
【关键词】ARIMA模型预测;湖南省常德市;手足口病
手足口病(hand-foot-mouth disease,HFMD)是一种由多种肠道病毒(主要为EV71和COX A16)引起的儿童常见传染病,以发热和手、足、口等部位出现皮疹和疱疹为主要特征;该病好发于五岁以下婴幼儿,容易在幼儿园及托幼场所引起疫情爆发,是我国法定的丙类传染病。手足口病的发生具有趋势性、季节性、短期波动等特点,本文通过收集我国传染病信息管理系统中湖南省常德市2010-2016年手足口病疫情信息,建立时间序列分析中的自回归综合移动平均模型(ARIMA模型),通过选择最佳模型对2017年常德市手足口病发病情况进行预测,为常德市疾病预防控制中心早期防控手足口病提供科学依据。
1 资料与方法
1.1 资料来源
疫情数据来自常德市疾病预防控制中心2010-2016年常德市手足口病疫情资料数据库。
1.2 研究方法
通过对2010-2015年常德市手足口病发病情况进行分析并构建ARIMA模型,选择最优模型比较常德市2016年手足口发病率预测值与实际观测值,评价所建立模型的预测效果,对2017年常德市手足口病发病率进行预测。
1.2.1 ARIMA模型
ARIMA模型又称B-J方法,是一种时间序列预测方法,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。对存在季节性和周期性变化的时间序列建立ARIMA模型,能够分析时间序列的随机性、平滑性和季节性,在分析的基础上选择适当的模型,可以对具有季节性变动趋势的传染病发病情况进行预测。
ARIMA模型有三个参数:p,d和q,它们分别表示模型的自回归阶数、差分的阶数和移动平均阶数。如果时间序列存在季节性趋势,可采用乘积季节性模型[ARIMA (p,d,q) (P, D, Q)。 参数P表示季节性自回归阶数,O表示季节性的移动平均阶数,D表示季节差分的阶数,S表示季节周期。
ARIMA模型的建模过程:(1)序列特征及平稳化。应用时间序列图、自相关系数函数图(ACF图)、偏自相关系数函数图(PACF图)分析序列,ARIMA建模的前提是平稳时间序列,对于非平稳的序列要经过差分或对数变换转变为平稳序列。(2)模型的识别和定阶。采用Box-Jenkins定阶法和BIC准则相结合。 (3)利用非线性最小二乘法估计模型参数。好的模型序列残差是随机的,为白噪声序列,常用Box-Ljung Q统计量来检验。(4)判断模型的拟合优度。使用R2、标准化的BIC、平均绝对误差百分比(MAPE)比较模型的拟合效果,当R2较高、BIC值和MAPE值较小时,该模型为相对最优模型。(5)评估及应用。将最优模型预测值与观测值比较,计算相对误差来评估预测效果,对该时间序列未来发展趋势进行分析预测。
1.3 统计分析
采用Excel建立2010-2016年湖南省常德市手足口病发病情况数据库,使用SPSS20.0软件中的时间序列模型进行资料分析,检验水准a=0.05。
2 结果
2.1 手足口病发病率
对湖南省常德市2010年1月至2015年12月手足口发病率绘制时间序列图,见图1,可见湖南省常德市手足口发病率存在明显的季节性分布规律,以年为流行周期,每年存在两个流行高峰,大高峰出现在每年的5-7月,小高峰出现在每年的9-11月,每年1-2月为发病低谷。最高峰值出现在2014年5月,达到44.57/10万。由于该时间序列存在明显的季节性趋势,季节周期为12个月,为非平稳序列,为了排除方差波动的干扰,实现序列平稳化,需要对序列进行差分处理。季节性ARIMA模型有一般差分和季節性差分,由于该研究发病率序列季节性明显,需对序列进行一阶季节性差分,对一阶季节性差分后的新时间序列做序列图,见图2,经一阶季节差分后,新序列围绕零值上下波动且幅度相当,序列的季节性几乎消除。做一阶差分后新序列的ACF图和PACF图,见图3,4,ACF呈现指数衰减形式,PACF出现二阶截尾,可认为原始序列在一阶季节性差分后已经平稳。
2.2 季节性模型的识别和定阶
对序列采取了季节周期为12的差分后,确定模型为ARIMA(p,O,q) (P,1,Q) 12,根据ACF和PACF图,自相关系数在1阶较大呈拖尾,偏自相关系数2阶截尾,参照ARIMA模型自相关分析标准图,可选择自回归阶数p=l,移动平均阶数q=l,对参数P,Q的选定参照文献资料,P,O超过二阶的情况很少,所以我们对季节性自回归阶数P和季节性移动平均阶数Q分别取O,1,2,由低阶到高阶模拟多种组合模型进行调试,根据参数估计,残差分析,BIC准则综合评价各种组合模型的效果,选择最优模型。
2.3 模型参数估计与检验
不同季节模型参数的ARIMA模型拟合统计量及残差白噪声检验结果见表1,利用Box-Ljung方法对残差序列进行白噪声检验,各模型均为白噪声模型(P>0.05),根据最佳拟合优度模型判定标准,选择正态化BIC最小,MAPE值较小,平稳的R方相对较高的ARIMA模型:ARIMA( 1,O,1)(0,1,l)12模型作为最佳拟合模型,对最优模型的参数进行检验,检验结果见表2,模型中的参数有统计学意义(P<0.05)。采用Ljung-Box方法检验残差,Ljung-Box统计量Q=12.019,P=0.678,没有统计学意义,可认为该残差序列为白噪声。对残差序列绘制自相关图(ACF)和偏自相关图(PACF),见图5,显示残差序列ACF、PACF值均落入95%可信区间内,提示残差随机分布,时间序列各项之间没有相关性,该模型能充分提取时间序列中的信息,可将ARIMA(1,O,11(0,1,1)12模型做为本次研究预测模型。
2.4 模型预测
将所建立的最优模型ARIMA(1,O,1)(O,1,l)12对2010年-2015年常德市手足口病發病率数据进行拟合,图6显示手足口病发病率观测值和拟合值在95%可信区间内基本一致,表明该模型较好拟合了常德市手足口病实际发病趋势,可用ARIMA(1,O,1)(O,1,1)12模型来预测常德市手足口病发病情况。采用该模型对2016年1月-12月湖南省常德市手足口病发病率进行预测,预测值和实际观察值比较见表3,可见2016年常德市手足口病实际发病率均位于预测值的95%可信区间内,观测值与预测值相比较,相对误差最大为35.09%,出现在2月,最小为0.72%,出现在9月,相对误差处于0.72%-35.09%之间,模型对2016年数据拟合较好。表4为用模型预测常德市2017年1月-12月手足口病月发病率的结果,2017年常德市手足口病发病率在4-6月出现大高峰,在10-12月出现小高峰,手足口病月发病率最高峰值出现在6月,为24.03/10万。
3 讨论
手足口病是一种全球范围内的传染性疾病,世界上大部分地区和国家都有手足口病传染的报告,自中国大陆地区于1981年在上海市出现首例手足口病病例以来,我国己出现几次较大规模的手足口病爆发疫情,2008年我国卫生部将手足口病列入法定的丙类传染病进行监测管理,湖南省自2008年以来手足口病一直呈高发态势,这些都对手足口病的防控工作提出了新的要求。通过建立手足口病科学完善的监测系统,对手足口病发病情况进行持续监测和分析,对其流行趋势进行预测,并将预测结果和疾控防控措施相结合,不仅能为手足口病疫情爆发提供预警,帮助判断手足口病发病率是否在正常值范围内,还能提示未来一段时间内手足口病流行高峰期,通过早期采取有效措施来控制在人群中的流行。
统计预测在医学领域发展迅速,通过获取疾病既往数据,模拟模型外推,可对疾病未来的发展趋势进行定量预测。常见的时间序列统计预测方法包括指数平滑法、移动平均法、自回归模型、ARIMA等。由于传染病的流行受到自然因素和社会因素的综合影响,时间序列可能包含趋势变动、季节变动、循环变动、随机波动等特征,ARIMA模型是自回归模型(AR)和移动平均模型(MA)的综合,具有较高的预测精度,是分析和预测传染病的发病趋势的常用方法,ARIMA乘积季节模型能够提取时间序列中的季节信息,通过分析时间序列的特征建立预测模型,对时间序列未来发展趋势进行预测,研究者可根据预测结果为决策提供科学可靠的依据。
本文研究的手足口病,由月发病率构成的时间序列具有明显的季节性和周期性,可通过构建ARIMA乘积季节模型模型,利用湖南省常德市2010年-2016年手足口病监测数据对2017年手足口病的流行趋势进行预测,2017年手足口病月发病率将在4-6月出现大高峰,这与肠道病毒易在湿热的环境中的生存有关,整体发病趋势与2016年发病趋势相近,2016年手足口病实际发病率与预测值之间的相对误差处于0.72%-35.09%之间,,本文构建的ARIMA(1,O,1)(0,1,l)12模型经拟合优度标准判别,具有较小的正态化BIC,且MAPE值较小,平稳的R方相对较高,且经Ljung-Box方法检验,残差序列为白噪声,模型预测结果与观测值拟合效果较好,精度较高,结果具有一定意义。然而ARIMA模型只能对近期数据进行较为精确地预测,对远期数据预测效果不佳,具有一定的缺陷。研究者可通过持续收集手足口病发病信息,将不断纳入的新数据与已建立的ARIMA模型进行整合、修正,拟合出更好的模型,从而不断提高预测的精度。