吴琳琳 孙晓冬 胡家瑜 李智 杨建萍
摘要:【目的】探讨时间序列模型在流行性腮腺炎(流腮)预测中的应用,建立上海市流腮发病的预测模型,预测2017年上海市流腮发病趋势。
【方法】收集中国疾病监测信息报告系统中的上海市2005年1月—2016年12月流腮月报告发病资料,使用SPSS软件进行建模,考虑季节因素建立ARIMA (Autoregressive Integrated Moving Average)乘积季节预测模型,并用所建模型预测上海市2017年流腮发病趋势。
【结果】ARIMA(1,0,0)(1,1,0)12可较好地拟合流腮发病的时间序列趋势,对2005—2016年流腮发病数预测值与实际值吻合程度高,平均相对误差为879%,2017年流腮预测病例数为2656例。
【结论】ARIMA乘积季节模型可较好地拟合流腮发病的时间序列趋势;与2016年相比,预测2017年流腮报告发病数相对平稳。
关键词:时间序列分析;流行性腮腺炎;预测
中图分类号:R1818 文献标志码:ADOI:1019428/jcnkisjpm201818669
引用格式:吴琳琳,孙晓冬,胡家瑜,等.上海市流行性腮腺炎疫情时间序列模型建立的初探[J].上海预防医学,2018,30(7):557561.
流行性腮腺炎(简称“流腮”)是一种在全球范围内广泛流行的急性呼吸道传染病,其疾病谱从隐性感染至无菌性脑膜炎、睾丸炎、耳聋等,且疾病严重程度随年龄增长而增加[1]。多发于儿童和青少年,亦可见于成人, 且年长的青少年和成人的发病率有上升的趋势[24]。
时间序列预测是根据现在与过去的随机序列的样本取值,对未来某一时间段的随机变量记性估计[5]。ARIMA是时间序列分析方法中重要的预测模型之一,其综合考虑了长期趋势、周期变化和随机干扰因素,借助模型参数的变化对数据进行量化表达,可以达到较好的预测效果[67]。本研究旨在通过对流腮历史报告发病数的分析,采用时间序列分析中的ARIMA模型进行流腮报告发病数的拟合,建立流腮报告发病数的预测模型, 并对2017年上海市流腮发病趋势进行预测。
1材料与方法
11资料来源
流腮发病资料来源于中国疾病监测信息报告系统。[JP2]按发病日期收集2005年1月—2016年12月上海市流腮的分月报告发病数进行时间序列分析。[JP]
12方法
[JP2]采用SPSS 170统计软件的ARIMA分析方法,通过数据处理及模型识别、[JP3]模型检验和产生预测等步骤对上海市2005—2016年流腮月发病数进行时间序列分析,并对2017年流腮月发病数进行预测。[JP]
ARIMA模型是传统的时间序列模型,由Box和Jenkins于1970年提出,也称为BoxJenkins模型。季节乘积性ARIMA模型是将随机季节模型与ARIMA模型相结合,其结构为ARIMA(p,d,q)(P,D,Q)s,其中(p,d,q)和(P,D,Q)分别为非季节性和季节性自回归(AR)、差分(I)和移动平均(MA)的阶数,s代表季节周期。模型建立的主要步骤为[8]:① 序列平稳化检验和处理:通过对已有时间序列数据进行差分,使该序列满足零均值且方差不随时间变化,根据差分次数确定d或(和)D。② 模型识别:序列平稳后,通过观察序列的自相关系数(autocorrelation function,ACF)、偏自相关系数(partial autocorrelation function, PACF)和SPSS 拟合结果,确定备选模型。③ 参数估计和模型检验:利用非线性最小二乘法估计模型参数,ARIMA 模型筛选依据为贝叶斯信息准则(Bayesian information criterion BIC)、残差和模型检验分析。对模型的参数进行统计学检验和残差的白噪声检验。④ 模型预测:用所筛选的最优模型,对模型进行预测,得到原序列将来的趋势。根据预测值与实际值的平均预测相对误差来评价预测效果。
2结果
21流腮报告病例时间分布情况
2005年1月—2016年12月上海市流腮月报告发病数波动较大,每年均出现夏季的发病高峰月份,且发病高峰出现的时间比较一致,呈明显的周期性、季节性变化(图1)。
22建立模型
221序列的平稳化处理通过原始时间序列图发现,原始时间序列不满足平稳性的要求,且存在以12个月为一个周期的季节性波动,[JP2]同时游程检验结果显示,流腮游程数为28,检验统计量Z=-7229, P<001,表明其序列不满足序列平稳性要求,需进行平稳化处理。对原始序列进行1次季节性差分,消除季节的影响。差分后序列的均值在0上下波動(图2),认为此时序列已消除了季节影响,基本符合ARIMA模型的平稳性的要求。[JP]
222模型的建立与检验对差分后的数据序列进行ACF和PACF分析,ACF,PACF函数既不截尾也不拖尾,也不呈线性衰减趋势,判断数据序列适合于乘积季节模型(图3、图4)。根据差分情况以及序列特征,可初步判断该时间序列为符合季节模型ARIMA(p,0,q)(P,1,Q)指定“专家建模器”拟合ARIMA模型并自动检测加法离群值,自动识别模型参数为ARIMA(1,0,0)(1,1,0)12。通过拟合优度统计量比较多个模型间的拟合优劣性,BIC值较小的模型较好。分析发现最优模型为ARIMA(1,0,0)(1,1,0)12。BIC=-1913,残差LjungBox Q=16028,P=0451,差异无统计学意义,可认为残差序列为白噪声。
223预测用ARIMA(1,0,0)(1,1,0)12模型对2005—2016年流腮分月病例数进行回代拟合,结果显示,ARIMA拟合值与真实值之间基本吻合,均落入95%置信区间内,平均相对误差为879%。应用该模型预测2017年1—12月上海市流腮月发病数(表1),并绘制实际值与预测值序列图(图5),发现实际值与预测值基本吻合,进一步计算可得2017年拟合流腮病例数为2656例。
3讨论
时间序列分析是一种重要的现代统计分析方法,[JP2]其模型广泛地应用于自然领域、社会领域和科学研究。ARIMA模型是最常用的时间序列模型,其建模预测精度较高,可较好地用于疾病发病或死亡的预测预报,特别是针对有季节性变动的时间序列[9]。考虑到季节性和周期性等因素对平稳性的影响,本研究采用了ARIMA模型。此外,由于在总人口数没有太大波动时,发病人数本身也能反映疾病疫情的发展趋势。因此,本文直接用发病人数的预测来了解未来流腮的发病情况。[JP]
本研究用上海市2005—2016年共计168个月的流腮发病数据,建立了ARIMA预测模型,经过模型检验,表明ARIMA模型能较好地用于流腮发病的预测,模型预测精度较高。对组内资料的拟合结果显示,发病数拟合值曲线与实际值曲线基本一致,流腮发病数实际值均落入拟合值的95%CI内。2017年上海市流腮发病预测为2656例,较2016年的实际报告值2394例上升了1094%,较2016年预测值上升了107%,预测2017年流腮疫情应比2016年稍高,但变化不大。因此,要继续落实麻腮或麻腮风疫苗的常规免疫接种工作,不断监督和落实腮腺炎疫情预防控制措施,以便及时有效地控制疫情。
本研究运用ARIMA模型建立了上海市流腮发病的时间预测模型,并对其预测效果进行了评价,达到了较好的拟合和预测效果,但本研究所用的数据仅包含时间和月发病例数,并未包括其他造成发病变化的因素,如接种率情况、气候变化情况及疫苗纳入免疫规划情况等等。因此,虽然模型统计量Q值显示模型拟合较好,但模型解释仍需谨慎。在实际应用中,由于所建模型是以历史监测数据序列为依据而建立的,时间序列分析是一种适合短期预测的技术,随着预测期的延长,会加大误差,降低预测的精度。因此,在今后的工作中,可以继续累积新数据,加入流行的周期因素修正模型,进而提高预测精度,能更准确地指导防控工作。
参考文献
[1]GALAZKA A M,ROBERTSON S E,KRAIGHER A.Mumps and mumps vaccine:a global review[J].Bull World Health Organ,1999,77(1):314.
[2]程玲,黄富礼,钟利,等.流行性腮腺炎152例流行病學及临床特点调查分析[J].现代医药卫生,2014,30(6):839840,842.
[3]陆瑾,姜铭波,牟文,等.上海市黄浦区1990—2015年流行性腮腺炎流行趋势分析[J].上海预防医学,2017,29(5):358361.
[4]李未,常玥,靳妍.台州市2004—2012年流行性腮腺炎流行病学分析[J].上海预防医学,2013,25(8):437439.
[5]王春平,王志锋,单杰,等.随机时间序列分析法在传染病预测中的应用[J].中国医院统计,2006,13(3):229232.
[6]张爱红,周培,申铜倩,等.乘积季节ARIMA模型在食源性疾病预测中的应用[J].中国卫生统计,2014,31(1):6869,73.
[7]陈伟,陈正利,李少芬,等.ARIMA模型在河南省梅毒月发病率预测中的应用[J].中国卫生统计,2013,30(4):604606.
[8]时照华,苏虹,秦凤云,等.ARIMA模型在常见呼吸道传染病疫情预测中的应用[J].安徽医科大学学报,2013,48(7):793786.
[9]梁景星.GM(1,1)灰色模型和ARIMA模型在我院季度入院人数预测中的比较分析[J].中国卫生统计,2014,31(1):107109.
(收稿日期:20180205)