ARIMA季节模型在预测新疆地区丙型肝炎发病数中的应用

2018-01-19 08:47张学良
新疆医科大学学报 2018年1期
关键词:丙肝新疆地区差分

李 泽, 张学良

(新疆医科大学1公共卫生学院, 2医学工程技术学院, 乌鲁木齐 830011)

病毒性肝炎是由肝炎病毒引发的传染性疾病,主要分为甲、乙、丙、丁、戊共五种类型。其中丙肝(hepatitis C virus,HCV)发病率逐年上升且死亡率较高,对人类健康危害较大,主要通过输血、静脉毒品注射、血液透析和器官移植等途径传播,医源性传播是其主要的扩散形式[1]。我国丙肝感染人数估计约3 800万人,50%为病毒携带者,是全球感染人数最多的国家[2]。2005-2014年,新疆维吾尔自治区累计报告丙肝发病数83 983例,死亡数115人。本文使用新疆地区的丙肝历史数据,结合时间序列方法中的ARIMA(Autoregressive Integrated Moving Average)乘积季节模型建立新疆地区丙肝月发病数模型,在此基础上进行拟合和短期预测,为丙肝的防控提供一定的依据。

1 资料与方法

1.1资料来源2005-2014年新疆丙肝月发病例数来源于公共卫生科学数据中心。

1.2研究方法

1.2.1 ARIMA季节模型 乘积季节模型考虑了时间序列的长期趋势、循环波动、季节变化以及随机波动之间相互影响[3],其公式简记为ARIMA(p, d, q)×(P, D, Q)S。其中p表示自回归阶数,d表示差分阶数,q表示移动平均阶数,对应的参数P、D和Q分别表示季节自回归阶数、季节差分阶数和季节移动平均阶数。

1.2.2 ARIMA季节模型建模步骤 (1)平稳性检验:常见的平稳性检验有图检法和单位根检验,如ADF检验、DFGLS检验、KPSS检验和NP检验,其中ADF检验和KPSS检验运用较多[4];(2)数据变换:非平稳序列在经过Box-Cox变换和差分处理后可转换为平稳序列,它是一种将倒数变换、指数变换、对数变换结合起来的变换方法[5],同时能实现方差齐性并消除异方差[6],数据变换后需重新做平稳性检验;(3)纯随机性检验:纯随机性检验选用QBP或QLB统计量,当P<0.05时认为此时间序列为非白噪声序列,说明此平稳序列中包含值得提取的信息;(4)确定模型结构:绘制自相关图ACF和偏自相关图PACF,根据表1中的规则,估算模型ARIMA(p, d, q)×(P, D, Q)S中参数p、d、P和Q的范围,从而确定候选模型;(5)估计模型参数:使用矩估计作为最大似然估计和最小二乘法迭代的初始值,并估计各个候选模型的参数;(6)模型和参数显著性检验:若模型残差通过白噪声检验且满足方差齐性,说明此最优模型的残差为白噪声,否则选择其他次优候选模型,其次还需对模型中的参数做显著性检验,如果有任何一个参数不显著,则不再选择此模型,而重新选择其他候选模型再次检验;(7)寻找最小信息准则模型:为了选择其中最合理的模型,还需要计算其信息准则函数值,常见有AIC、AICc、BIC、DIC、HQC,因AIC/AICc在理论上比BIC更有优势[7],且当样本量足够大时AICc会收敛于AIC[8],同时AICc更适用于时间序列模型,因此本文选用AICc作为最优模型的评价指标;(8)模型的交叉验证和预测:考虑到时间序列的特点,不宜采用K-fold交叉验证,选用Hold-Out较为合适,把时序数据划分为训练集和验证集,在训练集上建立模型并估计参数,再将候选模型的预测值和验证集进行比较从而判断误差,常见的拟合效果评价指标有MSE、MAPE和SMAPE。

1.3数据处理软件使用R语言3.3.3,预测包forecast 8.0,时间序列包tseries 0.10-38,单元根检验包fUnitRoots 3010.78。

2 结果

2.1平稳性检验使用R语言绘制2005-2014年新疆地区丙肝月发病数时序图,见图1。对数据做ADF和KPSS平稳性检验,前者P=0.231,后者P<0.01,说明该时序是非平稳的,需要进行数据变换。

2.2数据变换为减少结果出现异方差的可能性,直接对原始数据做λ=0的Box-Cox变换,即自然对数变换。为得到季节差分和非季节差分项,对原始序列做非平稳序列的确定性分析,图2中可以看出明显的季节性变化,因此需要做1阶12步季节差分,即D=1,S=12。随后对差分数据再做平稳性检验,发现依然是非平稳的,所以尝试1阶非季节差分,即d=1,检验后发现此时序已平稳。

图1 2005-2014年新疆地区丙肝月发病数时序图

图2 丙肝月发病数的确定性分析

2.3纯随机性检验采用QLB统计量进行白噪声检验,差异有统计学意义(P<0.01),说明此变换后的平稳序列不是白噪声,序列中包含值得提取的信息。

2.4确定模型结构绘制该平稳序列的ACF和PACF,见图3和图4。根据表1的判断方法,非季节参数q可能取值0、1、2,季节参数Q可能取值为0、1,非季节参数p可能取值为0、1、2、3,季节参数P可能取值为0、1、2。因此共有3×2×4×3=72个候选模型。

图3 平稳序列的自相关图ACF

2.5估计模型参数使用R语言构建了72个候选模型,每个模型的参数均会被自动估计。

2.6模型和参数显著性检验对72个候选模型的残差做统计量的白噪声检验。随后做显著性检验,自由度为2005年1月-2014年6月训练集的月数总数114减去当前候选模型的参数数量。通过计算得到72个候选模型中,有12个模型呈现显著性。

图4 平稳序列的偏自相关图PACF

2.7寻找最小信息准则模型计算上述12个模型的AICc,见表2。ARIMA(2,1,0)×(1,1,0)12即为最优模型。图5是该模型的残差平方图,可以看出没有明显的趋势,并未呈现出异方差性。表3为模型的参数显著性检验,显示所有参数均显著非零。

表2 通过显著性检验的候选模型的AICc值

图5 最优模型的残差平方图

参数模型回归系数标准误t值Par1-0.7720.097-7.985<0.001ar2-0.2740.096-2.8630.003sar1-0.4430.096-4.610<0.001

2.8模型的交叉验证和预测为了验证模型ARIMA(2,1,0)×(1,1,0)12的外推能力,将2005-2014年的月时序数据划分为两部分,2005年1月-2014年6月的月数据为训练集,2014年7月-2014年12月的月数据为验证集。做Hold-Out交叉验证,训练集MAPE=1.44%,验证集MAPE= 4.80%,验证集SMAPE=2.37%,拟合与预测效果均较好,拟合情况见图6。可以看出,模型ARIMA(2,1,0)×(1,1,0)12在验证集上的外推能力较好。表4给出了验证集上的误差,平均误差为4.67%。图6预测部分显示出2015年的丙肝发病总数为11 788例,略高于2014年的11 715例,预测数据见表5,发病数峰值1 154例,出现在3月。

图6 最优模型的拟合、验证和预测图

时间实际值预测值绝对误差相对误差2014.79271013860.082014.8967923-44-0.052014.9842857150.022014.10753764110.012014.11913973600.062014.121010956-54-0.06

表5 2015年丙肝预测月发病数

3 讨论

丙肝逐渐成为突出的公共卫生问题,给社会造成了一定的经济负担。本研究结果显示,2005年新疆地区丙肝病例数较少,然而在2006年之后丙肝病例数持续增加,2008年之后相对稳定,但发病数仍缓慢上升。2004-2010年新疆地区的法定传染病发病率中,丙肝的发病率平均为26.45/10万,死亡率平均为0.04/10万[9],已成为影响新疆传染病发病率的主要原因之一。此外,新疆地区地域辽阔,各地区间的经济发展水平、卫生意识和习惯差距大,易导致贫穷和疾病的恶性循环,因此通过现有数据寻找适用于新疆地区的丙肝预测模型,将会为丙肝的防控提供一定帮助。

时间序列主要研究事物发展和变化的规律并预测未来趋势,ARIMA是较为常用的平稳时间序列拟合模型。本文中针对新疆地区丙肝发病数建立了AICc最小的ARIMA乘积季节模型ARIMA(2,1,0)×(1,1,0)12用于预测新疆地区丙肝发病数。但由于ARIMA模型更加适合短期预测,在做长期预测时,最好可以更多地考虑历史数据,从而获得精确的预测结果。本研究结果显示个别候选模型在验证集上的MAPE小于最优模型,如模型ARIMA(0,1,2)×(1,1,0)12在验证集上的MAPE=4.71%,优于本研究选定模型的外推能力,但是最小信息函数受到模型的极大似然函数值和模型中未知参数个数的影响,说明它充分提取了数据的信息,对数据的建模更加充分。

[1] 陈兆云, 刘继文, 孟存仁,等. 新疆地区汉族、维吾尔族、哈萨克族丙肝患者基因型研究[J]. 新疆医科大学学报, 2015, 38(7): 855-857.

[2] 王晓军, 张荣珍, 胡苑笙,等. 我国病毒性肝炎流行现状研究[J]. 疾病监测, 2004, 19(8): 290-292.

[3] 王燕. 时间序列分析:基于R[M]. 北京: 中国人民大学出版社, 2015:158.

[4] 陈双金. 时间序列单位根检验方法比较[D]. 成都: 电子科技大学, 2013.

[5] 吴刘仓, 黄丽, 戴琳. Box-Cox变换下联合均值与方差模型的极大似然估计[J]. 统计与信息论坛, 2012, 27(5): 3-8.

[6] 崔玫意, 张玉虎, 陈秋华. Box-Cox正态分布及其在降雨极值分析中的应用[J]. 数理统计与管理, 2017, 36(1): 8-15.

[7] ANDERSON B. Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach[M].2nd ed.Berlin: Springer-Verlag, 2002.

[8] BURNHAM K P, ANDERSON D. Multimodel inference: understanding AIC and BIC in model selection[J].Soc Methods Res,2004,33(2):261-304.

[9] 郑强,王新旗,曹岩,等.2004~2010年新疆法定传染病流行趋势分析[J]. 疾病预防控制通报,2011,26(6):6-10.

猜你喜欢
丙肝新疆地区差分
RLW-KdV方程的紧致有限差分格式
符合差分隐私的流数据统计直方图发布
数列与差分
人-人嵌合抗丙肝抗体检测阳性对照品的研制及应用
78%的国人不知它是一种可治愈的疾病
写好“服”这个字——新疆地区高速公路服务区打造星级服务
新疆地区非物质文化旅游经济开发实证分析
丙型肝炎发病率上升
新疆地区维吾尔族、汉族多囊卵巢综合征患者内分泌代谢的临床研究
多元文化护理在新疆地区的发展与思考