ARIMA时间序列在乙肝发病预测中的应用

2014-04-03 07:47北京市昌平区疾病预防控制中心102200苑新海朱宗龙
中国卫生统计 2014年4期
关键词:昌平区乙肝差分

北京市昌平区疾病预防控制中心(102200) 王 涛 苑新海 朱宗龙

传染病预测是根据传染病发生、发展规律及有关因素,用分析判断和数学模型等方法对传染病的发生、发展和流行趋势作出预测,是制定预防和控制传染病的长期或近期应对策略的前提[1]。本文以昌平区乙肝的月发病数为基础,应用时间序列分析法对其发病情况建模,并预测其发病趋势,为早期发现乙肝的流行及制定相关防治策略提供依据。

方法和原理

1.资料

北京市昌平区2005-2012年乙肝发病数据来源于疾病监测信息报告管理系统。同时由于昌平区人口基数较大且相对稳定,最终确定以乙肝发病数代替发病率来进行预测分析。

2.方法

(1)基本思想

标准的ARIMA模型为ARIMA(p,d,q)(P,D,Q)s,其中p、q分别表示自相关函数(ACF)和偏自相关函数(PACF)的阶,d表示差分的次数,P、Q、D分别表示季节性自相关函数和偏自相关函数的阶和差分的次数,s表示季节性的周期[2-3]。

(2)建模过程

①数据预处理。首先判断原序列是否平稳,若为非平稳序列,首先变换为平稳序列,根据变换后序列的自相关和偏自相关图,确定非季节差分阶数d和季节差分阶数D。②模型参数估计。根据变换后平稳时间序列的自相关和偏自相关图,估计模型的p、P、q、Q的值,采用最大似然估计或最小二乘法估计等对初步估计模型进行检验。模型参数必须通过t检验,且全部特征根的倒数都小于1[4]。③模型诊断检验。模型参数估计后,对模型残差是否为白噪声进行检验,若残差序列不是白噪声序列,意味着残差序列还存在有没被提取的信息,需要进一步改进模型。④模型的筛选。为了得到最佳模型,可借助拟合优度统计量来比较各个模型的优劣,最常用的是调整后的决定系数、AIC和SC统计量。⑤模型的预测。运用模型预测未来某一时间段的乙肝发病情况。

(3)统计分析

使用SPSS 17.0软件进行统计分析。将北京市昌平区2005-2012年乙肝月发病数据建立ARIMA模型进行时间序列分析。

结 果

1.发病情况及变化趋势

对北京市昌平区2005-2012年乙肝月发病数(Zt)曲线(图1)直观分析可看出,昌平区除2006年和2007年乙肝高发外,其余各年发病较为平稳,全年均有发病。

2.序列平稳性判断

序列平稳性检验是建模的重要前提。除从序列图(图1)判断原始序列存在长期趋势,同时采用游程检验法对时间序列进行平稳性检验,得出游程数为16,检验统计量z=-6.446,P=0.000,表明其为非平稳性时间序列。

3.数据预处理

从原始序列图和游程检验结果可看出原始数据为非平稳序列,因此对原始序列进行自然对数转换和一阶非季节性差分和一阶季节性差分,以消除趋势和季节影响而达到平稳化,使序列呈现为一组平稳的随机数据以符合时间序列分析的条件[5]。从差分后序列的序列图(图2)可以看出,近似为平稳序列。

图1 昌平区2005-2012年乙肝月发病数(Zt)原始序列图

4.模型参数估计

由于原始时间序列经一阶非季节性差分和一阶季节性差分后达到平稳,因此d=1、D=1。首先建立ARIMA(2,1,1)(2,1,1)12模型,经检验,变量AR(2)、SAR(2)的P>0.05,没有通过t检验,然后考虑删除变量AR(2)、SAR(2),尝试建立ARIMA(0,1,1)(0,1,1)12模型,经检验,该模型的所有参数均通过了t检验(表1)。

图2 昌平区2005-2012年乙肝月发病数差分后序列图

表1 不同ARIMA模型的检验结果

5.模型诊断检验

对ARIMA(0,1,1)(0,1,1)12模型残差进行是否为白噪声的LB统计量检验[6],最大滞后期m取16,Q15=8.428,P=0.935>0.05,故不能拒绝残差序列为白噪声的原假设,检验通过。

6.模型的筛选

对ARIMA(0,1,1)(0,1,1)12模型的拟合优度进行分析,ARIMA(0,1,)(0,1,1)12模型的自相关(ACF)和偏自相关(PACF)函数与0差异无统计学意义,且均在95%可信区间内(图3),说明拟合效果较好。

图3 残差ACF和残差PACF相关系数

7.模型的预测

用ARIMA(0,1,1)(0,1,1)12模型对原序列进行拟合可见(图4),模型预测值的动态趋势与实际值基本一致。

图4 ARIMA(3,1,0)(3,1,0)12模型预测拟合图

讨 论

时间序列方法是研究预测对象在一定时期内的变动过程,从中寻找和分析事物的变化特征和发展趋势,本研究采用时间序列分析方法对昌平区2005-2012年乙肝的月发病数据进行了动态分析研究,建立了预测模型,并对所建立的模型进行了评价。

据全国法定传染病监测数据显示,近年来乙肝发病率呈逐年递减的趋势,但慢性乙肝在全世界成人的死因中趋于首位,特别是在慢性乙肝感染率高的国家[7]。因此建立预测模型对乙肝流行规律进行定量预测以进行早期预警,对于乙肝防控有重大意义。本

文通过对北京市昌平区2005-2012年乙肝月发病数时间序列进行分析,建立了ARIMA(0,1,1)(0,1,1)12模型。模型较好的拟合了昌平区乙肝月发病数的变化规律,显示出较高的预测精度,说明利用ARIMA模型预测乙肝的流行趋势是可行的,但ARIMA建模法假定时间序列为未来的发展模式与过去的模式是一致的,因此往往只适于作短期预测。

本文证实了ARIMA模型法可较好的用于乙肝发病的预测,但应用时需注意时间序列方法的应用条件。ARIMA应用前提是时间序列的平稳性,实际工作中数据往往是非平稳序列,需对序列进行预处理,使之达到平稳的要求。其次,ARIMA模型要求至少有50个时间点的数据或7~8个周期的数据。同时疫情受诸多未知随机因素的影响,单次分析所建立的ARIMA模型应不断补充新的实际数据,对模型进行修正或重新拟合,以提高预测敏感性。另外除从数据自身特征寻找预测模型外,还应结合具体的外部信息,识别出因突发事件引起的序列值波动,以便于对预测结果进行解释。同时规范的、统一的乙肝病例诊断、报告标准是对乙肝进行预测预警的基础和前提[8],慢性乙肝病例的重复就诊和报告,乙肝病毒携带者也作为病例报告,以及由于乙肝复杂的临床表现,不同医生或医疗机构对乙肝病例报告标准的执行存在差异,这些都会影响乙肝发病预测。

参 考 文 献

1.尹志英,方春福.传染病预测预警方法探讨.中国卫生统计,2010,27(2):218-220.

2.陈峰,王啸天,朱和新.混合指数周期模型及其在疾病季节性分析中的应用.南通医学院学报,1996,16(3):301-303.

3.Peng Z,Bao C,Zhao Y,et al.Weighted markov chains for forecasting and analysis in incidence of infectious diseases in Jiangsu Province,China.Journal of Biomedical Research,2010,24(3):207-214.

4.中国人民银行调查统计司主编.时间序列X-12-ARIMA季节调整—原理与方法.北京:中国金融出版社,2006:59-60.

5.郭建娥,刘桂芬.构建山西省太原市痢疾发病率的ARIMA模型.疾病监测,2007,34(4):154-155.

6.易丹辉.数据分析与EVIEWS应用.北京:中国人民大学出版社,2008:137-140.

7.Schafer DF,Sorrell MF.Hepatocellular carcinoma.Lancet,1999,353(10):1253-1257.

8.崔树峰,马建新,李书明.时间序列分解法在北京市朝阳区细菌性痢疾周报告发病率预测中的应用.中国卫生统计,2009,26(6):583-591.

猜你喜欢
昌平区乙肝差分
RLW-KdV方程的紧致有限差分格式
符合差分隐私的流数据统计直方图发布
数列与差分
我眼中的缤纷世界
“阳光体育 健康成长”2017年北京市昌平区中小学生精英赛完美落幕
不再为乙肝“愁断肠”
昌平区民俗旅游持续增长
昌平区1—4月经济运行稳中向好
76例妊娠合并乙肝的护理分析
APOBEC-3F和APOBEC-3G与乙肝核心抗原的相互作用研究