x-11-ARIMA过程在痢疾疫情预测中的应用研究*

2014-03-10 05:25申铜倩刘文东胡建利朱叶飞鲍昌俊汤奋扬彭志行陈
中国卫生统计 2014年3期
关键词:痢疾季节因子

申铜倩刘文东胡建利朱叶飞鲍昌俊汤奋扬彭志行陈 峰Δ

x-11-ARIMA过程在痢疾疫情预测中的应用研究*

申铜倩1刘文东2胡建利2朱叶飞2鲍昌俊2汤奋扬2彭志行1陈 峰1Δ

目的探寻江苏省痢疾疫情的季节分布规律,为及时采取预防措施提供理论依据。方法应用x-11-ARIMA过程分析江苏省2000年至2012年的痢疾月度数据,采用SAS软件将时间序列数据拆分成长期趋势起伏T,季节波动S,不规则波动I三个部分。结果痢疾发病带有一定季节性,每年重复进行,趋势大体相同;每年的7、8月份为痢疾高发期,12月至次年的3月份处于发病低谷期;2000-2005年季节因子波动振幅较大,而后随时间推移有减弱的趋势。结论痢疾的发生比较稳定,x-11-ARIMA模型分析其季节分布规律有较好的科学性和实用性。

时间序列 x-11-ARIMA 季节分布 预防与控制

痢疾是《中华人民共和国传染病防治法》中规定的乙类传染病,是一种常见的急性肠道传染病,多发于儿童和老人,严重影响居民健康和生活质量。研究痢疾的发病规律,对痢疾的疫情进行预测和分析,可以为痢疾的预防控制、资源配置提供科学依据。

痢疾发病人数的时间序列(time series)中通常包含大量的信息,是建模和预测的主要依据。痢疾的发病比较稳定,有规律可循,运用时间序列分析的方法,可以做出比较准确的预测。本文采用x-11-ARIMA过程对2000-2011年的数据进行分析,提取季节因子,趋势循环因子,寻找痢疾的发生发展规律,服务于痢疾的防治工作。

资料与方法

1.资料来源

从江苏省传染病疫情网络直报系统收集到2000年1月至2012年10月的痢疾病例数,由于江苏省人口基数较大,且比较稳定,故选择痢疾月发病数代替发病率来反映疾病的流行情况。

2.模型简介

(1)x-11过程

x-11过程是美国国情调查局编制的时间序列季节调整过程。它的基本原理就是时间序列的确定性因素分解方法。x-11过程基于这样的假定:任何时间序列都可以拆分成长期趋势起伏(T),季节波动(S),不规则波动(I)和交易日影响(D)[1]。因此任何一个时间序列都可以如下分解:

乘法模型:xt=Tt·St·Dt·It

加法模型:xt=Tt+St+Dt+It

x-11方法是基于移动平均法的季节调整方法,是通过几次迭代来分解的时间序列的季节因子、趋势循环因子和不规则因子等各因子成分,每一次对各组成因子的估算都进一步精化[2]。

x-11方法用一系列中心化滑动平均来估计季节成分,这些滑动平均对除起始和结尾处的所有观测使用对称权重,但起始处和结尾处只能用非对称权重。非对称权重可以导致季节因子估计不准,因而,有了新数据以后就可能造成大的更改。这种很大的更改并不常见,但这种情况还是有可能发生的,发生了这种情况就会降低x-11方法的可信度。

加拿大统计局开发了一种方法来处理这个问题。该方法称为x-11-ARIMA方法,它先把原始序列(如需预调整先做预调整)用ARIMA模型预报一年或几年,然后把这个延长了的序列进行季节调整,只不过这时在序列的原尾部用的就是对称权重了,这种方法已经用大量加拿大经济序列进行了测试,它确实能大大减少新数据加入时对序列的更改[3]。

(2)ARIMA模型

ARIMA(autoregressive intergrated moving average)是Box-Jenkins方法中的重要的时间序列分析预测模型,又称为自回归求和移动平均模型。它是将预测对象随时间推移而形成的时间序列视为一个随机序列,即除去个别的因偶然因素引起的观测值外,时间序列是一组依赖于时间t的随机变量。这组随机变量所具有的依存关系或自相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型描述出来,即可以用时间序列的过去和现在观测值预测未来,ARIMA方法以时间序列的自相关分析为基础,对时间序列求其本身与不同滞后期的一系列自相关函数(autocorrelation function ACF)和偏自相关函数(partial autocorrelation function PACF),以此识别时间序列的特性。根据参数选择的不同,模型可分为:ARIMA(p,d,q),ARMA(p,q),AR(p)和MA(q)[4]。建立ARIMA模型可归纳为4个具体步骤:数据的预处理(平稳化);模型的识别、定阶与模型的参数估计;模型的诊断检验[5-6];序列预测。

本文采用x-11-ARIMA模型对此时间序列数据进行分析。其步骤是,先对原始序列(如需调整先做调整)用ARIMA模型预报一年,然后把这个延长了的序列运用x-11过程进行季节调整。

结 果

1.ARIMA模型

本文采用2000.01-2011.12的数据建立ARIMA模型,用2012年的数据进行预测,评价预测精度。

(1)原始序列

将每年痢疾病例数随时间变化趋势绘成图[7],可见每年痢疾发病趋势大体相同,从1月份开始逐渐增多,7、8月份达到顶峰,而后逐渐减少。发现痢疾发病是有周期性的,且逐年减少,2004年尤其多;

图1 痢疾按月发病数序列时序图

(2)数据预处理

痢疾发病存在趋势性和明显的周期性,为了使序列平稳化,对发病人数取对数值,然后采用一阶差分来消除趋势性,12步差分来消除季节性,差分后序列图见图2。对处理后的序列进行ADF检验,P<0.001,说明序列已经平稳化。

图2 差分后痢疾发病数序列对数图

(3)模型的识别、定阶与参数估计

对ARIMA模型的阶数识别及参数估计,立足于考察数据的样本自相关、偏自相关函数[5]。由图3可见,季节波动已经消除。在模型识别阶段,我们采用1逐期差分和季节差分来消除趋势性和季节性,故d=1,D=1,选用乘积季节模型(p,d,q)×(P,D,Q)S。

图3 自相关、偏自相关函数图

(4)参数估计与模型检验

SAS软件自动选择最优模型,方程为:

(1-B)(1+0.36B12)lncaset=(1-0.31B-0.23B2)(1-B12)εt

建立预测模型后,对其进行残差自相关性检验,延迟各阶LB统计量的P值均显著大于α(α=0.05),所以模型拟合成立,见表1。

(5)序列预测

模型拟合好之后,可以进行短期预测。我们采用此模型对2012.01-2012.10痢疾发病数进行预测,并对其预测精度做出评价[5],见表2。

表1 序列白噪声检验

表2 ARIMA模型对2012年1月至10月江苏省痢疾发病情况预测结果

(6)绘制拟合预测图

图4中,*表示观测数据,曲线是根据预测值绘制而成以及95%可信区间。

图4 预测曲线及95%可信区间

2.x-11-ARIMA模型

x-11-ARIMA模型默认延长1年的数据,对延长后的序列(2000.01-2012.10)运用x-11过程进行季节调整。

(1)季节因子

以时间为横坐标,以季节因子为纵坐标,将各时点数据绘成图5,从图5可以看出痢疾发病的季节分布特征,以及季节因子随时间的推移而发生的变化。季节因子在12月到次年的3月较低,7月、8月最高;2000-2005年季节波动振幅较大,并随时间的推移逐渐减小。

图5 痢疾发病数时间序列季节因子

(2)趋势循环

趋势循环是从时间序列中过滤掉季节因子和不规则成分,将时间序列的长期变化趋势暴露出来,趋势循环包含了长期趋势和周期循环。以时间为横坐标,以趋势循环因子为纵坐标,将各时点数据绘成图6。痢疾的发病人数是以1年为周期性上下波动的,总体趋势是下降的,2004年急剧上升达到顶峰,而后逐年下降达到近乎稳定状态。

图6 痢疾发病数时间序列趋势循环因子

(3)不规则波动

时间序列的季节因子、周期趋势起伏因子分离出来后,剩下的是不规则成分,包括各种因偶然因素所导致的痢疾发病人数的波动,见图7。

图7 痢疾发病数时间序列不规则因子

讨 论

痢疾是一种常见的急性肠道传染病,是一个重大公共卫生问题,严重影响居民健康和生活质量。对痢疾发病情况的预测预报研究是公共卫生领域研究的重要课题之一。传统的时间序列模型要求序列具有平稳的线性趋势,但实际上痢疾的发病情况有着明显的季节性和周期性,如果不考虑这些因素的影响,做出的预测往往不准确[5]。本文采用x-11-ARIMA模型来揭示痢疾多发于夏秋季节,其中7、8月份最高发,12月至次年的3月为低发期。其发病可能与气候息息相关,温度越高,越潮湿,越温和的条件,越有利于疾病的发生。其中温度是最主要的影响因素,它直接影响到病原体的繁殖速度和存活;另外气候的变化会影响到人们的生活方式,比如饮食习惯,从而间接地对疾病的传播起到一定的作用[8]。识别疾病的高发期,以便当地政府及时采取预防措施是很有必要的。

有文献报道,痢疾多发于人口密度大但卫生设施不健全的地方[9]。2000年到2005年季节因子波动振幅较大,而后逐年减小也说明随着国家经济文化的发展、卫生条件的改善、政府对痢疾的预防和控制力度的加强以及人们对其发病情况预测的水平不断提高,近年来痢疾的发病率总体上呈现一定的下降趋势。既SARS之后,传染病得到极大的重视,疫情直报系统逐步完善,国家投入大量资金开展传染病的监测与防治工作。2004年痢疾发病人数呈现急剧增加,达到顶峰,之后逐年下降,基本达到稳定状态。本文的预测结果与实际情况相吻合。

x-11过程产生渐变的季节成分,允许每年的季节效应各不相同,而季节指数法、指数平滑法、趋势季节模型等方法只能计算得到唯一固定的季节成分,不如x-11过程灵活和接近实际情况。x-11方法没有建立模型,不进行参数估计,也不用于预测,只是将各种因子分离开来。x-11-ARIMA是先对原始序列(如需调整先做调整)用ARIMA模型预报一年,然后把这个延长了的序列运用x-11过程进行季节调整,它充分结合了x-11与ARIMA模型的优点,使分析结果更可靠。

痢疾的发病原因比较复杂,是人类与环境综合作用的结果,如:贫穷、水资源、气候[10]。目前由于抗生素的滥用,缺少疫苗及有效的治疗措施等原因,痢疾仍是危害人类的一大疾病。卫生统计工作与疾病预防控制工作相结合,做出可靠的预测,为疾病的预防控制提供依据是我们将来的工作方向。由于报告日期晚于发病日期,所以可能存在滞后现象。采用周数据可能会比月度数据预测结果更准确[8]。本文痢疾发病人数来源于江苏省传染病疫情直报系统,是报告病例数,为了避免报告偏倚的存在,数据收集的准确性与完整性也是我们努力的方向。

1.王燕主编.应用时间序列分析,第2版.北京:中国人民大学出版社,2008.

2.孙奕,覃世龙,严春香,等.X-11季节调整方法在医院时间序列分析中的应用.中国卫生统计,2007,24(1):71-73.

3.SAS Institute Inc..SAS/ETS(R)9.2 User′s Guide.USA:2007.

4.朱猛,祖荣强,霍翔,等.时间序列分析在流感情预测预警中的应用.中华预防医学杂志,2011,45(12):1108-1111.

5.彭志行,陶红,贾成梅,等.时间序列分析在麻疹疫情预测预警中的应用研究.中国卫生统计,2010,27(5):459-463.

6.Peter J.Brockwell and Richard A.Davis著,田铮译.时间序列的理论与方法,第2版.北京:高等教育出版社,2001.

7.Quantitative M icro Software LLC.Eviews5 User′s Guide.USA:2004.

8.Zhang Ying,Bi Peng,Janet E.Hiller,et al.Weather and the Transm ission of Bacillary Dysentery in Jinan,Northern China:A Time-Series A-nalysis.Public Health Rep,2008,123(1):61-66.

9.Guan P,Huang DS,Guo JQ,et al.Bacillary Dysentery Meteorological Factors in Northeastern China:a Historical Review Based on Classification Regression Trees.Jpn J Infect Dis,2008,61(5):356-360.

10.Kelly-Hope Louise A,Alonso W ladim ir J,Thiem Vu Dinh,et al.Temporal Trends and Climatic Factors Associated w ith Bacterial Enteric Diseases in Vietnam.Environmental Health Perspectives,2008,116(1):7-12.

(责任编辑:刘 壮)

The Application of x-11-ARIMA Process in Dysentery Prediction

Shen Tongqian,Liu Wendong,Hu Jianli,et al(DepartmentofEpidemiology&Biostatistics,SchoolofPublicHealth,Nanjing MedicalUniversity(210029),Nanjing)

ObjectiveTo explore the seasonal distribution of dysentery in Jiangsu province,and provide a theoretical basis for disease prevention and control.MethodsThemonthly data between January 2000 to October2012 is collected,and we apply x-11-ARIMA to extract secular trend,seasonal fluctuation and irregular fluctuation from the distribution of dysentery.ResultsDysentery distributes w ith a season rule,and the trend is generally same every year.July and August is the peak,and the incidence is low during December to the follow ing 3 months.The season factor fluctuation amplitude is bigger in 2000-2005,then it has a dim inished trend over time.Conclusionthe distribution of dysentery is stable,and it is scientific and practical to apply x-11-ARIMA to analyze seasonal rule of dysentery.

Time series analysis;x-11-ARIMA;Seasonal distribution;Prevention and control

*:“十二五”国家科技重大专项(2011ZX10004-902),江苏省自然科学基金重点项目(BK2010079),江苏省科教兴卫工程(ZX201109),江苏省高校优势学科建设资助项目

1.南京医科大学公共卫生学院流行病与卫生统计学系(210029)

2.江苏省疾病预防与控制中心

△通信作者:陈峰,E-mail:fengchen@njmu.edu.cn

猜你喜欢
痢疾季节因子
猪痢疾的诊断和防治
因子von Neumann代数上的非线性ξ-Jordan*-三重可导映射
肉牛痢疾的临床表现及中西药治疗方案
一些关于无穷多个素因子的问题
影响因子
我喜欢的季节7
季节蠕变
季节的变换
用于治疗痢疾的黔产蕨类植物(二)
花的季节