福建省疾病预防控制中心应急处置与信息管理所(350001)
祝寒松 黄文龙 章灿明△谢忠杭 吴生根 欧剑鸣 洪荣涛
SARIMA模型在福建省细菌性痢疾风险评估中的应用*
福建省疾病预防控制中心应急处置与信息管理所(350001)
祝寒松 黄文龙 章灿明△谢忠杭 吴生根 欧剑鸣 洪荣涛
目的采用SARIMA模型对福建省细菌性痢疾发病情况进行预测,为风险评估提供科学的定量数据。方法利用Eviews 5.0对福建省1990年1月-2013年12月细菌性痢疾的月发病例数进行SARIMA分析。采用自相关函数和ADF单位根检验判断原序列的平稳性,采取自然对数转化和差分使其平稳,然后利用自相关函数和偏相关函数识别和估计SARIMA模型参数,并对结果进行t检验和Q检验,再利用调整R2、AIC准则和SC准则对模型进行评估。最后进行回代评价和预测分析。结果模型SARIMA(2,1,2)(0,1,1)12、SARIMA(0,1,1)(0,1,1)12和SARIMA(1,1,2)(0,1,1)12参数有统计学意义,残差为白噪声,其中SARIMA(1,1,2)(0,1,1)12为最优模型,表达式为:(1+0.75L)(1-L)(1 -L12)log(yt)=(1+0.45L-0.35L2)(1-0.79L12)εt。回代检验平均相对误差为14.72%。2013年预测标准误较小,4-7月预测值与实际值相对误差均低于10%。结论SARIMA模型可对福建省细菌性痢疾发病情况进行较准确的预测,可为及时、科学地研判传染病风险提供可靠的数据基础。
季节时间序列模型 细菌性痢疾 预测 风险评估
细菌性痢疾(以下简称菌痢)是由志贺菌属感染引起的一种常见肠道传染病,严重影响居民健康和生活质量。全球每年约1.2亿人次感染菌痢,其中约99.09%发生于发展中国家,而且每年因菌痢感染而死亡的人数多达百万,2/3为5岁以下儿童[1,2],我国菌痢发病率高居甲乙类法定传染病前5位[3],福建省菌痢发病率虽然呈逐年下降趋势,但仍居肠道传染性疾病前列[4]。
传染病风险评估工作在我国还刚刚起步,开展风险评估的理论和方法体系以及所需的人才队伍、保障机制还不适应,所以,目前要求国家级和省级至少每月开展一次日常风险评估,而日常监测分析和定量预测可成为风险评估的重要信息来源之一。季节时间序列模型(seasonal autoregressive integrated moving average model,SARIMA)能比较准确地对存在明显周期性变化的时间序列进行预测。本文拟通过SARIMA模型对福建省菌痢发病情况进行定量预测,以期为传染病风险评估提供科学依据。
1.资料来源 1990-2003年的菌痢发病例数来源于福建省法定传染病报表,2004-2013年的例数来源于福建省各级卫生机构通过中国疾病预防控制信息系统的报告(按发病日期)。
2.研究方法 运用Eviews 5.0软件对数据进行SARIMA建模和分析,α=0.05(双侧)。
(1)原理 SARIMA模型也称为乘积ARIMA模型,是随机季节模型与ARIMA模型的结合。对于非平稳且存在季节性的时间序列不能直接建立ARIMA模型,可考虑对其进行非季节差分和季节性差分以使其平稳化,基本模型为:SARIMA(p,d,q)(P,D,Q)S,一般表达式为:φp(L)ΦP(LS)(1-L)d(1-LS)Dyt=θq(L)ΘQ(LS)εt。其中,P、Q是季节自回归过程SAR的阶数和移动平均过程SMA的阶数;p、q分别是非季节自回归过程AR的阶数和移动平均过程MA的阶数;d、D分别是序列yt的非季节差分阶数和季节差分阶数。φp(L)、ΦP(LS)分别是非季节自回归过程AR和季节自回归过程SAR的滞后算子多项式,(1-L)d、(1-LS)D分别是对序列yt的非季节差分和季节差分滞后算子,S是季节差分的步长,θq(L)、ΘQ(LS)分别是非季节移动平均过程MA和季节移动平均过程SMA的滞后算子多项式,εt是残差序列(白噪声序列)。
(2)方法 ①先绘制原序列JL的曲线图识别其基本形式,加入截距项和时间趋势项做ADF单位根检验和Q统计量以判断平稳性。若为非平稳,可考虑对其取自然对数后做1次1阶非季节差分和1次12阶季节性差分使之满足平稳性条件。②对新序列的自相关函数和偏相关函数识别SARIMA模型的形式。③估计SARIMA模型参数,对结果进行t检验(参数检验)以及通过Q检验进行残差分析(白噪声检验)。若残差序列不是白噪声序列,说明残差序列中还存在有用的信息未被提取,需对原模型进一步改进,从而得到更合适的模型。④利用调整R2、AIC准则和SC准则对模型评价,调整R2越大、AIC和SC越小,可以认为越好[5]。⑤利用所估计的SARIMA模型,进行回代评价和预测。
1.原序列分析 1990-2012年福建省菌痢月发病例数序列呈现逐年下降趋势和周期性波动,ADF单位根检验,P=0.01<0.05,可认为该序列为平稳。但自相关图呈现显著的余弦波动规律,说明该序列为非平稳。
2.平稳化 对原序列取自然对数后做1次1阶非季节差分和1次12阶季节差分后得到的序列已接近平稳;ADF单位根检验P=0.00<0.05;自相关图和偏相关图显示,差分后的序列平稳性已得到明显改进,滞后1阶和12阶处显著地不为0,其它近似为1个平稳过程。因此,可认为序列已得到平稳化。
3.建模 上述差分可知d=1、D=1,由于自相关函数和偏相关函数在滞后1阶和12阶都显著不为0,因此P=1、Q=1;另外,自相关图滞后1阶呈截尾,偏相关图拖尾至2阶。通过尝试,3组模型通过t检验(p<0.05)和Q检验(基本全部p>0.05,已呈明显的白噪声序列):SARIMA(2,1,2)(0,1,1)12、SARIMA(0,1,1)(0,1,1)12、SARIMA(1,1,2)(0,1,1)12(表1)。
通过调整R2、AIC和SC比较,SARIMA(1,1,2)(0,1,1)12拟合优度较好(表2)。表达式为:(1+0.75L)(1-L)(1-L12)log(yt)=(1+0.45L-0.35L2)(1-0.79L12)εt。
表1 SARIMA模型的检验结果
表2 3组SARIMA模型的拟合优度比较
4.预测
采用SARIMA(1,1,2)(0,1,1)12模型回代评估,拟合结果显示,预测值和实际值吻合较好。1990年1月-1991年3月因经差分去除,平均误差为14.72%。2013年1-3月预测相对误差较大,且1月和2月的实际值大于预测值的95%CI,4-7月预测相对误差均不高于10%,2013年预测标准误(S.E)较小(表3)。
由于受到以气温为主的气候[6]等季节性因素影响,由原时间序列曲线图可知,福建省菌痢发病存在明显的周期性变化,比较适合建立SARIMA模型定量预测月(周)发病数(率),从而作为重要参考依据之一,为传染病风险评估提供基础数据,对菌痢发生风险的可能性及严重性进行科学评估。
由SARIMA(1,1,2)(0,1,1)12模型预测的福建省菌痢发病例数预测值与实际值拟合比较理想,相对误差较低,标准误较小,表明该模型预测较为准确、精度较高,可以认为它对于原序列是个理想的模型。但需要提出的是,时间序列模型比较适合短期预测,随着预测期增加,模型预测的相对误差也在变大。若预测1993年1月-2013年12月菌痢的发病例数时,置信区间随年份的增加而渐宽,相对误差愈大(后期月份高达99.73%),这样就大大降低了预测精度,从而使得预测失去意义。本研究采取逐年回代方法进行预测得到的1991年4月-2012年12月菌痢发病例数和实际值拟合较好。同样,若进行2013年1月-2014年12月预测,那么2014年预测值的置信区间较宽,与实际值的相对误差也可能较大。
表3 福建省2013年菌痢发病预测情况
虽然预测值相对误差越小、标准误越小,说明预测精度就越高。但2013年1-3月的预测相对误差较大,且1-2月的实际值大于预测值的95%CI上限,尚不能说明本研究SARIMA(1,1,2)(0,1,1)12模型预测效果差。考虑到此模型回代拟合效果理想;另外,近年福建省菌痢发病例数呈下降趋势,而2013年1-3月却高于2012年同期。因此,排除此模型预测效果差的问题,可以考虑2013年初菌痢发病高于预警值(95%CI上限值),存在风险,而需要提高警惕。
对于有着明显的季节性和周期性的时间序列,只是采用ARMA、ARIMA等简单的时间序列模型,那么做出的预测往往不准确。因此SARIMA模型在传染病领域有着广泛的适用性,它不只适用于菌痢,还适用于手足口病、戊肝、麻疹、流行性感冒、甲肝、肾综合征出血热、流行性腮腺炎、风疹等季节性传染病[7-9]的短期预测。通过本研究发现,合适的SARIMA模型预测对传染病风险评估有一定实用价值。但在实际应用中,应该不断加入新的实际值,然后修正模型和重新拟合预测值[10],这样才能为传染病风险评估提供可靠的基础数据,从而为传染病的防控提供较大的帮助。
1.Feil EJ.The Emergence and spread of dysentery.Nature genet,2012,44(9):964-965.
2.Hoe CH,Yasin RM,Koh YT,et al.Antimicrobial susceptibility and pulsed-field gel electrophoresis of Shigella sonnei strains in Malaysia(1997-2000).Journal of Applied M icrobiology,2005,99(1):133-140.
3.钟豪杰,常昭瑞,张静.中国2007年细菌性痢疾监测分析.中华流行病学杂志,2010,31(3):304-307.
4.祝寒松,洪荣涛,欧剑鸣,等.福建省2005-2011年细菌性痢疾流行病学分析.中国预防医学杂志,2013,14(4):288-291.
5.胡建利,梁祁,吴莹,等.季节时间序列模型在菌痢发病预测中的应用.中国卫生统计,2012,29(1):34-39.
6.Zhang Y,Bi P,Sun Y,et al.Projected Years Lost due to Disabilities(YLDs)for bacillary dysentery related to increased temperature in temperate and subtropical citiesof China.Journal of EnvironmentalMonitoring,2012,14(2):510-516.
7.彭志行,陶红,贾成梅,等.时间序列分析在麻疹疫情预测预警中的应用研究.中国卫生统计,2010,27(5):459-463.
8.谢忠杭,欧剑鸣,张莹珍,等.应用ARIMA模型预测福建省戊型肝炎疫情.中国人兽共患病学报,2011,27(11):1047-1050.
9.张韬,冯子健,杨维中,等.模糊时间序列分析在肾综合征出血热发病率预测的应用初探.中国卫生统计,2011,28(2):146-150.
10.Mehdi K,Mehdi B,Heiazi SR.Combining seasonal ARIMA models w ith computational intelligence techniques for time series forecasting. Soft Comput,2012,16(6):1091-1105.
(责任编辑:丁海龙)
Application of SARIMA M odel for Risk Assessment of Bacillary Dysentery in Fujian Province
Zhu Hansong,Huang Wenlong,Zhang Canm ing(FujianProvincialCenterforDiseaseControl&Prevention(350001),Fuzhou)
ObjectiveForecast the bacillary dysentery incidence of Fujian province through SARIMA model,in order to provide scientific quantitative data for risk assessment.MethodsThemonthly cases of bacterial dysentery in Fujian province from January,1990 to December,2013 were analyzed for SARIMA using Eviews 5.0 software.Autocorrelation function and the ADF unit root testwere analyzed to determ ine the stability of the original sequence.Then SARIMA model parameterswere estimated through the autocorrelation function and partial correlation function,and the results were evaluated byt-test as well asQtest,after which adjusted R2,AIC and SC criterion were used to estimate those attained models.Finally,results were evaluated through back substitution and forecast.ResultsThe parameters of SARIMA(2,1,2)(0,1,1)12、SARIMA(0,1,1)(0,1,1)12and SARIMA(1,1,2)(0,1,1)12were statistically significant,and the residual was white noise.SARIMA(1,1,2)(0,1,1)12was the optimalmodel of those three,and expressed as:(1+0.75L)(1-L)(1-L12)log(yt)=(1+0.45L-0.35L2)(1-0.79L12)εt.The average relative error of back generation forecast testswas14.72%,so fitting resultswere satisfactory.In addition,forecast value of 2013 had a good standard error ofmean,in which relative error of April to July were less than 10%.ConclusionSARIMA model could forecastaccurately for bacillary dysentery incidence in Fujian province,thus it can provide reliable data base in order to judge the risk of infectious diseasemore timely and scientifically.
SARIMA;Bacillary dysentery;Forecast;Risk assessment
2013年福建省卫生厅青年科研课题(2013-1-13);福建省疾病预防控制中心青年科研项目(2011-24);
△通信作者:章灿明,E-mail:canm ingzhang@163.com.