侯丽英 柳丽花 焦建利 孔 平
“其他感染性腹泻”是指除去霍乱、痢疾、伤寒和副伤寒以外的感染性腹泻病,包括例如细菌、病毒、寄生虫等病原体所引起的人体肠道感染[1]。上海市虽然经济较发达,卫生条件较好,但每年仍有一定程度的流行,使得该病的防控仍是一个重要的公共卫生问题。本文运用时间序列分析中的自回归综合移动平均模型(autoregressive integrated moving average model,ARIMA),结合上海市2011年3月-2017年l2月间的其他感染性腹泻数据的分布特征,在模型比较、检验基础上建立拟合模型,并进行预测,为其他感染性腹泻疾病的防控策略提供依据。
上海市2011年3月-2017年l2月的其他感染性腹泻的发病资料和相应的人口学资料来源于上海市卫生和计划生育委员会网站及相应的上海市法定传染病疫情报告[2]。
自回归移动平均模型(autoregressive moving average model,ARMA)是一种适用于短期且满足平稳性的时间序列预测模型,对于非平稳序列,可以通过取对数或者差分等方法实现平稳化,统称为ARIMA(p,d,q)模型。如果序列还包含一定的季节周期性,则要考虑带季节性的乘积模型ARIMA(p,d,q)(P,D,Q)s,模型建立的步骤一般可分为:序列的识别与平稳化、参数估计、模型诊断与预测三个阶段[3]。
(1)序列的识别与平稳化。首先通过绘制时间序列图像,观察数据的分布特点和变化趋势,然后利用对数转换与适当的差分,将序列变为平稳时间序列。
(2)参数估计。参数估计是根据AIC(Akaike’s information criterion)或BIC(Schwarz’S Bayesian information criterion)最小信息准则,进行参数选择与比较,进而确定ARIMA中参数。
(3)模型诊断与预测。这一步是对模型的残差序列进行自相关、偏相关或白噪声检验,判断模型中是否还包含其他信息,当模型达到预期精度要求时,进一步进行预测[4]。
根据上海市2011年3月-2017年6月期间报告的“其他感染性腹泻”月发病率数据绘制序列分布(图1),可见发病率整体分布在0.48/10万~7.35/10万之间,具有长期趋势,有明显的季节性,一般在每年8月常会出现发病率的高峰,低点在2、3、4月。
图1 上海市2011年3月-2017年6月其他感染性腹泻月发病率时间序列分布
原序列在垂直方向上表现出平稳性,但仍然具有季节的周期性,对原始序列进行一阶周期为12的季节性差分,新序列(图2)自相关函数ACF图形很快收敛,变得不显著,表现为拖尾现象,因此可以认为新序列已经为一个平稳序列。偏相关函数ACF图形在一步之后,均落在可信区间之内,满足一步截尾特点,因此可以判断它是一个一阶自回归序列(autoregressive series,AR(1))。初步确定模型参数为p=1,d=0,D=1,采用模型ARIMA(1,0,q)(P,1,Q)12。另外三个参数q、P、Q的确定,采取从低阶到高阶逐个尝试的办法,同时检验各个模型的拟合优度,进行比较而得到[5]。
图2 经季节差分后序列自相关和偏相关图
表1给出了ARIMA(1,0,0)(1,1,1)12,ARIMA(1,0,1)(0,1,1)12,ARIMA(1,0,0)(0,1,1)12三个模型的拟合优度检验结果,根据BIC信息准则以及简约性原则,选择BIC、标准误差均最小、R2值接近1的模型,即 ARIMA(1,0,0)(0,1,1)12。
表1 备选模型的拟合优度检验
ARIMA(1,0,0)(0,1,1)12模型参数估计见表2,非季节自回归参数为0.609,季节滑动平均参数为0.788,常数为0.169,t检验的P值均小于0.05,差异有统计学意义。
表2 模型参数估计
综上分析,建立ARIMA季节模型方程为
(1-0.609B)(1-B12)Yt=0.169+(1-0.788B12)εt。
从ARIMA(1,0,0)(0,1,1)12模型的残差序列自相关和偏自相关图可见,残差均在可信区间之内,并不表现为任何规律,为白噪声序列,说明拟合效果好[6]。
图3 ARIMA(1,0,0)(0,1,1)12残差自相关和偏相关图
利用已建立的ARIMA(1,0,0)(0,1,1)12模型,给出上海市2017年7月至12月其他感染性腹泻的发病率预测值及95%预测区间值,见表3。
通过图4,我们可以直观地观察ARIMA(1,0,0)(0,1,1)12模型对上海市2011年3月-2017年12月期间报告的其他感染性腹泻月发病率序列的拟合、预测情况,其中细实线表示观测值,虚线表示拟合曲线,粗黑线为预测值曲线。
表3 ARIMA模型预测上海市2017年7月-12月其他感染性腹泻发病率(1/10万)结果
图4 上海市其他感染性腹泻发病率ARIMA季节模型拟合预测图
本文以上海市卫生与计划生育委员会网站及相应的法定传染病疫情报告2011年3月-2017年12月其他感染性腹泻数据为基础,对其流行病学的季节周期性表现,通过一阶季节差分,实现序列的平稳化,进一步参数估计和检验,得到ARIMA(1,0,0)(0,1,1)12模型,BIC=-2.025,R2=0.956。应用模型预测上海市2017年7月~12月其他感染性腹泻,结果显示拟合值的动态趋势表现出与实际值极为相似的升降规律,较好地模拟出其他感染性腹泻发病率序列的波动趋势和季节要素,预测精度较高。
ARIMA模型结合了自回归和移动平均方法的长处,具有不受数据类型束缚、适用性强的特点,对于短期预测,能收到较好的效果[4]。但考虑到传染病流行规律的复杂性,ARIMA模型的长期应用要及时补充新的数据,对模型类型、参数不断地进行完善与修正,才能确保预测结果的精度,及时准确地为疾病的预警和预防控制提供科学依据。
模型的拟合、预测结果提示上海市发病高峰在8月,占全年总发病的20%~23%。而全国范围的调查结果是在每年的9~10月期间其他感染性腹泻事件呈高发期[7]。这个差别与各地的气候条件有关,上海属热带湿润季风气候,通常8月份最热,适合其他感染性腹泻的各类传染源的滋生,易发生饮用水污染、食物污染和生活接触传播。上海的卫生机构应在7、8月份采取有针对性的预防措施,如进行饮用水监测、食物污染监测,减少此类疾病的发生,则可有效减少全年的总发病率,做到事半功倍。
其他感染性腹泻位居夏季丙类传染病发病之首,主要因为该类疾病包括多种感染性疾病,病因比较复杂,诊断需依据临床表现、实验室检查和流行病学资料进行综合判断[1]。但由于医疗机构受实验室检验条件的限制,其他感染性腹泻病例的实验室诊断率低,很难明确具体病原菌,且缺乏有效的疫苗进行预防,故明确其月度发病规律对于控制其流行非常关键。上海作为人口密集、流动性强的超大型城市,对该疾病发病规律的科学预测是制定防控工作近期或远期策略的前提,显得尤为重要。