齐 畅 刘利利 李春雨 朱雨辰 张丹丹 王志强 李秀君△
【提 要】 目的 研究季节性自回归分数差分移动平均(SARFIMA)模型预测肾综合征出血热(HFRS)发病率的效果,并与SARIMA模型进行比较。方法 收集山东省2009年1月至2018年12月HFRS月发病数据,考虑时间序列的短记忆性和长记忆性,构建SARFIMA模型,以SARIMA模型作为对比,比较两个模型的预测准确性。结果 山东省2009-2018年HFRS月发病率具有明显周期性和季节性特征。模型评估表明,SARFIMA模型具有更好的拟合度和预测能力。SARFIMA(1,0.33,3)(1,0,0)12:AIC=-629.76;RMSE=0.028;SARIMA(1,0,3)(1,1,0)12:AIC=-356.43;RMSE=0.033。结论 SARFIMA模型能较好地拟合山东省HFRS月发病率的动态变化,且预测效果优于SARIMA模型。因此,SARFIMA模型可用于HFRS发病率的预测。
肾综合征出血热(hemorrhagic fever with renal syndrome,HFRS)是一种自然疫源性疾病,在世界各地广泛流行,并且报告HFRS的国家数量不断增加[1]。中国是疫情最严重的国家[2],其中山东省自1962年报告第一例HFRS以来,一直是发病最严重的地区之一[3]。时间序列分析被广泛用于传染病预测研究[4-6],其中,季节性自回归移动平均(seasonal autoregressive integrated moving average,SARIMA)模型已用于预测许多传染病的短期波动[7-9]。SARIMA模型的数据准备和操作相对简单易行,定量预测结果较为准确[10]。然而,在许多时间序列中存在长记忆过程[11],尽管长期观测值之间的相关性很小,但在分析时不应被忽略[12-13]。季节性自回归分数差分移动平均(seasonal autoregressive fractionally integrated moving average,SARFIMA)模型同时考虑了序列的短记忆性和长记忆性,有助于提高模型拟合和预测的准确性[14]。
本研究将SARFIMA模型应用于HFRS月发病率序列,同时考虑序列的短记忆性和长记忆性以进行更准确的预测。
1.研究资料
收集山东省2009年1月至2018年12月HFRS的发病报告数据,数据来源于山东省疾病预防控制中心疾病报告信息系统。病例诊断标准为《流行性出血热诊断标准》(WS278-2008)。人口数据来源于《山东统计年鉴》。
2.SARFIMA模型介绍
ARFIMA模型由Granger于1980年提出[15-16],Porter-Hudak于1990年对其进一步扩展,提出了SARFIMA模型[17]。长记忆性序列的自相关函数的衰减比短记忆性序列所具有的几何衰减慢,称为双曲线衰减。SARFIMA模型允许对序列进行分数差分,从而使差分参数d可以采用分数值,同时考虑了序列的季节性。
简单分数差分的季节性类似模型如下:
(1-Bs)dxt=εt
(1)
其中d是分数差分分量,d∈(-0.5,0.5),将模型(1)推广为具有分数差分季节性分量的模型,即SARFIMA模型,可以表示为:
(1-Bs)dΩ(B)xt=Θ(B)εt
(2)
其中Ω(B)和Θ(B)分别是自回归多项式和移动平均多项式(均包括季节分量)。d取整数值时将简化为SARIMA模型。对于平稳过程,d在-0.5到0.5之间变化,其中d=0表示短记忆性,-0.5
3.建立模型
山东省2009年1月至2018年12月HFRS月发病率根据山东省同期人口数求得。用Hurst指数检验HFRS月发病率序列的长记忆性。如果序列具有足够强的长记忆性,则可以构建SARFIMA模型。绘制HFRS月发病率的时序图,并用单位根检验(Augmented Dickey-Fuller,ADF)判断其是否平稳,若为非平稳序列,通过差分转换为平稳序列后,用季节性分解查看序列的季节性[21]。计算自相关系数(autocorrelation function,ACF)和偏自相关系数(partial autocorrelation function,PACF),确定模型阶数。在SARFIMA模型的拟合函数中指定模型阶数和季节性分量。基于存在多种模式的假设,SARFIMA拟合函数将从多个起点开始优化,通过比较对数似然值得到最优模型[20]。同时建立SARIMA模型,利用赤池信息准则(Akaike information criterion,AIC)比较两者的拟合优度。建模步骤如图1。
图1 SARFIMA模型建模步骤
4.统计学处理
采用R软件(3.6.0版)进行统计分析,统计建模采用“arfima”和“ts”程序包。2009年1月至2017年12月的数据用于构建模型,2018年1月至12月的数据用于验证预测。假设检验的水准为0.05。
山东省2009-2018年HFRS月发病率呈现明显的周期性和季节性(图2)。2010年2月发病率最低,为0.02/10万,2012年11月发病率最高,为0.48/10万。ADF检验表明原序列平稳(Dickey-Fuller=-3.95,P=0.01),不需要进行差分。原序列的ACF和PACF图显示了季节性滞后的缓慢衰减(图3)。使用季节性差分(在滞后12个周期后减去观测值)消除季节性特征。季节差分序列的ACF和PACF有一些明显的峰值。由此确定AR(p)和MA(q)的阶数。Hurst指数(H=0.68>0.5)表明HFRS序列具有较强的长记忆性。SARFIMA模型计算了非季节性和季节性分数差分参数,并通过比较模型的对数似然值,得到SARFIMA拟合的最佳模型SARFIMA(1,0.33,3)(1,0,0)12,AIC =-629.76,模型表达式为(1+0.959B)(1-0.305B12)(1-B)0.325xt=(1+1.590B+0.611B2-0.020B3)εt。残差图和Ljung-Box检验表明残差是白噪声。作为对比,我们同时构建了SARIMA模型SARIMA(1,0,3)(1,1,0)12,AIC=-356.43。
图2 山东省2009-2018年HFRS月发病率时序图与季节性分解图
图3 序列自相关图(ACF)和偏自相关图(PACF)
图4显示了两个模型的拟合与预测效果,从图中可以看出,两个模型的拟合值与原序列的接近程度相当。SARFIMA模型的预测趋势比SARIMA更接近实际值,95%置信区间比SARIMA窄,并且其区间覆盖了所有实际值。通过RMSE、MAE和MAPE对两个模型的比较,可以发现SARFIMA模型对HFRS序列的预测更准确(表1)。
图4 HFRS月发病率拟合及预测结果
表1 SARFIMA和SARIMA模型的准确性比较
山东省是我国HFRS发病最多的省份之一,分析预测山东省HFRS的发病趋势具有重要的公共卫生意义,可以为疾病防控提供依据。时间序列将各种因素的综合效应归于时间变量中,根据历史数据随时间变化的规律,建立模型进行外推[22]。SARIMA模型是常见的时间序列分析方法之一,被广泛用于传染病预测。对于具有长记忆性的时间序列,SARFIMA可能比SARIMA模型的预测更为准确[23]。本研究分析了山东省HFRS月发病率的季节性与长期趋势,并对SARIMA与SARFIMA模型的预测效果进行了比较。
基于足够的观察(观测值大于50)所构建的时间序列模型可以获得较为满意的预测结果[10]。若观测数较少,则参数估计效果较差。对于SARFIMA模型,应考虑数据的时间跨度大,并且其长期记忆性较强。在我们的研究中,用于构建模型的HFRS数据的长度为108,时间跨度为2009年1月至2017年12月,Hurst指数显示其长记忆性较强。山东省HFRS月发病率的季节性明显,存在一个较高的秋冬峰与一个较低的春峰。研究中的两个模型均考虑了季节性成分,并取得了良好的拟合效果。模型构建的结果表明,在模型拟合中考虑分数差分的SARFIMA模型优于SARIMA模型,AIC差值为73.33,拟合效果得到了提升。通过比较两个模型的精度指标可以发现,SARFIMA的预测效果明显优于SARIMA。
Granger和Joyeux提出,ARFIMA可能会提供更好的长期预测[11]。因此,我们对HFRS月发病率进行了长期预测(以3年预测为例),SARFIMA与SARIMA的长期预测准确性相当,SARFIMA的长期预测没有明显优势,超过12步(1年)的预测值比真实值要低,偏差较大。可能根据历史数据进行估算的模型,预测时间越长,预测误差越大[24],此外我们的数据有限,根据更多的观测数据得到的长期预测结果可能更好,传染病受多种因素影响,进行长期预测时,变动分量会更大。
SARFIMA模型作为时间序列分析方法,有其自身的局限性。由于HFRS等传染病受多种因素的影响,各种影响因素随时间而不断变化,所以SARFIMA模型更适用于影响因素较为稳定的短期预测。因为模型无法将影响发病的其它因素纳入模型,所以其预测精度有限。在以后的研究中,可以将SARFIMA-X模型与其他外生解释变量进行拟合[25],或者与其他预测模型相结合[11],作进一步的探索。
本研究通过对山东省HFRS月发病率数据建立SARFIMA模型进行拟合及预测,并与SARIMA模型进行比较,证实了SARFIMA模型能较好地拟合山东省HFRS月发病率的动态变化,且预测效果优于SARIMA模型,可用于HFRS发病率的短期预测。