马金宇,王秀琴,龚 瑞,李 涛,黎 晞
(宁夏疾病预防控制中心,银川750004)
乙型病毒性肝炎(viral hepatitis type B)简称乙肝,是由乙肝病毒(hepatitis B virus,HBV)引起的以肝脏损害为主的一种全球性传染病[1]。HBV主要以损害肝脏,甚至破坏肝细胞,导致肝功能受损而引起持续性感染,如不及时医治,最终可能会导致肝硬化甚至是肝癌。WHO报道2015年全球有近2.57亿人感染HBV[2],88.7万人死于慢性乙肝所致的肝癌。2017年,全国肝癌发病例数51.59万,死亡41.82万[3]。随着免疫规划政策不断调整,宁夏乙肝保护性抗体水平显著提升[4]。为全面了解宁夏乙肝流行趋势,现利用2005—2020年宁夏乙肝每月发病数据进行时间序列分析并建立科学的预测模型,初步预测2021年乙肝发病趋势,从而为完善宁夏乙肝监测和防治工作提供理论参考。
通过中国疾病预防控制中心“全民健康保障信息化工程中国疾病预防控制信息系统”(National Notifiable Disease Report System,NNDRS)获取网络直报的2005—2020年宁夏乙肝每月发病数。
1.2.1 乘积型季节性自回归滑动平均混合模型(autoregressive integrated moving average model,ARIMA)模型ARIMA模型即Box-Jenkins模型,表现形式:ARIMA(p,d,q)*(P,D,Q)s,其中,p(P),d(D),q(Q)分别为非季节性(季节性)的自回归平均阶数、差分次数和滑动平均阶数,s为模型的季节周期[5],近年来被广泛用于各类传染病的时间序列分析和预测。
1.2.2 数据序列的建立和平稳化 将2005—2020年宁夏乙肝报告发病数以年和月进行时间定义,绘制相应的时间序列曲线图,利用ADF单位根检验序列数据的平稳性[6],对非平稳序列通过非季节差分和季节差分等处理,消除季节和趋势等因素影响,使之成为平稳的时间序列。
1.2.3 模型的识别和定阶 对经过差分处理后平稳的时间序列做自相关函数(ACF)和偏自相关函数(PACF)分析,观察ACF和PACF的截尾或拖尾情况并定阶,初步确定模型的p(P)、d(D)、q(Q)及s等参数并建模。通过对所建模型进行拟合,利用Ljung-Box Q检验,去除残差为非白噪声(P<0.05)的模型,并根据其他参数调整,形成可拟合的ARIMA模型。
1.2.4 模型的参数估计和优化 根据ARIMA模型参数估计中迭代计算的最终结果,进行拟合优度检验,结合Akaike信息标准(AIC)和Schwartz Bayesian标准(SBC)、残差序列的白噪声检验(Ljung-Box检验)等作为判定模型的拟合优度指标,获得拟合效果较好的最优模型。
1.2.5模型的回代和评价 以2005—2020年宁夏乙肝月报告发病数对最优模型进行回代拟合,指标包括平均绝对百分比误差(MAPE)、平均相对误差(ABRE)。MAPE和ABRE值越低可判定预测精度越高。
1.2.6 模型的预测应用 利用最终得到的最优ARIMA模型对宁夏2021年乙肝发病数及趋势进行预测。
采用Excel 2007进行数据导出和整理。利用SPSS 18.0进行数据建模、验证及分析等。利用Eviews 9.0进行序列平稳性(ADF单位根)检验。发病率趋势变化采用趋势χ2检验。检验水准α=0.05。
2005—2020年,共报告乙肝发病人数108 531例,平均每月报告约565例,以月为时间节点绘制时间序列图,横轴表示2005年1月至2020年12月时间轴,纵轴表示此期间每月的乙肝报告发病数。月报告发病数高峰主要集中在每年的3月,2006年3月报告发病数最高,为1026例。期间总体呈现下降趋势(χ2趋势=24.73,P<0.05),以2009年和2020年下降幅度最为明显,2005—2008年呈缓慢下降,2011—2019年表现出平稳上下波动。既往报告发病数序列总体表现出一定的季节性(以季为单位,季节指数分别为110.09%、98.28%、99.09%和97.53%)和非平稳性,见图1。
图1 2005—2020年宁夏乙肝报告发病数时间序列
2005—2020年宁夏乙肝月报告发病原始数据时间序列经单位根ADF检验显示为非平稳时间序列(单位根统计量t=-1.56,P=0.11)。对原始时间序列进行d=1的非季节差分和D=1的季节差分来消除趋势和季节性的影响,将其转化为不含截距项和时间趋势项平稳序列(t=-8.99,P<0.05,小于5%显著性水平的临界值为-1.94),转化后的时间序列见图2。
图2 2005—2020年宁夏乙肝报告发病数转换后时间序列
对原始序列进行差分处理后获得的平稳序列做自相关系数分析图(ACF图,图3)和偏自相关系数分析图(PACF图,图4),ACF图表现为一阶截尾,PACF图表现出一定的拖尾性,初步选择参数p=0,q=1。
图3 平稳序列的自相关
图4 平稳序列的偏自相关
一般情况下,在ARIMA模型中P、Q值不会大于2[7],分别为参数P、Q取值0,1,2,通过参数d=1,D=1,p=0,q=1,建立ARIMA(0,1,1)(P,1,Q)12模型(P=0,1,2;Q=0,1,2),并对建立的9种模型逐个进行论证尝试,其中ARIMA(0,1,1)(1,1,0)12等6种模型经Ljung-Box检验Q统计量P值均大于0.05,残差显示为白噪声,进入备选模型,对备选模型进行拟合优度检验,统计量检验结果见表1。
表1 6种备选模型拟合优度检验统计量
根据6个备选模型拟合优度检验统计量结果以及AIC和SBC最低的模型为最优模型原则[5],可以确定ARIMA(0,1,1)(0,1,1)12模型为最优模型,经Ljung-Box检验Q=6.814、P=0.977,无统计学意义,表明其模型的残差序列为白噪声序列。模型参数估计结果显示,MA滞后和MA季节性滞后的估计值均有统计学意义(P<0.05),见表2。
表2 ARIMA(0,1,1)(0,1,1)12模型的参数估计结果
最优模型残差ACF和残差PACF图(图5)可以看出,残差序列ACF和PACF系数均在95%置信区间范围内,表明残差序列的分布是随机的,不存在相关性。综上,最优模型ARIMA(0,1,1)(0,1,1)12有效且拟合效果较好。
图5 ARIMA(0,1,1)(0,1,1)12模型残差序列的ACF和PACF
利用获得的最优模型ARIMA(0,1,1)(0,1,1)12对2005—2020年每月的报告乙肝发病数进行回代拟合,其真实值均在拟合值的95%可信区间内,平均绝对百分比误差(MAPE)为10.21%,平均相对误差(ABRE)为10.10%,表明模型预测精度相对较好,可用于宁夏短期内乙肝报告发病数预测,见图6。
图6 2005—2020年不同时间乙肝发病数序列拟合
用最优模型ARIMA(0,1,1)(0,1,1)12对宁夏2021年乙肝报告发病数及趋势进行预测,结果显示,宁夏2021年乙肝报告发病总数预计达2 294例,较2020年、2019年实际发病水平(3 374例、5 918例)大幅下降,较近三年平均发病水平(5 211例)下降明显。2021年预测乙肝发病整体呈现下降趋势,自2020年12月后下降,2021年3月(256例)上升并形成一个小高峰后不断下降,7月略有升高后又持续下降至10月,11月后呈现上升趋势,见图7。
图7 2021年预测乙肝发病趋势
ARIMA作为Box-Jenkins方法中的一种重要时间序列分析预测模型,曾在经济领域被广泛应用,近年来被运用于包括流感在内的各类传染病时间序列分析和预测中[8]。此模型的建立需要原始数据序列趋于平稳。宁夏自1992年以来,乙肝疫苗接种经历了计免、扩免两个政策阶段以及近年来运用信息化手段使接种率大幅度提升,乙肝月报告发病数分别于2009年、2020年呈现2次大幅度的下降趋势,2011—2019年呈现上下平稳波动。2005—2020年乙肝报告发病数序列经处理成为平稳序列后,模型可更好地捕获到数据变化信息。
建模后,对模型进行回代拟合发现,拟合曲线与原始数据曲线之间上下变化幅度吻合度较高,MAPE和ABRE分别为10.21%和10.10%,高于相关报道提示的[9]拟合和预测的ABRE≤5%为理想模型的研究结果,但此次最优模型拟合的MAPE和ABRE为多个ARIMA模型中数据最小的,所建模型为目前相对最优模型,今后随着数据的不断更新,更优模型有待进一步研究和验证,以便提高预测数据的精确度。
ARIMA模型仅通过对受多种因素影响的历史数据变化规律进行综合统计分析,进而在数据中建立数学模型,但未考虑单个影响因素如医疗条件、疫苗接种情况等变化对乙肝发病数的单方面影响,如纳入各个影响因素进行协变量分析,根据影响因素科学调整模型,所得的预测结果可能会更为精准。同时,ARIMA模型随着预测时间的增加,相对误差会逐渐加大,所以模型对于预测短期内乙肝报告发病数效果较好[10],此次建模预测2021年乙肝报告发病数2294例,较近几年发病水平大幅下降,可能是受新冠肺炎疫情影响,呼吸道传染病的部分防控措施,如居家隔离、减少交际等对于经血液、垂直或性传播的乙肝也存在一些影响,具体影响的定量分析有待其他可进行纳入因子分析的模型进一步深入分析,2021年预测各月乙肝报告发病数3月形成一个小高峰,但无明显的季节性分布特征,可能是乙肝的主要传播途径和主要传播危险因素等与外界气候关系不大[11],但每年春节过后因乙肝筛查和就诊的人数增加有关,这与其他省市[12]及全国[13]的发病趋势一致,表明宁夏近年来人们对于乙肝的认识不断提高,重视程度不断加强,乙肝疫苗受种人数以及接种覆盖率的上升,早期规范筛查等措施的有效落实,对于乙肝防控取得了良好的效果,但是后续乙肝防控工作仍然不容放松,需继续坚持现行模式下乙肝防控策略。
今后,在利用此模型预测时,应不断加入新的乙肝报告发病数对模型进行修正,使预测模型更准确地反映宁夏乙肝发病情况,得到最佳的预测效果[14]。