周 瑜,李明珂,汤 艳
1.西南医科大学公共卫生学院(泸州646000);2.西南医科大学预防医学系(泸州 646000)
乙型病毒性肝炎是由HBV 感染所引起的以肝脏损害为主要病变的慢性传染性疾病,是国家法定的乙类传染病之一[1],是一种全球性的、危害性较强的传染病。我国乙肝每年发病率一直居甲乙类传染病的前列,我国超过700万人感染乙肝病毒,仍是我国严峻的公共卫生问题[2-3]。感染HBV后可以引起急性肝炎、慢性活动性肝炎、肝硬化和原发性肝癌等疾病。临床上中国治疗肝炎和肝癌的费用每年高达900亿[4-6],造成了巨大疾病负担。传染病是一种易流行,可控制的疾病,只要掌握了其发病规律就可以极大程度控制其流行,因此对于传染病的预测变得至关重要。自回归移动模型(autoregressive integrated mov⁃ing average model,ARIMA model)可以对发病率先小幅波动后呈下降趋势的乙肝作出较好的预测[7]。故本文将对泸州市乙肝病例的流行病学特征进行分析,并构建ARIMA模型探索泸州市乙型病毒肝炎的流行规律,为泸州市乙型病毒性肝炎的防控工作提供科学依据。
2009-2019 年泸州市乙肝发病数据来源于中国传染病报告信息管理系统(national notifiable disease report system,NNDRS)网络直报的乙型肝炎个案数据,人口学资料来源于《泸州市统计年鉴》。地图数据来源于中国基础地理信息数据库,选定1∶3 000 000泸州市区县界地图为本研究的主要分析地图。
依据《乙型病毒性肝炎诊断标准》(WS29902008)进行诊断和报告,急性乙肝:有肝炎临床症状且乙肝表面抗原(HBs Ag)阳性,同时符合下列条件之一:①HBs Ag 阳性时间小于6 个月;②抗-HBc Ig M 1∶1 000 阳性;③肝组织学呈急性病毒性肝炎改变;④恢复期血清HBs Ag 阴转,抗-HBs IgM阳转。慢性乙肝:血清乙肝病毒e 抗原(HBe Ag)阳性或可检出HBV DNA,并排除其他原因引起的丙氨酸氨基转移酶(ALT)升高,同时符合下列条件之一:①HBs Ag 阳性时间超过6 个月,或者HBs Ag 阳性时间持续时间不详,抗-HBc Ig M 阴性;②血清ALT 反复或者持续升高,或者肝脏病理学有慢性乙肝的特点。未分型:不能明确诊断为急性乙肝和慢性乙肝的病例[8]。
1.3.1 模型的概述 ARIMA模型是Box0jekins方法中的重要时间序列分析预测模型,又称为自回归滑动平均混合模型[9],时间序列模型是可以用数学模型表现出来的一组依赖于时间变化的随机变量,它是假设特征统计量不会随时间的改变而改变,因此该模型要求统计的数据是具有平稳性。ARIMA(p,d,q)(P,D,Q)s模型中p 为自回归阶数,d 为平稳化过程中趋势差分阶数,q 为移动平均阶数,P 为季节性自回归阶数,D 为季节性趋势差分阶数,Q为季节性移动平均阶数,s 为周期[9-10]。
1.3.2 模型建立的步骤 模型的建立需要四步:数据的预处理,模型的识别与参数估计,模型的确定,最后进行预测。建立数据的原始序列图,用单位根(ADF)检验再结合自相关系数函数图(ACF)和偏相关系数函数图(PACF)分析判断其平稳性,如果数据是非平稳性的可以进行对数转换、差分或季节性差分后再用检验其平稳性。做数据一阶差分后的自相关(ACF)、偏自相关(PACF)图,并根据图形的截尾情况对模型做一个预判断。对模型可能的组合进行建模,依据AIC准则、R2的值还有模型的实际拟合效果,选择最佳的预测模型。最后对选定的模型进行残差白噪声检验一般采用Ljung-Box 统计量,P>0.05说明模型残差为白噪声序列,所选模型合理,若残差为非白噪声序列则说明残差序列还有信息未提取,需重新建立模型,直到残差序列为白噪声序列为止[11-12]。
采用Excel 2013 软件对疫情数据进行统计并绘制相关图表,使用SPSS 20.0 和Eviews 10.0 软件进行统计分析以及ARIMA模型预测,用MAPGIS绘制传染病专题图形。
2009-2019 年乙肝整体发病率呈缓慢下降的趋势,从2009年的71.16/10万到2019年的67.09/10万,整体下降4.07/10万,下降趋势较为缓慢,见图1。
图1 2009-2019年泸州市乙肝发病率随时间变化趋势图
2.1.1 地区分布 泸州市地区乙肝发病率前三位分别为江阳区、泸县和龙马潭区,2009-2019 年的平均发病率分别为87.29/10 万、76.43/10 万、70.17/10万,见图2。
图2 2009-2019年泸州市各区县乙肝发病分布图
2.1.2 时间分布 2009-2019 年乙肝病例每个月都有发生,每一年于1月和2月达到最低值,七、八月份达到最高后又开始下降,11月后开始回升,具有一定的季节性但并不是很明显,见图3、图4。
图3 2009-2019年泸州市各区县乙肝发病率随时间变化图
图4 2009-2019年泸州市乙肝发病率月份分布图
2.1.3 人群分布
2.1.3.1 性别分布 26 600 例乙肝患者中有17 372例男性患者,女性患者9 228例,男女比例为1.88∶1。2009 年到2018 年男性、女性发病率总体呈下降趋势,但是2019年有回升的现象,见图5。
图5 2009-2019年泸州市不同性别乙肝发病率
2.1.3.2 职业分布 农民是发病人数最多的,占了所有职业的62.5%,公共场所服务员是发病人数最少的仅占0.05%,见表1。
表1 2009-2019年泸州市乙肝发病人群的职业分布
2.2.1 数据的预处理 将数据进行一阶差分和一阶季节性差分后得到了一个平稳的时间序列图,平方根检验(ADF)得到t=16.80,P <0.001,拒绝原假设,可认为该数据平稳,进行了一次差分和一次季节性差分故d=D=1,故公式可表示为ARIMA(p,1,q)(P,1,Q)12,见图6。
图6 2009-2019年泸州市乙肝月发病率一阶差分和一阶季节性差分后的序列图
2.2.2 模型参数的估计 由表2 得自相关图(ACF)、偏自相关图(PACF)下降缓慢,呈现出拖尾的性质,并且自相关图延迟一阶后数值落到了可信区间的范围内、偏自相关图在延迟二阶后数值落到了可信区间的范围内,故可以选择ARIMA(1,1,1)、ARIMA(1,1,2)、ARIMA(2,1,1)、ARIMA(2,2,2)等四个模型进行拟合。
表2 序列经一阶差分和一阶季节性差分后的ACF和PACF图
2.2.3 模型的建立 并且根据AIC准则和R2的值[13]即AIC 值越小,R2最大拟合的模型越接近于理论分布。四个预测值的拟合优度结果见表3,可以发现ARIMA(1,1,1)拟合效果最好。经过了一次差分和一次季节性差分故d=D=1,对于季节乘积型ARIMA 模型,P、Q 一般不超过2 阶,可分别取0、1、2 逐个检验,最后取BIC 值最小和R2最大以及模型拟合情况进行综合判断[14-15]。最终确定ARIMA(1,1,1)(1,1,2)为最优模型,正态化的BIC 为7.164,固定的R2为0.419。对模型的残差进行白噪声检验,Ljung0Box Q检验显示P=0.849,检验结果不拒绝残差不相关的零假设(P>0.05),即判断ARIMA(1,1,1)(1,1,2)12模型的残差序列是白噪声序列,所选模型合理。
表3 备选模型的拟合优度统计量
2.2.4 评估预测模型的结果 模型的预测值拟合2018年和2019年的月发病率,并以此判断的模型的拟合实际拟合效果。由表4 可得出预测值和实际值的拟合效果较好,相对误差最小值为0.73%,接近真实值,最大的相对误差在27.01%,平均相对误差为10.09%。以此模型为基础得到乙肝2019-2020 年的乙肝发病预测图,见图7,2019年1-12月的预测值与实际值拟合效果较好。对2020 年1 月-12 月预测结果显示2020 年1-6 月整体发病率较低,与实际较为一致,但7-12 月发病率还是维持在一个较高的水平,其发病率分别为6.09/10 万、6.31/10 万、6.23/10万、6.29/10万、7.07/10万、7.78/10万。
表4 2018-2019年预测值拟合效果
图7 2019-2020年乙肝发病预测图
乙肝一直是急性传染病的防控的重点,其发病率自2014年有上升的趋势,2018年到2019年发病率的上升速度较快,从46.37/10 万上涨到了67.09/10万,这可能与泸州市疾控中心对传染病报告卡报告质量要求不一致,也不排除2019 年乙肝发病率“实高”的可能。乙肝的描述性流行病学显示:乙肝没有明显的季节高峰,但存在一定的季节差异,1、2月份较低,这可能是因为1、2月正值春季,乙肝的监测量减少所致,而三月份开始增多可能是春季过后人口流动量增多和人们就医增加有关[16]。男性发病率比女性高,大多数研究认为可能与男性社交活动频繁,吸烟饮酒等导致自身肝脏代偿功能较差等有关[17]。还有研究认为由于性激素的差异导致女性的免疫能力高于男性,男性更容易受到病毒的感染与侵害[18-19],农民发病率最高是由于我国农民人口基数大,卫生意识较差,人口流动较大等原因导致[20-21]。
地理信息系统可以将空间信息进行提取、分析和输出,并可以将事物进行视觉处理,使研究结果更加清楚[22-23]。研究结果显示江阳区、泸县、龙马潭为乙肝的高发地也是泸州的主要经济带,江阳区、龙马潭区和泸县的人均GDP为全市的前三位。江阳区发病率一直都居高不下,该区县人口密集,其占地面积为650.57平方公里,常住人口为947.63万人,人口密度为1 043.98/万人[24],仅次于龙马潭区,增加了接触性传播的感染风险。
许多研究显示,ARIMA模型用于乙肝的短时间发病预测精度高,是许多学者常用的预测模型之一,对于传染病的防控起到了重要的作用[25-26]。传染病具有可预测、可预防、可控制的特点。掌握其发展的规律、发病的特点以及影响因素,就可以采取一定的措施进行干预控制,可以为卫生资源的配置提供理论支持。本研究通过反复调试最终确定ARIMA(1,1,1)(1,1,2)12为预测泸州市短期预测乙肝发病的最佳模型。传染病的发病受很多因素的影响,如上报的标准的变化,检测量的变化,卫生服务的可及性等,故该模型仅提供一个参考值,并且应该逐年加入新的实际值以调整模型,提高预测精度。
泸州市近十年乙肝发病下降趋势较为缓慢,无明显季节高峰,发病有地区差异,发病率最高为江阳区。ARIMA(1,1,1)(1,1,2)12模型是泸州市短期预测乙肝发病的最佳模型。