贵州省疾病预防控制中心结核病防治研究所(贵阳550004)
结核病是由结核分枝杆菌感染引起的慢性传染病,是一种古老而常见且严重危害人类健康的慢性传染性疾病之一,结核菌可能侵入人体全身各种器官,但主要侵犯肺脏,是我国重要的公共卫生问题之一,结核病患者数居全球第二位,2018年WHO 估算[1],我国2017年结核病新发患者数为88.9万,发病率为63/10万,结核病死亡数为3.7万例,死亡率为2.6/10万,是全球第二大结核病高负担、高疫情国家。贵州省是我国结核病疫情较高的省份之一,我省每年报告的肺结核患者中排在第二位的是学生,提示,学生是易感人群,应作为我省结核病防控工作的重点人群[2]。求和自回归移动平均(autoregres-sive integrated moving average,ARIMA)模型常用于预测传染病的短期发病趋势,预测对象可随时间变化而形成数据序列,随机变量是一组依赖于时间t的,这组随机变量所具有的自相关性被相应的数学模型描述出来,表征了预测对象发展的延续性,就可以从时间序列的过去值及现在值预测未来的值,ARIMA 模型对于我国开展肺结核发病率预测预警工作具有重要指导意义[3]。本研究采用ARIMA时间序列预测模型,分析贵州省2013年1月至2017年12月学生肺结核发病数据,预测2018年学生肺结核发病的变化趋势,并与2018 数据进行对比,从而探索我省学校结核病报告发病预测的新方法,探索学生肺结核发病的预测模型,这对早期采取精准有效的防控措施,在节约人力、物力、财力的基础上同时为今后学校结核病防控工作中提供科学理论参考依据均具有重要意义。
1.1 资料来源2013年1月1日至2017年12月31日肺结核报告发病数的资料来源于“结核病管理信息系统”,人口资料来源于《贵州年鉴》。
1.2 方法
1.2.1 数据整理根据“结核病管理信息系统”和《贵州年鉴》收集相关数据,并按照年、月份归类整理。
1.2.2 建立ARIMA 模型
1.2.2.1 绘制时间序列图 根据2013-2017年贵州省学生肺结核月发病数据绘制时间序列图,初步确定p,d,q和P,D,Q的值是通过计算自相关系数(Autocorrelation Function,ACF)和偏自相关系数(Partial Autocorrelation Function,PACF),从而分析序列平稳性。
1.2.2.2 模型拟合 采用SPSS 19.0 软件中的“专家建模器”中选择“ARIMA 模型”对模型反复拟合分析、比较;通过分析拟合筛选出最优模型,比较的主要指标有平稳的R2(该统计量用于比较模型中的固定成分与简单均值模型的差别,该值越高则拟合越好)、R2(该统计量表示模型所能解释的数据变异占变异的比例)、正态化BIC(该统计量基于均方误差统计量,并考虑了模型的参数个数和序列数据个数)。
1.2.2.3 预测预警分析 通过模型的反复修正和改进后筛选出拟合度最优模型,并应用此模型对贵州省学校结核病发病率进行预测和预警分析。1.3 统计学方法 学生肺结核病例资料用WPS Office 建立数据库,采用SPSS 19.0 统计学分析,计算2013-2017年各年度学生肺结核报告发病率,进行趋势分析,检验水准α=0.05。
2.1 总体情况2013-2017年贵州省共报告学生肺结核20 620例,年均报告发病数为4 124例,年均报告发病率为46.01/10万,学生肺结核报告发病率差异有统计学意义(χ2= 345.677,P<0.001)。见表1。
表1 贵州省2013-2017年学生肺结核报告发病情况Tab.1 Reported incidence of tuberculosis among students in Guizhou Province from 2013 to 2017
2.2 模型识别
2.2.1 绘制时间序列图绘制2013-2017年全省学生肺结核报告发病数的时间序列图(图1),总体无上升和下降趋势,月发病数主要集中在187~688例,平均343.7例,显示发病数是随时间变化而变化的,呈季节变化的趋势关系,以年为周期,每年发生相似的变化,表现为冬春季升高,夏秋季下降,序列的平均水平波动较大,说明该序列为非平稳的时间序列。
2.2.2 初步确定模型参数通过对序列进行12 步差分处理可能达到有效控制序列的长期趋势和季节周期性,原序列经1 阶差分后为平稳序列(图2),初步确定模型ARIMA(p,d,q)(P,D,Q)s中参数d=1,D=1。该序列具有连续相关性和季节性,季节以12个月为周期,在“专家建模器”的条件设置中选择的两种模型均考虑复合季节模型。2.3 参数估计 模型参数估计运用最大似然估计(maximum likelihood estimation,MLE)或者最小二乘法估计(least squares estimation,LSE),本研究采用最大似然估计,获得模型ARIMA(p,d,q)(P,D,Q)s 中的p、q、P、Q 参数,经差分后,绘制序列的自相关系数图(ACF)和偏自相关系数图(PACF)(图3)。在SPSS19.0 软件中,依次给参数p、q、P、Q分别赋值,根据每次赋值后的参数差异有无统计学意义来判断模型拟合情况,从而确定模型参数。
图1 2013-2017年贵州省学生肺结核按月发病数时间序列图Fig.1 Time series of monthly incidence of tuberculosis among students in Guizhou Province from 2013 to 2017
图2 2013-2017年贵州省学生肺结核原序列经差分后时间序列图Fig.2 Time series after differential analysis of the original sequence of tuberculosis in Guizhou students in 2013-2017
图3 原序列经差分后ACF和PACF 图Fig.3 ACF and PACF of the original sequence after difference
图4 残差ACF和PACF 图Fig.4 Residual ACF and PACF
2.4 模型诊断经过不断筛选反复拟合,筛选出拟合度较好的2个模型是ARIMA(0,1,0)(0,1,0)12和ARIMA(0,1,1)(1,1,0)12,从ARIMA(0,1,0)(0,1,0)12模型的拟合值和实际值较接近,因此是拟合度最好的模型(图5-6)。从拟合度检验结果看,虽然2个模型的固定R2均大于0,但ARIMA(0,1,0)(0,1,0)12模型的平稳R2和R2更接近1,分别是0.842、0.842,统计量、模型参数差异具有统计学意义,拟合度较好。见表2。
2.5 预测与检验经过拟合度检验,选择ARIMA(0,1,0)(0,1,0)12模型作为预测模型,预测我省2018年学生肺结核报告发病绝对数。通过预测结果提示,报告发病高峰在3、10和9月,以95%CI的上限作为预警指标,本研究年度预警值为5 417例。见表3。
图5 2013-2017年学生肺结核发病数ARIMA(0,1,1)(1,1,0)12模型拟合图Fig.5 ARIMA(0,1,1)(1,1,0)12 model fitting chart of tuberculosis incidence in 2013-2017
图6 2013-2017年学生肺结核发病数ARIMA(0,1,0)(0,1,0)12模型拟合图Fig.6 ARIMA(0,1,0)(0,1,0)12 model fitting chart of tuberculosis incidence in 2013-2017
表2 学生肺结核发病入选模型拟合度检验结果Tab.2 Test results of fitting degree of selected model of tuberculosis incidence in students
表3 ARIMA 模型预测2018年贵州省学生肺结核发病数Tab.3 ARIMA model predicts the incidence of tuberculosis among students in Guizhou Province in 2018
学生肺结核预测在学校结核病防治工作中具有重要意义,因此选择精确的预测方法至关重要[4]。ARIMA是一种灵敏度较高的序列分析预测模型,在传染病发病率的预测中应用较广泛[4-7]。本研究采用2013-2017年贵州省学生肺结核报告发病数建立ARIMA 预测模型,通过反复筛选后确定适合的模型为ARIMA(0,1,0)(0,1,0)12,初步建立我省学生肺结核较敏感的发病预测模型,以期早期发现疫情并及时采取处置措施,防止疫情扩散,对学校结核病防控工作达到预警作用。结果显示,2013-2017年的实际数与模型拟合数基本一致,实际数均在95%置信区间内,模型对2018年每月学生肺结核发病数的预测值与实际报告发病数进行比较,提示本研究建立的模型基本合理。
学生是我省结核病防控的重点人群之一[8]。本研究学生肺结核的年均报告发病率为46/10万,高于广西[9]13.06/10万、浦江[10]17.56/10万,低于西藏[11]84.56/10万,年度发病率差异有统计学意义,2017年的发病率比往年有明显增高,提示我省学生肺结核总体疫情仍不容忽视,提高学校结核病聚集性疫情可能发生的警惕性,应加强我省学校结核病防控工作。
学校的特点主要是人口密度较大、学生接触密切,而且学习氛围较紧张、学生抵抗力降低等可能发生流行。肺结核不仅影响学生的身心健康和学业造成影响,也可能给家庭宿舍、校园健康和社会稳定带来不良影响[12]。研究显示,肺结核报告发病数随时间变化的趋势关系,波动有一定的季节变化,冬春季升高,夏秋季下降,与全国发病和报告高峰基本一致[13]。从时间序列图看,3-5月是发病高峰,其次是12-2月,可能春季多是毕业生体检高峰,冬春季天气较湿冷,教室、宿舍等人口密集的公共场所通风不良等因素有关。同时,可能由于学习负担重,尤其是毕业生,作息时间不规律、饮食营养摄入不足、体育锻炼减少等原因使学生身体抵抗力降低[12];也可能与每年全省开展“3·24世界结核病防治日”的宣传活动有关。因此,不断完善结核病患者的发现机制,统筹合理配置医疗资源,不断提高医疗机构服务能力是重要策略,也是降低结核病疫情的必要措施[14]。
本研究采用的是肺结核学生病例建立、分析并筛选出最优预测模型,从而对2018年发病绝对数进行预测,95%CI的预测上限可作为学生肺结核可能出现异常、聚集性、暴发等预警指标,提示,报告发病数出现异常值可能造成暴发或流行,但也可能与防控策略、患者发现、诊疗和服务模式、诊断标准和数据填报等有关,或者是其他社会事件的影响[9]。KUANG 等[15]也认为,与潜伏期长的传染病相比,潜伏期短的传染病灵敏度低,但更能及时发现暴发。因此,应充分理解时下与防控措施相关的政策性文件、新出台的肺结核诊断标准和可能的社会事件等综合对异常值进行判定,排除非疾病本身的因素后,结合现场流行病学调查和分子流行病学分析[16-18],在对疫情性质和传播模式进行定性时应采取相应的防控干预策略。ARIMA 模型随着时间的延长,预测误差会增大,但总体来说预测准确性较高[14],但预测值与实际值仍存在一定的偏差[19],本研究的预测值和实际值存在一定的差异,ARIMA 模型更广泛应用于短期预测,相关研究也显示[20-21],随着时间的延长,观察对象不断增加,在实际工作中需要提高监测工作质量,持续更新修正模型,才能获得更加准确而实用的预测结果。
本研究的模型是针对全省监测数据,数据质量可靠程度直接关系预警系统的有效性,这对县级定点医院结核门诊医师在询问、录入信息时确保学生信息的准确性具有较高要求,严格按照健康检查、转诊、追踪等正确信息录入。今后可以考虑各县区根据当地数据建立模型,不断提高模型预警的敏感性、及时性和准确性。