谢赐福 王孝君 熊 姿 宋丽新 许林勇
【提 要】 目的 探讨SARIMA模型在肺结核发病预测中的适用性,为长沙市肺结核防控提供参考。方法 利用2005年1月-2016年12月长沙市肺结核月发病数构建SARIMA模型,以2017年1-12月的月发病数评价模型的预测效果,并采用构建的最优模型对2018年长沙市肺结核月发病情况进行预测。结果 长沙市肺结核月发病数具有明显的季节性特征,最优预测模型为SARIMA(0,1,1)(0,1,1)12,其AIC=1436.703,模型残差为白噪声(χ2=0.119,P=0.731)。该模型的预测值与实际值的平均绝对百分误差为21.69%,预测效果较为可靠。预计2018年长沙市肺结核的月平均发病数为332.34例,发病水平与2017年接近,但总体略有下降。结论 SARIMA(0,1,1)(0,1,1)12拟合效果较好,可用于长沙市肺结核月发病数的短期预测。
结核病(tuberculosis,TB)是由结核分支杆菌引起的慢性传染病。据世界卫生组织WHO发布的《2016年全球结核病报告》估计,2015年全球有1 040万新发结核病例,其中我国约有91.8万新发结核病例,占全球发病例数的8.83%,位居全球第3位[1]。据长沙市传染病疫情报告系统数据显示,2005-2017年长沙市结核病发病数居乙类传染病的前3位,是威胁居民健康的主要传染病之一。
准确预测结核病的发病情况对结核病防治工作具有重要的指导意义。目前,时间序列模型已广泛应用于传染病预测研究中[2-6]。季节自回归求和移动平均模型(seasonal autoregressive integrated moving average model,SARIMA)是一种特殊的时间序列模型,可对呈季节性变化的时间序列进行拟合和预测,是目前国内常用的传染病预测模型之一[7]。本研究利用2005-2017年长沙市肺结核的月发病数,构建和评价SARIMA模型,并遴选最优模型预测2018年长沙市肺结核的发病情况,为长沙市肺结核防控和疫情监测提供科学依据。
2005年1月至2017年12月长沙市肺结核月发病数来源于“中国疾病预防控制信息系统”。其中2005年1月至2016年12月的肺结核月发病数用于构建SARIMA模型,2017年1月至12月肺结核月发病数用于评价模型的预测效果。
(1)模型简介:自回归求和移动平均模型(autoregressive integrated moving average model,ARIMA)是一种基于时间序列的预测方法。SARIMA模型则是在ARIMA基础上增加了对季节性和周期性的分析,又称为乘积季节模型,一般表示为SARIMA(p,d,q)(P,D,Q)s。其中,p为非季节自回归阶数、d为非季节差分阶数、q非季节移动平均阶数、P为季节自回归阶数、D为季节差分阶数、Q为季节移动平均阶数,s为季节长度。SARIMA模型综合考虑季节性、长期趋势和随机干扰等因素,对时间序列的拟合和预测效果更佳[4]。
(2)建模过程:①序列平稳化:为消除时间序列长期趋势及季节性的影响,通过非季节差分和季节差分,将不平稳的原始数据转化为平稳序列,并通过Augmented Dickey-Fuller(ADF)检验验证其平稳性。根据非季节差分阶数和季节差分阶数可确定d、D值[8]。②模型识别:分析转换后的时间序列,并绘制自相关函数(autocorrelation function,ACF)和偏自相关函数(partial autocorrelation function,PACF)图,初步估计p、q值。此外,P、Q值主要通过尝试和比较的方法确定,分别取0、1、2由低到高进行探索,根据模型的拟合优度选择恰当的值[9]。③参数估计:运用最大似然估计法(maximum likelihood estimation,MLE),计算自回归系数(autoregressive,AR)和移动平均系数(moving averages,MA)。④模型诊断:计算模型的拟合优度统计量,通常采用Akaike信息准则(Akaike information criterion,AIC)来衡量模型与时间序列的拟合程度。其中AIC值越小,模型的拟合效果越好[10]。随后,对模型进行Box-Ljung检验,若P≥0.05,则差异无统计学意义,可认为模型残差为白噪声,模型是合适的;若模型残差不是白噪声,则需对模型进行改进[10]。⑤模型拟合及预测:采用构建的模型拟合2005-2016年肺结核月发病数,绘制拟合图;并将2017年1-12月的实际发病人数与模型预测值进行比较,计算绝对误差和绝对百分误差,从而评价模型的预测效果,其值越小,模型的预测效果越好[11]。最后,采用构建的最优模型预测2018年肺结核月发病数及其95%可信区间。
本研究采用excel 2016软件建立数据库,采用R-3.4.3软件中的“tseries”和“forecast”软件包进行数据处理与建模预测。
2005年1月至2016年12月长沙市肺结核年均发病人数为5 566.25例,月均发病人数为463.85例,其发病高峰为2007年5月,发病人数达738例。将发病人数的时间序列分解后发现,长沙市肺结核发病人数存在一定的长期趋势和季节性。以2007年为界,长沙市肺结核发病人数呈先上升后下降的长期趋势;其季节性周期为12个月,通常于每年1月份出现第1次发病高峰,3~5月份出现第2次高峰(图1)。
图1 2005年1月-2016年12月长沙市肺结核月发病数时间序列分解图
(1)序列平稳化:将原始时间序列进行一阶非季节差分和一阶季节差分后显示,差分后的序列接近平稳(图2);经ADF检验显示,差异有统计学意义(Dickey-Fuller=-19.06,P=0.01),即经差分后的序列为平稳非白噪声序列。
图2 一阶非季节差分和一阶季节差分后肺结核月发病数时间序列图
(2)模型识别与定阶:根据差分变换次数,初步确定SARIMA(p,1,q)(P,1,Q)12模型,其中非季节差分阶数d=1,季节差分阶数D=1,季节长度s=12。由差分后时间序列的ACF图(图3)和PACF图(图4)可知,ACF和PACF均呈拖尾衰减,因此非季节自回归阶数p和非季节移动平均阶数q需要摸索判断。p、q、P、Q分别取0、1、2,由低阶到高阶逐个建模。
图3 差分后时间序列自相关函数图
图4 差分后时间序列偏自相关函数图
(3)参数估计和模型诊断:经模型参数估计和Box-Ljung检验获得13个备选模型,其参数估计及检验结果见表1。由AIC值可知,SARIMA(0,l,1)(0,1,1)12模型的拟合效果最好(AIC=1436.703),其残差的Box-Ljung检验结果为χ2=0.119,P=0.731,差异无统计学意义,提示模型残差为白噪声,所选模型恰当。
表1 备选模型的参数估计和Box-Ljung检验结果
(4)模型拟合及预测:图5显示,2005-2016年长沙市肺结核月发病数实际值与最优模型SARIMA(0,1,1)(0,1,1)12拟合值的重合度较高。采用该模型预测的2017年1~12月肺结核发病人数与实际值相比较,结果显示实际值均在预测值的95%CI范围内,其平均绝对误差和平均绝对百分误差分别为75.30和21.69%,预测效果较好。采用最优模型预测2018年长沙市肺结核月发病人数,结果显示2018年长沙市肺结核平均月发病人数为332.34例,发病水平与2017年接近,但总体略有下降。预计2018年的第一次发病高峰在1月份,为419.65例(95%CI:247.36~591.94);第2次高峰在3月份,预测发病人数为413.35例(95%CI:229.58~597.12)。
图5 2005-2016年长沙市肺结核月发病数拟合图
月份实际值预测值预测值95%CI绝对误差绝对百分误差(%)1304436.23328.73~543.74132.2343.502278339.32226.07~452.5861.3222.063344429.94311.21~548.6685.9424.984315413.74289.79~537.7098.7431.355340406.69277.72~535.6666.6919.616343340.06206.26~473.862.940.867393327.73189.26~466.1965.2716.618434331.74188.77~474.71102.2623.569372305.76158.42~453.1066.2417.8110306320.91169.33~472.5014.914.8711348270.88115.17~426.6077.1222.1612394264.09104.35~423.83129.9132.97
表3 2018年1-12月长沙市肺结核月发病数的预测结果
肺结核是危害人类健康的重要公共卫生问题,准确预测肺结核发病数对防控工作具有重要的指导意义。数学模型是进行结核病预测和防控策略效果评价的有效手段。SARIMA模型是一种针对季节性变化时间序列的建模方法,仅从时间序列数据本身的规律出发进行建模预测[12],是目前结核病发病预测模型中较为可行且短期预测精度较高的方法之一。本研究采用长沙市2005年1月-2016年12月肺结核月发病数据构建SARIMA模型,并对2018年长沙市肺结核月发病数进行预测。该模型能有效拟合长沙市肺结核月发病数的长期趋势和季节性变化规律,预测效果较为可靠,可为长沙市肺结核防控提供参考。
本研究结果显示,长沙市肺结核发病数总体呈下降趋势,并呈明显的季节性和周期性,发病高峰常见于较为寒冷的冬春季节,这与国内外其他研究结果一致[1,13-14]。此外,本研究还发现2月报告的肺结核发病数明显低于冬春季其他月份,其原因可能来自两个方面:一是2月实际天数少于其他月份,因此月发病数低于其他月份;二是2月多处于春节期间,患者未就诊或延迟就诊、医疗机构疫情报告延迟和漏报高于其他月份。
预测结果提示,2018年长沙市肺结核的月平均发病人数为332.34例,并呈轻度下降趋势,但发病人数仍与2017年接近,提示肺结核仍然是危害长沙市居民健康的重点传染性疾病。此外,本研究预测的2018年肺结核月发病数的95%CI可以用于结核病预警,当实际值处于预测值95%CI以内,则疫情正常;当超过95%CI的上限,则提示可能存在异常增长,应及时发出预警,提醒疾病预防控制部门加强防控[12]。
本研究也存在一定的局限性。首先,SARIMA模型不适用于长期预测,在实际应用中,应不断收集新数据对模型进行优化或重新建模。其次,SARIMA模型仅从数据上反映疾病的统计规律,在实际卫生工作决策与防病措施制定过程中,应综合考虑其他因素对结果的影响。