陈新邦 卫平民
【提 要】 目的 评估ARIMA模型、指数平滑模型、GM(1,1)模型及指数曲线模型在肺结核发病预测中的运用效果,为遴选适宜的预测措施提供参考。方法 使用驻苏部队人群2005-2016年肺结核报告发病数据构建模型,评估拟合效果。结果 ARIMA模型、指数平滑模型能够预测肺结核月发病趋势,拟合的平均误差率(MER)分别为9.35%、10.28%,决定系数(R2)分别为0.81、0.80;ARIMA模型能够预测肺结核季度发病趋势,拟合的MER、R2分别为5.48%、0.73,而指数平滑模型无效;GM(1,1)模型、指数曲线模型有效,能够预测肺结核年度发病趋势,拟合的MER分别为1.47%、1.80%,R2分别为0.98、0.97。结论 ARIMA模型拟合效果和预测准确性相对较好。GM(1,1)模型、指数曲线模型对年发病率呈线性下降趋势的肺结核,拟合效果和预测准确性均良好。2017年驻苏部队肺结核发病率呈稳中有降趋势。
我国是全球结核病高负担第二大国度,报告发病人数一直居于法定报告甲、乙类传染病前列[1]。2000年以后,肺结核始终位于全军传染病发病前3位,目前该病已升至第1位,成为部队传染病中的头号杀手[2-3]。肺结核发病率高、治疗费高、易播散,对部队人群危害非常严重,应加大对肺结核的防控力度。本研究分别以月、季度发病率数据构建指数平滑模型及ARIMA模型,用于预测月、季度发病趋势;以年发病率数据建立GM(1,1)模型和指数曲线模型,用于预测传染病年发病趋势。
1.资料来源
2005年1月-2016年12月驻苏部队人群肺结核发病数据来源于全军突发公共卫生事件与疫情直报系统,相应的人口学资料来源于东部战区医疗保障实力数据。
2.质量控制
以全军突发公共卫生事件与疫情直报系统报表数据为基础,与驻苏中心以上医院逐年逐月的肺结核报告卡逐一核对病例的确切发病时间;纠正错报、迟报、重报病例,补充漏报病例,以获得准确可靠的原始数据。
3.统计方法
采用Excel软件构建灰色系统GM(1,1)模型,进行参数估计、模型拟合及其检验;采用统计分析包SPSS 19.0构建ARIMA摸型、指数平滑模型及指数曲线模型,进行参数估计、模型拟合及其检验。为评估拟合效果,本研究采取决定系数(R2)及平均误差率(mean error rate,MER)两个指标以评估及比较。
R2=(SS实-SS误)/SS实,其中SS实为实际值的方差,SS误为残差的方差。MER=平均误差绝对值/实际值的均值×100%。对于点预测,应用残差比较预测准确性。
1.ARIMA摸型
(1)月发病趋势预测
绘制2005-2016年肺结核月发病率时间序列分布图,见图1。可看出该序列是一组蕴含季节和趋势的非平稳序列,可先予以1阶差分和12阶季节差分处理使之转换为平稳序列。基于变换后的序列所作的自相关和偏相关图(图2),经多次尝试,最终由于ARIMA(0,1,1)×(0,1,1)12BIC值最小,且该参数有统计学意义(表1),确定模型具体形式为:(1-B)(1-B12)Xt=(1-0.991B)(1-0.765B12)εt。对残差序列做自相关与偏相关图(图2),Ljung-Box统计结果显示Q统计量差异无统计学意义(P>0.05),残差为白噪音。拟合效果见图4。
图1 2005-2016年肺结核月发病率曲线图
(2)季发病趋势预测
建模步骤同肺结核月发病率数据,可得ARIMA(0,1,0)×(0,1,1)4BIC最小,且各参数都有统计学意义,表达式为(1-B)(1-B4)Xt=(1-0.776B4)εt。
图2 变换后的数据自相关、偏相关图
图3 肺结核ARIMA(0,1,1)×(0,1,1)12模型残差自相关、偏相关图
图4 肺结核2005-2016年月发病率ARIMA模型拟合图
估计SEtPCONSTANT0.000 0.001 0.376 0.708 MA10.991 0.190 5.212 0.000 SMA10.765 0.107 7.144 0.000
2.指数平滑模型
(1)月发病趋势预测
模型的构建是采取逐一对季节性模型进行拟合。由模型拟合优度统计量分析可得,简单季节性指数平滑模型BIC值最小,为最佳模型,且该模型中Alpha(水平)参数有统计学意义(表2)。该模型表达式为:
表2 肺结核简单季节性指数平滑模型各参数检验结果
(2)季发病趋势预测
预测步骤同月发病率数据,结果显示,Winters 加法指数平滑模型BIC值最小,但该模型参数无统计意义。
(3)GM(1,1)模型
表3 驻苏部队肺结核年发病率(/10万)灰色预测模型计算表
(4)指数曲线模型
(5)模型拟合效果评价
分别运用ARIMA模型、指数平滑模型对肺结核月发病率、季发病率,运用GM(1,1)模型、指数曲线模型对肺结核年发病率数据进行了拟合预测,预测模型回代拟合和点预测的效果评价见表4。
表4 四种模型对肺结核发病率的预测拟合效果评价
四种模型中,ARIMA模型、指数平滑模型有效,能够预测肺结核月发病趋势;ARIMA模型有效,能够预测肺结核季度发病趋势,而指数平滑模型无效;GM(1,1)模型、指数曲线模型有效,能够预测病毒性肝炎年度发病趋势。月发病趋势预测方面,ARIMA模型、指数平滑模型对肺结核拟合的MER分别为9.35%、10.28%,R2分别为0.81、0.80,可见ARIMA模型拟合效果和预测准确性相对较好。季发病趋势预测方面,ARIMA模型对肺结核拟合的MER、R2分别为5.48%、0.73,拟合效果和预测准确性明显好于指数平滑模型。年发病趋势预测方面,GM(1,1)模型、指数曲线模型对肺结核拟合的MER分别为1.47%、1.80%,R2分别为0.98、0.97;预测2016年肺结核发病率点预测残差分别为0.39/10万、0.47/10万,可见GM(1,1)模型拟合效果和预测准确性比较好。
(6)2017年肺结核发病趋势预测
利用ARIMA模型分别预测2017年肺结核月发病率及季发病率,结果显示,2017年1-12月肺结核发病率分别为1.72/10万、1.46/10万、2.01/10万、2.26/10万、2.31/10万、2.50/10万、2.62/10万、2.65/10万、2.20/10万、1.82/10万、1.88/10万、1.59/10万,相较2016年月发病率,呈稳中有降趋势;2017年1-4季度肺结核发病率分别为5.88/10万、7.75/10万、8.10/10万、5.90/10万,相较2016年季发病率,基本保持平稳。利用GM(1,1)模型预测2017年肺结核年发病率,结果显示,2017年发病率为24.87/10万,略有降低。
近些年来,传染病的预测分析方法越来越完善,如ARIMA模型,不需要对时间序列的发展模式作先前的验证,可通过反复识别、修改获取最佳模型[4];指数平滑模型运用广泛[5],对季节效应的估计清晰易懂,线性趋势的估计和预测稳健,预测效果较好;灰色动态模型(GM),对概率分布无特殊要求,仅需少量数据即可拟合[6-7];指数曲线模型,对发病率随时间呈单调上升或下降,且影响发病的主要因素保持稳定的传染病,进行发病趋势的定量预测效果较好。
本研究分别用四种不同的模型预测肺结核年、季、月发病趋势,对肺结核月发病率数据进行拟合比较的结果显示,当序列同时满足指数平滑模型和ARIMA模型条件时,两种模型的MER分别为9.35%、10.28,R2分别为0.81、0.80,ARIMA模型拟合精度更高,预测准确性也更好,提示当序列同时满足上述两种模型时,应优先使用ARIMA模型。对肺结核季发病率数据拟合比较的结果显示,ARIMA模型拟合精度高于月发病率数据模型,但未能完全体现季节性变化影响,其R2为0.73,比月发病率数据拟合模型R2值(0.81)低,这可能也是指数平滑模型无法拟合的原因,提示当月发病率数据拟合效果不好时,可以尝试对季发病率数据进行拟合预测,但必须注意到,此种方式或将掩盖部分季节趋势变化。肺结核年发病率数据基本呈线性下降趋势,符合指数曲线模型和GM(1,1)模型拟合条件,两种模型拟合精度和预测效果均比较好,提示当序列呈单调下降趋势时,可任选上述两种模型进行拟合。
从上述模型的拟合结果结合实际发病数据来看,2017年驻苏部队人群肺结核发病率将保持平稳,提示卫生管理部门要持续予以关注。然而,预测模型仅能从数据上反映传染病发生发展特点,影响发病的因素较多,为达到更好的预测效果,需要不断地纳入新数据,多次构建模型并比较评估才能取得预期目的。