陆波 闵红星 扈学琴 闵佳
时间序列模型预测流感发病率的研究
陆波 闵红星 扈学琴 闵佳
目的 探讨ARIMA模型在流感发病预测方面适用性, 为扩大该模型在传染病发病预测方面的应用提供科学依据。方法 收集本市医疗机构2004~2009年的流感月发病数资料, 用Eviews6.0软件ARIMA预测模型, 对模型的适应性进行检验验证其有效。结果 本市流感月发病数时间序列的自相关分析图显示数据不平稳, 所以进行一阶差分, 并建模, 最终模型为ARIMA(0, 2, 0), 所建模型有统计学意义。说明用ARIMA(0,2,0)模型能够预测流感。结论 ARIMA模型法对不同疾病的预测效果存在差异,在建模前应考虑时间序列的平稳, 如不平稳通过差分把它变换成平稳的时间序列化, 且建模的数据不能太少, 不能低于50个。
流感;ARIMA模型;预测
时间序列分析方法有指数平滑和ARIMA模型。ARIMA模型利用计算软件常规运算, 要求时间序列满足平稳性条件, 且对资料的要求也不高, 是用变量过去的观测值来预测同一变量的未来值, 适用于任何时间序列发展形态的高级预测方法。
1.1 一般资料 本市2004年1月~2008年12月的流感月发病数(60个数据)通过国家疾病报告管理系统进行收集,建立预测模型, 用2008年各月发病数进行组外回代和组内回代, 对2009年流感的发病情况进行预测。
1.2 统计预测方法 用Eviews6.0进行数据处理与分析。
2.1 流感流行特征分析 见图1。
2.2 建立预测模型 ①模型识别 2004~2008年原始时间序列进行一级差分处理, 通过单位根检验说明该数据满足平稳条件, 取ARIMA(0,2,0)模型。见图2, 图3。②参数估计和模型检验 对ARIMA(0,2,0)的适应性进行检验。根据SPSS11.5输出结果显示模型所有参数有统计学意义, P>0.05;对残差序列作自相关函数图, 显示残差序列为白噪声, 说明所选的ARIMA(0,2,0)模型可以用于预测, 见图4。③预测应用, 见图5。
3.1 ARIMA模型法在传染病预测的意义 近年来, 有学者开始探讨其在医学领域的应用, 认为该方法能较好的适用于疾病发病或死亡的预测预报[1]。2003年, 有学者应用这种方法预测SARS的疫情趋势, 取得了较好的效果[2]。相比之下认为, ARIMA模型是一种精度较高的短期预测模型[3], 此模型本研究应用ARIMA模型法预测传染病, 是用预测疾病的过去值和现在值, 预测未来值, 参照预测数据有目的地开展传染病的防控工作。
3.2 ARIMA模型法可以用于流感发病的预测 根据本市2004~2008年各月份的流感发病数序列的时序图发现:流感月发病数呈现明显波动, 每年12月或次年1月为发病高峰月,有相对固定的季节性或周期性波动。但2006年12月和2007年1月流感样病例数出现2次高峰, 是由于这一时期银川市发生2次学校流感暴发疫情引起。对AR(1)模型进行一级差分处理和单位根检验, 使数据满足平稳条件, 将模型优化为ARIMA(0,2,0)模型建模, 并对ARIMA(0,2,0)的适应性进行检验, 显示残差序列为白噪声, 说明所选的ARIMA(0,2,0)模型是合适的, 可用来预测, 用Eviews6.0拟合模型, 得到的五年预测效果的拟合优度R2为0.258, 相关系数为0.5079。因此,所选的ARIMA(0,2,0)所建模型, 有统计学意义。
图1 银川市2004~2008年流感月发病数时序图
图2 2004~2008年流感发病原始数据的自相关图、偏相关图及统计量
图3 2004-2008年流感发病一级差分后的自相关图、偏相关图及统计量
图4 2004~2008年流感残差自相关检验结果
图5 2004~2008年流感实际发病数与预测发病数
[1] 钟朝晖,刘达伟,张燕.重庆市主城区入口死亡率的时间序列分析.中国公共卫生, 2003, 19(7):796-799.
[2] 方兆本,李红星,杨见萍.基于公开数据SARS流行规律的建模及预报.数理统计与管理, 2003, 22(5):48-52.
[3] 邢慧娴,杨维中,王汉章.传染病预测.预防医学情报杂志, 2006, 6(4):639-642.
750004 宁夏医科大学总医院
闵红星