基于ARIMA模型的山东省肺结核发病趋势预测*

2018-12-29 03:51秘玉清张继萍殷延玲刘一鋆于慧慧王莎莎李爱娇
中国卫生统计 2018年6期
关键词:差分残差发病率

秘玉清 张继萍 殷延玲 刘一鋆 于慧慧 王莎莎 王 祥 李爱娇 罗 盛 李 伟△

【提 要】 目的 分析肺结核流行病学特点,探讨肺结核发病的预测方法并进行预测,为进一步预防控制肺结核工作提供科学参考依据。方法 利用山东省2009-2017年法定报告乙类传染病历史疫情资料,揭示山东省肺结核的时间流行趋势。运用SAS 9.3软件对数据进行分析,选择ARIMA模型对山东省肺结核疫情的流行趋势进行预测。结果 拟合的最优模型为:▽▽4Xt=εt+0.61664εt-1+0.43298εt-2+0.40011εt-3+0.32939εt-4+3.61461。对2017年1月-8月肺结核月发病率进行预测并与实际值进行比较,结果显示预测效果较好。山东省肺结核2017年9月-2018年8月的部分月发病率仍然有上升的趋势。结论 山东省肺结核月发病率呈现周期性上升趋势,相关部门应高度重视,进一步加强居民,特别是未患肺结核居民的健康教育,从而降低肺结核发病率,提高居民健康水平和生活质量。

肺结核是由结核分枝杆菌引起的严重呼吸道传染病,可侵及许多脏器,以肺部结核感染最为常见,是严重威胁人类健康的疾病。世界卫生组织指出,我国是全球22个结核病高负担国家之一,结核病人数量占全球12%,居世界第2位[1-2]。由山东省疾控中心公布的2017年8月山东省传染病疫情报告显示,肺结核发病数居第二位[3]。因此,及时准确地预测肺结核发病率,对制定未来肺结核防控重点和措施有着重要的意义[4]。本研究拟用山东省2009-2017年法定传染病报告中肺结核历史疫情资料,应用ARIMA模型描述山东省肺结核的流行病学特点,选择最优模型对疫情的发生进行预测,为提高居民的健康水平和生活质量提供科学的参考依据。

数据来源与研究方法

1.数据来源

2009-2015年山东省肺结核月发病率是通过中国统计年鉴和山东省卫生和计划生育委员会发布的数据获取;2015-2017年的肺结核月发病人数来源于山东省卫生和计划生育委员会和山东省疾病预防控制中心网站,利用山东省人口计算肺结核月发病率数据。

2.研究方法

(1)描述性流行病学方法

根据收集到的数据绘制逐月发病率时序图,应用描述性流行病学方法描述山东省人群中肺结核的发病情况,揭示山东省2009-2017年间山东省肺结核月发病率的未来发展走势。

(2)统计方法

运用SAS 9.3软件对数据进行统计分析,通过2009-2016年肺结核月发病率建立模型;应用ARIMA模型对山东省2009-2017年肺结核的月发病率进行定量分析拟合;用2017年1月-2017年8月的数据评价模型的预测效果。模型建立的三个步骤为:模型的识别、参数估计和模型检验、模型优化和预测[5]。

结果与分析

1.ARIMA模型识别

数据分析结果显示,肺结核的月发病率在2009-2016年存在明显下降和周期性趋势,并且可以看出该序列属于非平稳序列,见图1。为了消除线性趋势影响,对时间序列做1阶差分;同时为了消除季节趋势影响,对时间序列进行4步差分。差分后的平稳时间序列稳定的在均值上下波动,见图2;同时对1阶4步差分后得出序列进行白噪声检验,结果见表1。

为进一步确定该序列是平稳序列,还需要再观察该序列的自相关图。自相关图可以观察到,自相关系数1~4阶在两倍标准差范围外,其他阶数的系数都在范围内稳定。此外,自相关系数是逐渐向零呈正弦轨迹衰减的,说明差分后的序列在短期有很强的相关性,见图3。可以初步认为经过差分后的该序列平稳。

结合图2、图3、表1,进行χ2检验,得出P值都小于0.05,有统计学意义,可以认为差分后的该序列为平稳非白噪声序列。该序列的自相关图可以看出自相关系数是4阶截尾的,可以使用MA(4)模型对该序列进行拟合。

2.模型拟合与参数估计

对残差进行白噪声检验,结果显示,在检验水平0.05的情况下,延迟6阶、12阶、18阶、24阶的P值都大于0.05,说明该MA(4)模型的拟合有效,详情见表2。通过2009-2016年肺结核月发病率效果拟合图,可以看出该模型的2009-2016年实际月发病率(D线)和拟合月发病率(B线)均落在95%的置信区间(A线和C线)内,同样也说明该模型的拟合效果很理想,详情见图4。

条件最小二乘估计法参数显著性检验图结果显示MA模型四参数t统计量的P值都小于0.05,即四参数在统计学上都有意义,详情见表3。根据拟合结果,同时应用ARIMA模型进行参数估计,经过多次拟合,最优模型选择残差检验有意义且AIC最小的模型。最优模型为:

▽▽4Xt=εt+0.61664εt-1+0.43298εt-2+0.40011εt-3+0.32939εt-4+3.61461

图1 山东省2009-2016年肺结核月发病率时序图

图2 1阶4步差分后肺结核月发病率的时序图

延迟阶数卡方自由度P值636.466<0.00011260.6212<0.00011869.2918<0.0001

图3 差分后肺结核月发病率的自相关图

延迟阶数χ2自由度P值61.3620.50631224.3680.62001825.78140.82762447.73200.9005

图4 肺结核月发病率拟合效果图

参数估计值标准误差t值P值延迟阶数MU3.614610.1080333.46<0.00010MA(1,1)-0.616640.09961-6.19<0.00011MA(1,2)-0.432980.11128-3.890.00022MA(1,3)-0.400110.11226-3.560.00063MA(1,4)-0.329390.10054-3.280.00154

3.ARIMA模型检验

由图5诊断模型结果可知,经过优化的残差自相关函数和偏自相关函数都落在95%可信区间内。所拟合的模型为最优模型,可用于预测。

图5 残差自相关函数和偏自相关函数

4.ARIMA模型预测结果

应用拟合的ARIMA模型预测山东省2017年1月-8月的肺结核发病率,并用预测值与实际值相比较,计算相对误差。根据相对误差和发病率效果拟合图,该模型预测效果较好,详情见表4。利用该模型预测山东省2017年9月-2018年8月肺结核月发病率,总体呈下降趋势,从预测结果可以看出山东省肺结核部分月发病率仍然有上升的趋势,见表5。

表4 2017年1月-8月实际发病率与预测值比较(1/10万)

表5 2017年9月-2018年8月预测值

讨 论

1.山东省肺结核发病趋势分析

根据拟合及预测效果发现,ARIMA模型效果较好,通过2009-2017年肺结核月发病率的时序图观察到此时间序列存在周期趋势和长期趋势,可以判断为非稳定的时间序列。ARIMA模型可以通过对原始序列进行1阶4步差分后消除其周期和长期趋势,把非平稳时间序列转换为平稳的时间序列,然后再通过残差白噪声检验后得出差分后序列为平稳非白噪声序列,进而证明该序列有进一步建模价值[6]。

从长期趋势看,2009-2017年山东省肺结核月发病率随着年份的推移逐渐下降,呈缓慢下降的长期趋势,显然山东省全面落实“十二五”结核病防治规划有显著效果,同时这也与WHO发布的全球肺结核控制报告以及我国卫生部门公布的全国肺结核流行病学抽样调查结论一致[7-8];分析结果显示,肺结核月发病率具有周期性,2017年9月-12月肺结核月发病率又出现上升趋势,这符合经呼吸道传染病的基本特征,也与我国肺结核发病具有年周期、气候较寒冷的季节多发的特点一致[9]。

2.预测模型应用价值

肺结核发病预测研究可以早发现肺结核发展趋势,达到早发现的效果,及时预警群众做好肺结核预防。预测模型分析结果显示山东省肺结核月发病率长期呈现下降的趋势,部分月份还是有上升趋势,这与近年来山东省肺结核疫情流行特征基本是相吻合的。由于时间序列模型属于短期预测模型,因此在实际应用中,应该不断添加新的实际值,不断更新修正模型并进行重新拟合预测值。

猜你喜欢
差分残差发病率
RLW-KdV方程的紧致有限差分格式
符合差分隐私的流数据统计直方图发布
基于双向GRU与残差拟合的车辆跟驰建模
多晒太阳或可降低结直肠癌发病率
数列与差分
基于残差学习的自适应无人机目标跟踪算法
ARIMA模型在肺癌发病率预测中的应用
基于递归残差网络的图像超分辨率重建
宫内节育器与宫颈糜烂发病率的临床研究
大连港职工甲状腺结节发病率调查