基于ARIMA 模型的山西省手足口病月发病率的预测研究

2022-11-18 07:44袁永旭宋立群吴文婧尚有为
中华医学图书情报杂志 2022年4期
关键词:口病差分发病率

袁永旭,宋立群,吴文婧,李 黛,尚有为,于 琦

手足口病(hand-foot-mouth disease,HFMD)是一种儿童常见的传染性疾病,是由人肠道病毒(human enterovirus,HEV)为主要病原体引起的传染病,多发生于5 岁及以下儿童。HEV 类型众多,同种型的病毒通常可以导致多种病症或疾病,其中以柯萨奇病毒A 组16 型(CoxA16 型)和肠道病毒71 型(EV71 型)最为常见[1]。手足口病的主要临床表现为经常性的口痛,手部、足部、口腔等小疱疹感染及溃疡,绝大多数患者约1 周即可基本治愈。有报道个别重症儿童病情的进展速度快,可致死亡[2]。我国于2008 年将手足口病纳入丙类传染病[3],2016 年中共中央、国务院印发了《“健康中国2030”规划纲要》[4],要求加强重大传染病的防控,改革并完善传染病监测预警机制,进一步扩大国家免疫规划。我国的首个肠道病毒71 型(EV71 型)疫苗第1 期的临床研究试验疫苗已于2016 年春季上市,是我国唯一的可用于防治儿童手足口病的疫苗[5]。同时,为适应社会对联合疫苗与多价疫苗研发的需求,中国食品药品检定研究院完成了柯萨奇病毒A 组16 型(CA16 型)疫苗国家抗原标准品的研制[5],但就目前情况来看仍然缺乏有效的临床治疗药物,各地居民对肠道病毒71 型(EV71)疫苗的认识也仍然处于较低水平[6]。因此,手足口病防控形势严峻,不容小觑[7]。

国内学者对各省市手足口病进行了不同方向的研究。有学者通过采集上海市宝山区2015-2016年手足口病标本进行实验室检测和数据聚类分析,对上海市手足口病的发病时间与特征进行了有依据的推断预测[8];有学者根据沈阳市2008-2017年手足口病的流行特点及趋势,采用描述流行病学的方法对沈阳市手足口病疫情流行发病率进行了分析[9]。近年来,山西省手足口病发病率呈平稳略下降趋势,但防控形势仍然非常严峻,全省各县市均出现了不同程度的流行情况。山西省卫生和计划生育委员会在防治手足口病新闻通气会上表示,本省的手足口病病例主要分布在太原市、晋中市等地,其原因可能为城市人口密度过大、人群跨地区流动频繁、国家三胎政策开放后新生儿数量增多,但针对儿童的医疗卫生措施未有效实施,城市改造建设发展增快导致环境恶化,从而造成手足口病的持续高发[10]。因此,对手足口病发病率趋势的预测就显得尤为重要。本文基于山西省2007-2017年手足口病的月发病率数据,利用差分整合移动平均自回归模型(autoregressive integrated moving average model,ARIMA)进行汇总分析,预测山西省2022-2023 年手足口病的月发病率和高发期,为山西省手足口病的早期预警与防控提供依据。

1 数据来源及研究方法

1.1 数据来源

从公共卫生科学数据中心(www.phsciencedata.cn)收集下载、整理山西省2007-2018 年手足口病的月发病率相关数据资料。使用Excel 2019 软件建立样本数据库和整合预测数值表,利用R4.0.0 软件进行数据处理及绘图,并查阅山西省疾病预防控制中心相关资讯和统计信息,补充2019-2021 年未公示数据带来的预测缺失部分,所获得的数据一律保留4 位小数,数据真实、可靠。然后,利用山西省2007-2017 年手足口病的月发病率数据建立相关模型并进行拟合外推,以2018 年实际发病率数据检验所建立模型的预测效果,进一步佐证模型精度。

1.2 研究方法

ARIMA 模型为差分集成移动(又称“滑动”)平均自回归模型,也叫“博克斯-詹金斯模型”[11]。其建模过程可分为4 步:序列平稳性检验及平稳化处理、模型识别、参数估计、模型检验及预测。该模型简单灵活,被广泛应用于传染性疾病、呼吸系统疾病等的发病率预测研究[12]。

将用软件推算出的模型与山西省2007-2018 年手足口病的月发病率实际数据进行对比,并进行拟合图像分析,根据对比结果,采用平均绝对误差评价模型精度,误差数值越小表示模型预测能力越强。

2 数据的处理与分析

2.1 山西省手足口病月发病率基本情况

采集2007 年1 月至2017 年12 月共132 个月的山西省手足口病月发病率数据(表1)。

表1 山西省2007-2017 年手足口病月发病率(1/10 万)

根据表1 数据,利用R 软件建立2007-2017年山西省手足口病月发病率时序图(图1)。图1显示,山西省手足口病月发病率有明显的周期性和趋势性,且月报告病例总数整体呈现上升趋势,呈现周期性波动上升的特点,其中2009 年、2012 年、2014 年为高发年,但上升或下降幅度不大。

图1 山西省2007-2017 年手足口病月发病率的时序图

2.2 手足口病月发病率ARIMA 模型的建立与预测

2.2.1 序列平稳性检验及平稳化处理

为观察原始数据的趋势,利用代码df-ts-stl<-decompose(train)plot(df-ts-stl)将时间序列进行季节性分解。从时间序列的分解图上看,山西省手足口病月发病率的趋势性和周期性占比相当,并且周期性十分明显(图1、图2)。

图2 山西省2007-2017 年手足口病月发病率的时间序列季节性分解图

如图2 所示,山西省手足口病的月发病率数据存在较为明显的规律性和周期性,但部分趋势呈无序状,无法认定其为平稳序列,故判定其为非季节性ARIMA 模型,不能直接进行ARIMA 模型的模型识别与参数统计。所以下面要对原始时间序列进行一阶差分,消除对其不平稳规律性和周期性的影响,实现序列的平稳化处理。

原始时间序列一阶差分后的时间序列图、自相关图和偏自相关图如图3、图4、图5 所示。

图3 一阶差分后的时间序列图

图4 一阶差分后的自相关图

图5 一阶差分后的偏自相关图

可以看出,差分后的序列整体平稳,自相关函数(autocorrelation function,ACF)和偏自相关函数(partial autocorrelation function,PACF)的数值非显著为零,然后进行单位根检验得到假定值P为0.01,小于0.05,进一步判断出此时的序列具有了平稳性,说明接下来可以对一阶差分后的序列进行ARIMA 的建模与分析。

2.2.2 模型识别与参数估计

根据以上的整理分析,开始进行ARIMA 建模。非季节性 ARIMA 模型的原始形态为 ARIMA(p,d,q)(P,D,Q)[12],p、d、q 分别代表自回归、差分和移动平均的阶次,这里的P、D、Q 分别代表季节性的自回归、差分及移动平均的阶次,以大写与非季节性的p、d、q 进行区分[13]。首先在R 软件中输入代码“fic<-auto.arima(train,ic=”aic”,trace=1)”来确定p、d、q、P、D、Q 等参数的值,R 软件自动计算比较所建立模型中最优的一个。

根据AIC 最小原则,函数自动识别模型为ARIMA(2,0,0)(2,1,0)[12]模型,根据此模型对R 软件拟合模型的残差进行随机性白噪声检验,求得假定值P为0.9725,明显大于0.05,说明通过白噪声检验;当P>0.05 时,拟合残差项中不再蕴含任何相关信息,拟合模型显著有效[14]。

2.2.3 模型精度评价

利用已建立的最优ARIMA(2,0,0)(2,1,0)[12]模型“反向预测”2018 年1-12 月的手足口病月发病率,以实际值与预测值进行模型精度对比评价。山西省2018 年手足口病月发病率的预测值与实际值比较及预测精度见表2。

表2 山西省2018 年手足口病月发病率的预测值与实际值比较及预测精度

表2 显示,2018 年5 月、6 月和8 月绝对误差分别为4.5759、7.3613 和2.8540,明显大于1,说明预测结果异常;虽然4 月、7 月、11 月的绝对误差分别约为1.6、1.9 和1.7,也大于1,但相较于5月、6 月和8 月绝对误差偏小,所以可认为除5 月、6 月和8 月外其余9 个月的绝对误差均保持在1左右。山西省卫生和计划生育委员会2018 年发布的相关数据显示[10],当年为手足口病高峰年,整体流行强度高于往年,因此2018 年5 月、6 月和8月的预测值与实际数值存在相对大的偏差。

利用代码R2(pred$mean,test)计算出R2为0.751 1868,R是相关系数,R2指拟合优度。当R2>0.75 时,说明模型拟合度很好,该预测模型精度较高。

再利用已建立的ARIMA(2,0,0)(2,1,0)[12]模型预测山西省2007 年1 月至2018 年12 月手足口病的月发病率,用2007 年1 月至2018 年12 月的实际月发病率数据与已预测的月发病率数据进行趋势拟合分析,结果如图6 所示。

图6 山西省2007-2018 年手足口病月发病率实际值与模型预测值的趋势拟合

图6 显示,本文建立的ARIMA 预测模型所预测的山西省2007 年1 月至2018 年12 月手足口病的月发病率趋势与实际发病率趋势走向整体上大致相同,进一步肯定了ARIMA(2,0,0)(2,1,0)[12]模型的可用性和准确性,因此可以使用该模型预测山西省2019-2023 年手足口病月发病率。

2.2.4 模型预测

ARIMA 模型的功能之一是预测未来连续年份的发病率,目前大量研究者均用该模型预测各种疾病未来5 年的发病率。同时,本文将2018 年实际数据与预测数据进行对比,验证结果显示模型预测值与实际值契合度较高,因此利用该模型进行5年趋势外推具有可行性。

用选定的ARIMA(2,0,0)(2,1,0)[12]模型对山西省2019 年1 月至2023 年12 月份手足口病发病率进行预测,预测结果见表3。表3 显示每年6-8月份手足口病的月发病率仍然高于其他月份,需要在这段时间内加大预防力度。为更加直观地说明问题,将表格中的预测数据转换成趋势图(图7)。

表3 山西省2019-2023 年手足口病发病率预测值(1/10 万)

图7 山西省2019-2023 年手足口病月发病率预测趋势

ARIMA(2,0,0)(2,1,0)[12]模型预测结果显示,山西省未来5 年的手足口病月发病率仍呈现周期性波动,波动规律平稳,或将呈现略微上升趋势。

3 建议

本文通过建立ARIMA(2,0,0)(2,1,0)[12]模型预测了2019-2023 年山西省手足口病的月发病率,结果显示手足口病发病率呈平稳趋势,且存在周期性,每年4-7 月为春夏季发病高峰期,10-11月为秋季发病高峰期。

登录山西省疾病预防控制中心官方网站(http://www.sxcdc.cn/index.htm),查阅发布的传染病疫情统计信息,比较实际数据和预测数据的差距。比较结果显示,2019-2021 年的4、5、6 月份发布的丙类传染病病例当中,包含手足口病在内的3 种传染病占报告发病数的90%以上。虽然山西省疾病预防控制中心提示春季是呼吸道传染病和手足口病等肠道传染病的高发季节[15],与模型预测每年7 月是手足口病发病率最高的月份有所出入,但究其原因,主要是每年春季手足口病发病初期疾病防控部门都会进行干预,因而防止了手足口病月发病率到达模型预测出的最高点,侧面验证了模型精度。

针对山西省手足口病发病率常年波动且缓慢上升的趋势,建议采取以下手足口病的综合防治措施。

3.1 普及山西省健康教育

利用可获得的数据对山西省手足口病月发病率进行预测预警,可以有效提醒山西省卫生健康委员会、山西省疾病控制中心等有关部门提前加强流行病宣传教育,尤其是对易发生手足口病的地区或单位开展重点人群宣传教育。同时,医院与社区等有关单位在做好日常宣传的基础上,定期举办手足口病知识普及活动,对手足口病的传播途径和病原寄生方式进行科普,使公众充分了解相关症状、危害及预防方式,以及更好地了解手足口病的流行规律,为制定相关防治策略提供中肯意见及参考依据,以有效应对流感、手足口病等重点传染病疫情,保证易感人群的健康。

3.2 完善山西省内医疗人才、物资储备体系

实施流行病综合防控战略,加强省内的国家流行病综合防控示范区建设,建立预防手足口病的专门机构,设立相关岗位,如手足口病宣传员、防疫员等,吸纳高素质前沿人才,建立强大的山西省医疗人才储备军,确保防疫工作顺利开展;提高省内防治手足口病资金支持力度,加大对医疗设备、药品、人才的投入,建立健全覆盖全省的公共卫生服务,防治手足口病等重大突发疫病。

3.3 进一步优化全民健康服务

在现有防控措施的基础上,与相关机构紧密协作,规范病例监测报告,开展手足口病咨询服务,进行手足口病知识培训,加大宣传教育的力度,使公众深入了解手足口病的传染方式、防治措施等知识,规范做好疫苗预防接种。在自愿、自费原则的前提下,积极动员适龄儿童接种手足口病疫苗,并提供安全、规范的预防接种服务,保障人民群众身体健康。

4 结语

在传染病发病率预测研究中,常用的模型预测方法有很多,ARIMA 模型因其便捷易行且模型精度较高而被广泛使用。本文利用山西省2007-2017年手足口病的月发病率数据构建ARIMA 模型,经过序列平稳化平稳性检验处理、模型定阶、参数估算及模型的检验等步骤计算得出最优模型ARIMA(2,0,0)(2,1,0)[12],其预测值与实际月发病率基本在模型拟合的95%置信区间内,说明当月疫情无异常,该模型精度较高,可用来对山西省手足口病月发病率进行短期预测。

本研究还存在以下局限。一是ARIMA 模型依赖于数据本身且要求时序数据稳定,用此模型对手足口病发病率进行预测分析时难以兼顾外部环境的变化,如人群的变化、空气质量变化、气温异常变化等;二是所能查阅到的官方数据资料只更新到2018 年,而2019 年至今的数据没有在正规的网站上公布,因此存在数据滞后的问题;三是判断模型精度时只使用了平均绝对误差这一种标准,没有采用更多的标准进行比较,虽然结果可靠,但仍没有达到最精确的水平。今后的研究将完善模型精确度,以获得更严谨、更全面的山西省手足口病月发病率预测结果。

猜你喜欢
口病差分发病率
一种基于局部平均有限差分的黑盒对抗攻击方法
符合差分隐私的流数据统计直方图发布
2010—2019年宝鸡市手足口病流行特征及时空聚集分析
多晒太阳或可降低结直肠癌发病率
手足口病那些事
警惕手足口病
一个求非线性差分方程所有多项式解的算法(英)
ARIMA模型在肺癌发病率预测中的应用
重庆每小时10人确诊癌症 癌症发病率持续上升
基于差分隐私的数据匿名化隐私保护方法