ARIMA模型与指数平滑法在新冠肺炎疫情传播中的应用

2020-08-31 14:53卢普庆

价值工程 2020年23期

卢普庆

摘要：目的：分析ARIMA模型和指数平滑法对我国新型冠状肺炎（COVID-19）疫情变化趋势的预测效能。方法：选取我国2020年1月10日-2020年4月20日新冠肺炎累计确诊病例数作为ARIMA模型和指数平滑法的建模部分，2020年4月21日-2020年4月30日数据作为模型验证部分，比较两种模型的拟合情况和预测效果优劣。结果：ARIMA（2，2，1）模型的均方误差根（RMSE）为301.9043，相对误差百分比（REP）为3.1743，指数平滑模型的RMSE为200.9823，REP为2.1306。结论：指数平滑模型拟合效果较好，预测精度更高，可应用于我国COVID-19累计确诊病例数的预测。

Abstract： Objective： To analyze the predictive power of the ARIMA model and exponential smoothing method for the trend of COVID-19 in China. Methods： The cumulative number of newly diagnosed cases of new coronary pneumonia in China from January 10， 2020 to April 20， 2020 was selected as the modeling part of the ARIMA model and exponential smoothing method， and the data from April 21， 2020 to April 30， 2020 was used as the model In the verification part， compare the fitting situation of the two models and the pros and cons of the prediction effect. Results： The root mean square error （RMSE） of the ARIMA （2，2，1） model was 301.9043， the relative error percentage （REP） was 3.1743， the RMSE of the exponential smoothing model was 200.9823， and the REP was 2.1306. Conclusion： The exponential smoothing model has a better fitting effect and higher prediction accuracy， and can be used to predict the cumulative number of confirmed cases of COVID-19 in China.

關键词：新型冠状肺炎;ARIMA模型;指数平滑法;预测

Key words： COVID-19;ARIMA model;exponential smoothing method;prediction

中图分类号：N32 文献标识码：A 文章编号：1006-4311（2020）23-0164-04

0 引言

自2019年12月底在湖北省武汉市发现新型冠状病毒肺炎病例以来，新冠肺炎迅速在全球流行。2020年1月12日世界卫生组织（WHO）将该病毒命名为2019-nCoV[1]， 2月11日世界卫生组织（WHO）将该病毒引起的疾病正式命名为COVID-19（Corona virus disease 2019）[2]，3月11日，世界卫生组织正式宣布此次疫情为世界大流行，防控工作已成为全球公共卫生共同关注的问题。截止5月1日24时，COVID-19已影响到全球212个国家和地区，累计确诊病例逾300万，累计死亡已超过23万。绝大多数国家目前疫情仍在持续增长阶段，没有达到有效控制。而我国疫情在精准施策，科学防控等一系列措施下，取得了阶段性胜利，目前以境外输入性病例为主。疫情防控的成功与对病毒传播趋势的了解密不可分。因此，构建新冠肺炎疫情变化趋势的有效预测模型，对新冠肺炎疫情的防控具有重要的现实意义。

1 文献综述

目前，针对新冠肺炎防控的相关研究，主要可以分为三个方面：一是基于参数和建模的研究：尹楠（2020）[3]应用标准流行病学SIR仓室模型，对此次新冠肺炎疫情中的几种感染情况做了仿真研究，并根据研究结果提出了一些控制疫情蔓延的措施和方法。Yang Zi-feng（2020）[4]结合经典SIR仓室模型和SEIR仓室模型，以多重拟合确定模型参数，对疫情趋势做了预测研究，在参数估计方面更接近实际。颜铭江等（2020）[5]改进了传统SEIR模型中仅考虑确诊病例存在传染性而潜伏期病例无传染性这一缺陷，提出了新模型（ISEIR），应用ISEIR模型预测了今后疫情的进一步发展趋势。二是基于疫情防控措施效果评估的研究：陈端兵等（2020）[6]以有效再生数作为评价防控措施的核心指标，计算并反推了患者症状的出现时间，发现切断本地传播源、实施交通管制等举措有显著成效。MOORE（2020）[7]基于目标函数法，研究了自我防控、初期诊断治疗和末期诊断治疗三种防控措施分别实施和组合实施下的疫情传播速度，结果指出三种防控措施组合效果更好。三是基于临床医学和药理学的研究：杨小林、袁永亮等（2020）[8]采用ETCM、中药系统药理学分析平台（TCMSP），分析得到升降复方靶蛋白基因，结果表明升降散对新冠肺炎具有潜在抑制作用。

上述研究为新冠肺炎的防控提拱了宝贵意见，也为本文提供了启发。基于统计学视角，将我国新冠肺炎累计确诊病例随时间变化而变化的数据看成一组时间序列。采用ARIMA模型和指数平滑法对数据进行分析，建立ARIMA模型和指数平滑模型，并通过实证研究来评价两种模型的预测效能，从而确定最优预测模型，为将来我国新冠肺炎疫情防控工作提供参考依据，也为其他新冠肺炎疫情研究提供借鉴。

2 资料与方法

2.1 数据来源及假设

2020年1月10日-2020年4月30日我国COVID-19累计确诊病例数来源于国家卫生健康委员会疫情通报。这里做个基本假定：国家卫建委于2020年1月21日通报全国新冠肺炎疫情情况，1月10日-1月20日无全国累计确诊病例数，由于疫情重灾区位于湖北省武汉市，故假定武汉市1月10日-1月20日累计确诊病例数为全国累计确诊病例数。

2.2 研究方法

2.2.1 ARIMA模型全称为自回归移动平均模型，由美国George Box和英国Gwilym Jenkins于20世纪70年代初共同建立。ARIMA模型定义为[9]：

2.2.2 指数平滑法是由（Robert G. Brown）提出的一种基于移动平均法，改进而来的时间序列分析方法。指数平滑法在流行性传染病发病率预测中的应用已十分广泛，如流感样病例等[10]。指数平滑法弥补了移动平均法的不足，充分利用了所有数据信息，又体现出近期数据对未来影响作用更大的特点。根据时间序列是否具有季节性，可分为季节性模型（季节指数平滑法、Holt-Winter加法指数平滑法、Holt-Winter乘法指数平滑法）和非季节性模型（一次指数平滑法、二次指数平滑法）[11]，其中一次指数平滑法主要应用于没有趋势的季节性的序列，二次指数平滑法主要应用于有趋势但没有季节性的序列。根据我国新冠肺炎累计确诊病例数据的變化趋势，本文选择二次指数平滑模型，其公式为：

2.2.3 分析方法本研究采用SPSS 23.0，将1月10日-4月20日我国新冠肺炎累计确诊病例数作为建模部分， 4月21日-4月30日数据作为模型验证部分。选取二次指数平滑模型中的简单线性趋势模型、Holt线性趋势模型、Brown线性趋势模型依次拟合三种模型，依据确定系数R2最大、均方误差平方根（RMSE）、平均绝对误差百分比（MAPE）和平均绝对误差（MAE）最小确定最优模型[12]。

3 结果

3.1 我国COVID-19累计确诊病例数分布特征

对我国1月10日-4月30日新冠肺炎累计确诊病例数进行分析，观察累计确诊病例数时间序列图，可见累计确诊病例数总体呈明显上升趋势，且无明显季节性和周期性。

3.2 ARIMA模型建立

3.2.1 平稳性检验

对原始序列做单位根检验，根据结果可知，原始序列非平稳，对其一次差分后做单位根检验，P>0.001，进而二次差分，显示序列平稳。

3.2.2 ARIMA模型识别

观察二次差分后序列的自相关函数图（AC）和偏自相关函数图（PAC）可知，AC和PAC图存在明显拖尾性，且AC图一阶截尾，故q=1，由PAC图可知，p取2或3。根据可决系数（R2）、调整的可决系数、赤池信息准则（AIC）以及施瓦兹准则（SC）可得，p取2。综合上述分析可知，确定模型为ARIMA（2，2，1）。

3.2.3 ARIMA模型检验

根据ARIMA（2，2，1）模型做回归，并对其残差序列进行白噪声检验，由残差序列的AC图、PAC图以及p值可知，残差序列不存在自相关，且满足零均值，为白噪声序列，故认为其通过检验。

3.2.4 模型预测

利用ARIMA（2，2，1）模型对我国4月21日-4月30日新冠肺炎累计确诊病例做预测，并于实际值进行对比，结果如表1。

3.3 指数平滑法

3.3.1 构建模型

根据我国COVID-19累计确诊病例数时序图，初步选择指数平滑模型中的简单模型、Holt线性趋势模型和Brown线性趋势模型，分别对我国1月10日-4月20日新冠肺炎累计确诊病例数进行拟合，模型拟合结果见表2。

根据表3可知，Brown线性趋势模型的最大，且RMSE、MAPE、MAE以及正态化BIC值最小，因此，选择Brown线性趋势模型对COVID-19累计确诊病例数进行拟合，拟合情况见图1。

3.3.2 指数平滑模型预测结果

运用指数平滑模型中的Brown趋势模型对我国新冠肺炎累计确诊病例数进行预测，拟合预测曲线图见图2，预测结果见表3。

3.3.3 ARIMA模型和指数平滑模型比较

为了更好的对两个模型的预测精度进行对比分析，本文引入均方根误差（RMSE）和相对误差百分比（REP）两种度量指标，相应度量指标定义如下：

根据表4可知，指数平滑模型的RMSE值和REP值均小于ARIMA模型，因此，指数平滑模型预测效果更好。

4 讨论

ARIMA模型和指数平滑模型均是通过探索历史数据随时间变化而变化的某种规律，并将这种规律进行外延，来预测将来情况。两种模型均适合于中短期预测。ARIMA模型比较全面的考虑了序列的长期趋势、季节变动、循环变动以及不规则变动等情况，并结合模型参数对其进行了量化，能较好的反映时间序列的变化和趋势[13]。但ARIMA模型的建模过程相对复杂，模型参数的识别存在一定主观性。指数平滑法则需要反复运算，以确定最优平滑系数，其基本思想是给近期数据赋予更大的权重，而远期数据赋予较小权重，适合于序列随时间变化不大的数据。因此，两种模型均有一定局限性，在不同条件下，应结合具体情况而定。

本文采用ARIMA（2，2，1）模型和指数平滑模型对我国新冠肺炎累计确诊病例数进行了预测，研究结果表明，ARIMA（2，2，1）模型的均方误差根（RMSE）为301.9043，相对误差百分比（REP）为3.1743，指数平滑模型的RMSE为200.9823，REP为2.1306，均小于ARIMA（2，2，1）模型，且指数平滑模型预测结果与国家卫健委疫情通报结果基本吻合。因此，指数平滑模型更适合于我国新冠肺炎累计确诊病例的短期预测。

参考文献：

[1]武汉市卫生健康委员会通报：1月13日无新增新型冠状病毒感染的肺炎病例，中国发展网，2020，1，15.http：www.chinadevelopment.com.cn/sh/2020/0115/1601245.shtml.

[2]世界卫生组织给新冠病毒命名，新京报，2020，2，12.http//news.sina.com.cn/w/2020-02-12/doc-iimxxstf0768050.shtml.

[3]尹楠.基于SIR模型的有限区域内新冠肺炎疫情传播仿真模拟[J].统计与决策，2020（5）.

[4]Yang Zi-feng， Zeng Zhi-qi， Wang Ke， et al. Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public Health interventions[J].Journal of Thoracic Disease，2020，doi：10.2103/jtd.2020.0264.

[5]顏铭江，董一鸿，贾香恩，郑海阳，辛宇.新型冠状病毒肺炎的疫情趋势预测[J/OL].病毒学报：1-10[2020-4-30].http：//kns.cnki.net/kcms/detail/11.1865.r.20200429.1658.004.html.

[6]陈端兵，白薇，王岩，王敏，俞伍平，周涛.新型冠状病毒肺炎防控效果的定量评估[J/OL].电子科技大学学报：1-6[2020-3-31].http：//kns.cnki.net/kcms/detail/51.1207.T.2020.330.1149.002.html.

[7]MOORE S E， OKYERE E. Controlling the Transmission Dynamics of COVID-19[J/OL].arXiv：2004.00443v2[q-bio.PE].[2020-04-02].http：//arXiv.org/abs/2004.00443.

[8]杨小林，袁永亮，张杰，王如锋，倪力强.基于网络药理学和分子对接探寻升降散对抗新型冠状病毒潜在作用机制研究[J/OL].中草药，2020，51（7）：1795-1803.

[9]Box G E P. Jenkins G M. Time Series Analysis： Forecasting and Control[M]. 4 th ed New Jersey： Hoboken，2011.

[10]孔德川，潘浩，郑雅旭，等.指数平滑模型在上海猩红热发病率预测中的应用[J].疾病检测，2019，34（10）：932-936.

[11]P. R. A Firmino， P S de Mattos Neto， Tiago T. E Ferreira. Correcting and Combining time series forecasters[J]. Neural Networks，2014，50：1-11.

[12]顾蓉艳，张玲，宋肖肖，等.基于季节性指数平滑法的学校因病缺课预测研究[J].中华疾病控制杂志，2019，23（7）：845-855.

[13]王春平，王志峰，单杰，等.随机时间序列分析方法在传染病预测中的应用[J].中国医院统计，2006，13（3）：229-232.