李凤英
摘要:以湖北省2020/1/22-2020/3/24新型冠状病毒肺炎确诊数据为样本,利用 R语言构建求和自回归移动平均预测模型ARIMA(1,1,1),以1/22日-3/17日为训练数据, 3/18-3/24日为预测数据。运行模型发现,预测数据与真实数据拟合度高,检验效果显著。初期确诊病例数迅速上升,2月15日左右趋于稳定进入平稳缓慢期。将预测模型用于北京市,拟合效果良好,效果同样显著。充分说明ARIMA(1,1,1)模型稳健性良好,可用于新冠肺炎预测。
Abstract: Taking the confirmed data of COVID-19 in Hubei Province from 2020/1/22-2020/3/24 as samples, the summed autoregressive moving average prediction model ARIMA (1,1,1) was constructed by R language, 1/22 -3/17 Day is training data, 3/18-3/24 is prediction data. Running the model found that the prediction data and the real data have a high degree of fit, and the test effect is significant. 2/15 is about to stabilize and enter a stable and slow period. The model is used to predict the number of diagnosed people in Beijing. The fitting effect is good and the effect is also significant. It fully shows that the ARIMA (1,1,1) model has good robustness and can be used for COVID-19 prediction.
关键词:新冠肺炎;求和自回归移动平均模型;预测
Key words: COVID-19;ARIMA(1,1,1);forecast
中图分类号:O212.96 文献标识码:A 文章编号:1006-4311(2020)25-0229-03
0 引言
新型冠状病毒肺炎(COVID-19,以下简称“新冠肺炎”)是一种急性感染性肺炎,患者症状主要包括发热、干咳和乏力,逐渐出现呼吸困难等症状。自2019年12月新冠肺炎在湖北省武汉市发现以来,截至2020年4月22日,全球新冠肺炎确诊病例超过243万,其中美国累计确诊病例数已超过82万,死亡病例超过45000例,绝大多数国家疫情仍然在持续增长,远没达到峰值.湖北省尤其武汉市作为新冠肺炎疫情重灾区,实施有效的控制与治疗措施后,取得了巨大成功,为世界应对新冠肺炎疫情提供了方向,意义非凡.因此构建模型对湖北省的累计确诊数据进行研究分析,不仅对我国未来的疫情防控预测提供参考价值,也可对当前世界新冠肺炎的防控提供决策依据[1]。
1 理论基础
求和自回归移动平均模型(ARIMA, Autoregressive Integrated Moving Average model)模型被广泛用于各方面的流感预测[2-3],如具有如下结构的模型为求和自回归移动平均模型,简记为ARIMA(p,d,q)模型[4-5]:
2 实证分析
2.1 数据来源
数据来源于湖北省和北京市卫生健康委员会,以1月22日-3月24日湖北省、北京市新冠肺炎确诊病例数据为样本,分为预测数据和训练数据,1月22日-3月17日56天数据为训练数据,3月18日-3月24日7天数据为预测数据。
2.2 训练數据处理与分析
以ARIMA理论为基础,利用R语言(R-Studio7.2环境,R版本3.6.3)语言编程,训练数据统计分析如下:
2.2.1 平稳性检验
湖北省与北京市1月22日-3月17日56天新冠肺炎确诊病例的时序图如图1所示,两地区确诊人数趋势一致,数据有明显的直线上升趋势,可以看出是不平稳的。
对数据进行一阶差分,差分之后的55个数据如图2所示,可以看出数据趋势是平稳的。
2.2.2 一阶差分后的数据随机性检验
利用博克斯-皮尔斯(Box-Pierce)随机性检验,结果如表1所示, p-value均小于0.05,数据为非纯随机性序列。
2.2.3 一阶差分后的数据自相关性检验
自相关性是指随机误差项的各期望值之间存在着相关关系,通过模型得到湖北省与北京市自相关图(图3和图4),湖北省自相关图具有一阶截尾性,北京市自相关图具有明显的拖尾性。
2.2.4 一阶差分后的数据偏自相关性检验
偏自相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性相关性,当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。通过模型得到到湖北省与北京市偏自相关图(图5和图6),湖北省偏自相关图表现出明显的截尾性, 北京市偏自相关图表现出拖尾性。