摘要:筛选出对病情发展有重要影响的因素,对新增确诊人数和新增死亡人数做出预测。通过随机森林的特征重要性筛选出对疫情发展影响最大的因素,使用LSTM(Long Short Term Memory Network)建立预测模型。机场的繁忙程度对确诊人数影响最大,人口密度与死亡人数的关联性最大。美国地区的人口密度和机场交通情况对感染人数影响较大,从而影响年龄在80岁以上老人的死亡率,但分析结果显示美国疫情发展已基本趋于稳中下降的态势。
关键词:COVID-19;影响因素;LSTM;感染数;死亡数
中图分类号:R318;TP183 文献标识码:A 文章编号:2096-4706(2021)07-0091-04
Disease Prediction and Influencing Factors Analysis of COVID-19
Based on LSTM Model
HU Haiwen
(School of Mathematics and Physics,Lanzhou Jiaotong University,Lanzhou 730070,China)
Abstract:To screen out the factors that have an important impact on the development of the disease,and to predict the number of new confirmed cases and new deaths. Based on the importance of random forest characteristics,the most influential factors were screened out,and the LSTM(Long Short Term Memory Network)was used to establish the prediction model. The business of the airport has the greatest impact on the number of confirmed cases,and the population density has the greatest correlation with the number of deaths. The population density and airport traffic conditions in the United States have a great impact on the number of infected people,thus affecting the mortality of the elderly over 80 years old. However,the analysis results show that the development of the epidemic situation in the United States has basically tended to a steady decline.
Keywords:COVID-19;influencing factor;LSTM;number of infections;number of deaths
收稿日期:2021-03-11
基金项目:国家自然科学基金(61863022)
0 引 言
2019年底暴发的新冠肺炎疫情(COVID-19)给全世界的醫疗健康、经济发展带来了巨大影响。由于早期对病毒(SARS-CoV2)缺乏相应的认知,未能做到及时采取有力的应对措施,导致全球的感染人数急速增长。随着对病毒了解程度的加深,各国政府先后采取各种非药物干预(non-pharmaceutical interventions,NPIs)措施,例如公共场所佩戴口罩、保持社交距离、对外来人员实行集中管控及隔离等措施,在很大程度上抑制了病毒的传播,使得疫情得到有效的控制。但由于超级传播者和无症状感染者的存在,使该地区的感染人数在短期内会迅速增加,这在一定程度上加大了疫情防控的难度。据世界卫生组织公布的数据,截至2021年4月29日,全球新冠确诊病例达到149 197 928例,死亡病例为3 146 119例。需要注意的是,当传播概率一定时,即使疫苗注射普及率很高,但疫苗的有效性较低,仍会有极大可能发生感染大爆发,光靠疫苗注射控制疫情的效果可能不如采取严格的非药物干预措施[1]。所以,针对新冠传染情况比较严重的地区,进行传染因素和影响病情发展因素的分析,对有针对性地控制疫情发展具有重要作用,此外,对疫情发展的有效预测,对后期疫情的管控和预防意义重大。
美国作为新冠疫情的重灾区,确诊病例高达3千多万例,虽然目前已经开发出疫苗,但早期感染数量较大,同时病毒不断变异,病情还是有很大可能会继续恶化下去。本文分析了疫情发展过程中导致患者感染和死亡的主要因素,通过对疫情发展的预测,为后期更有针对性地实施防御保护措施提供支撑,同时也可以为后续类似呼吸疾病的预防和管控提供宝贵的参考经验。
1 数据、特征选择与方法
1.1 数据来源与特征选择
本文从纽约时报、美国劳工统计局、美国人口普查局等网站获取了2020年美国各个州的静态特征数据[2],包括各州的GDP、面积、人口密度、人口分布情况等,具体如表1所示。此外,从Johns Hopkins University Center for Systems Science and Engineering(JHU CSSE)[3]中获取了美国新冠发展的具体数据,其中包括从美国确诊第一例新冠病毒开始,到2021年5月为止的每日新增确诊数和死亡数、7日平均新增病例数以及总感染人数和死亡数。其中,静态数据可以更好地体现各州的综合情况,能直接反映出受新冠病毒影响最严重的群体,同时可得出新冠病毒的发展与哪些静态稳定的因素有关[4-6]。因为该数据集涵盖的因素过多,直接用所有特征进行相关性分析会比较繁琐耗时,所以本文首先对近100多个相关的因素进行特征筛选,采用随机森林的重要性评分方法进行重要性评估,得到对新冠感染人数和死亡人数影响最大的前10个因素,然后再对较重要的因素进行相关性分析,得到影响程度比较大的因素。疫情预测所使用的数据来源于JHU CSSE在GitHub上公开的开源数据,数据质量较好,没有空白数据,因为每日新增病例更能看出疫情整体的发展变化趋势,所以预测的重点在于新增病例的情况。
1.2 理論方法
1.2.1 随机森林
随机森林作为一种监督式分类算法,可以学习数据特征与标签的关系,它通过自助法(bootstrap)重采样技术,不断从原始训练样本集N中有放回地反复随机抽取n个样本,生成一个新的训练样本集合,最终用来训练决策树,多次重复后就得到了多棵树组成的随机森林。而通过随机森林的重要性评估可以实现对结果影响最大的特征选择,达到压缩模型所用的特征数的作用[6]。计算公式为:
(1)
其中,袋外数据误差为errOOB1,在计算过程中,随机地为袋外数据加入噪声干扰,会得到新的袋外数据误差errOOB2,N为随机森林树的个数。如果在特征中随机加入噪声后,袋外准确率呈现较大幅度的降低,则代表该特征对样本分类结果影响很大,该特征的变动会极大程度地影响分类结果,即证明其重要性程度比较高。
1.2.2 LSTM
长短时记忆网络(Long Short Term Memory Network,LSTM)为改进后的循环神经网络(Recurrent Neural Network,RNN)。它能解决RNN对短期的输入敏感的问题,此外,LSTM在RNN的基础上增加了一个状态结构和三个门结构,如图1所示,即:单元状态(cell state)、遗忘门、输入门和输出门。其中,遗忘门通过函数控制之前信息的输入程度,输入门控制当前信息的输入程度,输出门则用来控制最终输出[7-9]。LSTM能够综合处理长期和短期的输入,非常适合处理时间序列的预测问题。
遗忘门会读取ht-1和xt的信息,当ft=0时,该部分被遗忘,当ft=1时,信息会保留,ft的计算公式为:
(2)
第二个过程是要将新信息存放在长期状态里,此过程包含三个部分:首先是tanh层创建一个新的候选值向量,然后输入门层it控制对候选向量的哪些元素进行更新,最后新信息被加入到长期状态中[10],此过程的计算公式为:
(3)
(4)
(5)
输出门则基于细胞的状态,确定最后输出的值。首先通过sigmoid层确定输出的信息,然后通过tanh层对长期状态进行处理,将其与经过输出门过滤的信息相乘,得到最终的ht,计算公式为:
(6)
(7)
1.2.3 度量指标
本文使用R2的大小来衡量模型的预测精度[11]。R2的计算公式为:
(8)
其中,为预测值,y(i)为真实值,为平均值,有用模型的R2范围一般是在0到1之间,R2越接近于1,表示模型的预测效果越好,越接近于0,表示模型的预测效果越差,如果R2为负数,则表明模型拟合的预测误差过大。
2 结果
2.1 特征筛选结果
通过随机森林中的特征重要性对所有特征进行重要性评分,然后对结果排序,取出前十个数据,结果如表2所示。通过计算结果可以得出,新冠肺炎的确诊人数与年龄在25~29岁、50~54岁和85岁以上、距纽约的距离、机场繁忙程度、地区GDP、亚裔、流浪者人数、封锁天数有比较大的关系,而死亡人数与年龄在55~59岁、80岁以上、距纽约州、纽泽西州的距离、机场繁忙程度、地区GDP、人口密度和封锁前的检测人数有关。
进一步对选出的因素做相关的关系分析,结果如图2所示。
得出结论:确诊人数主要与地区机场的繁忙程度、地区GDP水平、年龄在50~59岁、80~84岁、85岁以上、人口密度和流浪者人数有较大的关系,可以推测,某地区GDP水平比较高时,该地区的人口密度较高,交通会比较繁忙,所以当某地区的人流较大时,新冠肺炎确诊的人数会比较多,老年群体,尤其是年龄在80岁以上的老人,更有可能被确诊感染新冠病毒。死亡人数与人口密度、地区机场的繁忙程度、年龄在80岁以上的老人人数相关性较大,当人口密度高、交通繁忙时,会使病毒传染更快,确诊人数的增加,加之老年人的抵抗能力较弱,使得死亡病例更多集中在80岁以上的老年群体中,且死亡率没有呈现种族偏好。
2.2 LSTM预测结果
预测采用的数据是从2020年1月22日美国出现第一例确诊病例开始,到2021年3月1日为止,全美国每日出现的确诊病例和死亡人数。由于数据从0开始增加到万,为减少量纲对预测结果的影响,对数据进行归一化处理。模型输入层为1层,隐藏层为6层,可以达到较佳的拟合情况,优化器选择了随机梯度下降(SGD),能够有效避免陷入局部最优,同时也能加快收敛速度。预测时,采用了的间隔取数,避免局部数据的影响。最终得到模型的R2=0.830 3,最终的预测模型拟合情况如图3、图4所示。从预测图中可以看出,美国每日新增确诊和死亡人数已基本稳定且不断减少,疫情得到缓解。
3 结 论
本文首先对影响美国疫情发展的一些静态数据指标进行了分析,筛选出比较重要的特征后进行确诊病例和死亡病例的相关性分析,发现美国新冠的确诊人数与年龄在85岁以上、地区的交通繁忙程度和GDP发展水平等因素的相关性最大,而死亡人数则与人口密度和年龄在80岁以上的相关性最大。得到此结论后,本文采用了LSTM建立模型,对美国疫情的每日发展情况进行了预测,通过预测结果可以看出,美国的疫情目前已经趋稳,确诊人数和死亡人数都在不断下降。
参考文献:
[1] TANG B,ZHANG X,LI Q,et al. The minimal COVID-19 vaccination coverage and efficacy to compensate for potential increase of transmission contacts,and increased transmission probability of the emerging strains [J/OL].BNE Public Health,2021:[2021-02-24].https://www.researchsquare.com/article/rs-140717/v1.
[2] CDC. Covid data tracker [EB/OL].[2021-03-01]. https://covid.cdc.gov/covid-data-tracker/#datatracker-home.
[3] Johns Hopkins University & Medicine. COVID-19 Dashboard by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU) [EB/OL].[2021-03-01].https://coronavirus.jhu.edu/map.html.
[4] RANDHAWA G,SOLTYSIAK M,EL ROZ H,et al. Machine learning using intrinsic genomic signatures for rapid classification of novel pathogens:COVID-19 case study [J/OL].PLOS One,2020,15(4):[2021-03-01].https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0232391.
[5] 胡小亮,路方紅,刘振东,等.原发性高血压患者血压晨峰与心血管疾病危险因素相关性分析 [J].中国循环杂志,2012,27(2):95-98.
[6] 汤正义,李向利,张炜,等.2型糖尿病神经病变的发病情况与有关因素相关性分析 [J].中华内科杂志,2003(12):47-48.
[7] 黄梅,朱焱.基于随机森林特征重要性的K-匿名特征优选 [J].计算机应用与软件,2020,37(3):266-270.
[8] 李俊卿,李秋佳,石天宇,等.基于随机森林重要性的LSTM网络风电功率缺失数据补齐 [J].电器与能效管理技术,2018(13):47-52+58.
[9] 欧阳红兵,黄亢,闫洪举.基于LSTM神经网络的金融时间序列预测 [J].中国管理科学,2020,28(4):27-35.
[10] ALIMADADI A,ARYAL S,et al. Artificial intelligence and machine learning to fight COVID-19 [J].Physiological Genomics,2020,52(4):200-202.
[11] WANG P P,ZHENG X Q,LI J Y,et al. Prediction of epidemic trends in COVID-19 with logistic model and machine learning technics [J/OL].Chaos,Solitons & Fractals,2020,139:[2021-03-01].https://doi.org/10.1016/ j.chaos.2020.110058.
作者简介:胡海文(1995—),女,汉族,甘肃嘉峪关人,硕士研究生在读,研究方向:应用统计。