杨芷铭 谢欧 谢文武
摘 要:文章针对新型冠状病毒(COVID-19)管控难以及疫情治理难等普遍性问题,对国内外疫情数据进行预处理并实现数据的可视化显示,然后通过时序分析方法中的趋势分析和突变分析识别,建立基于神经网络的数据分析模型——ANN模型和LSTM模型。通过训练模型展示出疫情相关结果,预测疫情发展趋势。其结果与实际趋势能够很好地对应起来,进一步验证了两种模型的有效性和实用性。
关键词:神经网络;数据预测;数据分析;COVID-19
中图分类号:TP18 文献标识码:A 文章编号:2096-4706(2023)13-0032-07
Analysis and Prediction of COVID-19 Data Based on Neural Networks
YANG Zhiming, XIE Ou, XIE Wenwu
(School of Information Science and Engineering, Hunan Institute of Science and Technology, Yueyang 414006, China)
Abstract: In view of the common problems such as the difficulty of COVID-19 management and control and the difficulty of epidemic management, this paper preprocesses the domestic and foreign epidemic data and realizes the visual display of the data. Then, through the trend analysis and muta-tion analysis identification in the time series analysis method, the data analysis model based on neural networks - ANN model and LSTM model are es-tablished. Display epidemic related results through training models and predict the development trend of the epidemic. The results correspond well with the actual trends, further verifying the effectiveness and practicali-ty of the two models.
Keywords: neural network; data prediction; data analysis; COVID-19
0 引 言
新冠疫情期間,如何精确有效的预测疫情的走向成为研究的热点问题,许多研究团队对新冠感染的情况进行了分析[1,2]。文献[3]建立了一个城市级结构化疫情预测模型,并基于最新的传染病动力学理论,将SEIR模型与社会网络模型结合起来对新冠感染状况进行分析。文献[4]提出了一种改进的SIR模型来预测新冠感染状况,其中还考虑了新冠感染的死亡者因素。文献[5]建立了时间序列模型,对湖北省新冠感染确诊人数进行预测分析,并给出相应的建议。文献[6]提出了一种基于组合式神经网络的新冠预测模型,并对湖北省确诊人数进行了预测,最后验证了模型的准确性。文献[7]通过建立数学模型以及拟合的方式来对中国的疫情状况进行预测分析。
本文通过建立基于神经网络的新冠感染预测模型,对新冠感染的情况进行趋势分析,并通过可视化的方式来对新冠感染的走势进行预测,进而对全世界范围内的疫情发展有一个清晰的认知,最后对新冠感染的情况进行评估。数据分析的目标为:
1)实现疫情状况预测,帮助国家快速发现爆发地,确保当地民众可以提前做好病毒预防准备,实现发现和控制两头抓。
2)基于以往疫情数据,综合考虑节假日、天气、交通等因素对疫情趋势预测,方便国家提前做出调控与准备。
3)基于疫情大数据,寻找对疫情发展有较好抵制作用的因素,以便国家及时进行策略调整。
本文在分析新冠感染数据的基础上,综合考虑时间空间复杂度以及限制条件的影响,构建了两种基于神经网络的新冠感染预测模型。本文的主要贡献如下:
1)首先对新冠感染数据进行预处理,然后将清洗后的数据采用的PyEcharts模块进行可视化分析,其中包括趋势分析和突变识别。
2)建立了ANN和LSTM两种神经网络模型对新冠感染状况进行分析和预测,将两种模型的预测效果进行对比,最后通过分析给出相应的建议。
1 数据预处理
本文主要从数据清洗、缺失值处理两方面对新冠感染数据进行处理。
1.1 数据清洗
数据清洗的主要目的是从建模等方面考虑,筛选出实验所需要的数据。由于原始数据中不是所有数据都需要进行分析,因此需要在数据处理时,将赘余的数据进行过滤。
1.2 缺失值处理
数据缺失主要包括记录缺失和字段信息缺失等情况[8],对数据分析会有较大影响导致结果的不确定性会更加显著。一般采用的缺失值处理方法有:删除记录、数据插补和不处理。对于数据插补来说,有五种方式,即均值、中位数、众数插补、临近值插补、拉格朗日插值法。本文在进行缺失值处理采用了临近值插补和拉格朗日插值法。
临近值插补一般是用该数据的前一个数据或者后一个数据直接填补。拉格朗日插值法则是通过确定原始数据集中的因变量和自变量,随后取出缺失值前后5个数据,根据拉格朗日插值公式计算后所得到的数据插入缺失值处,所用到的公式为:
其中x为缺失值对应的下标序号,Ln(x)为缺失值的插值结果,xi为非缺失值yi的下标序号。对全部缺失数据进行依次插补,直到不存在缺失值为止。
2 数据分析
本文进行数据分析所使用到的所有国内新冠感染数据均来自国家卫生健康委员会所公布的官方报告,所有的国外新冠感染数据均来自世界卫生组织官网,且所有数据时间范围均为2020年1月21日至2020年7月3日。
本文的研究主要从疫情时序分析和疫情可视化分析两个方面展开。对于疫情时序分析,主要思路为:通過时间序列方法对局部地区的单日病例时间序列进行分析,从而能够发现每日新增病例的变化趋势、疫情演变阶段、疫情拐点特征。在时序统计数据中记录了各种地方新冠感染的确诊人数、死亡人数和治愈人数等。
对于疫情可视化,本文采用了曲线图、直方图、饼状图以及地图的方式进行展示,通过不同的专题图形表述各地疫情,更加直观地展示了新冠感染的状况。
2.1 国内疫情对比分析
以2020年1月28日到2020年6月12日湖北省的新冠感染状况为例,如图1所示。
由图1可知,新冠感染爆发的时间是在1月到2月份,且确诊人数的增长趋势很快。原因在于武汉市出现了新冠确诊患者,武汉是中国交通的大动脉,其人员流动性非常大,导致了疫情从武汉开始蔓延,逐渐扩散到全国。但到了3月底之后确诊人数的增长趋势明显变缓。这是由于中国下达了武汉封城的指令,随后中央举全国之力援助武汉,大量医护人员前往武汉支援,大量医疗物资往武汉输送,在武汉集中救治确诊患者,这才在3月底逐渐控制住了疫情。
再以同时段福建省的新冠感染状况为例,如图2所示。
由图2可知,春节期间福建省的确诊病例在快速增加,覆盖的区域也在扩大,原因在于1月23号武汉市封城前后回福建省的人员、福建本地的密切接触者、湖北旅行史人员较多,并且与以武汉市为主的湖北地区商务、生活流动频繁有关,故造成较多的输入性病例。同时,福建省是沿海地区,沿海地区人口密度大,有境外输入的风险,也会造成大规模感染。
将中国的部分省份的新冠感染状况整合成直方图,如图3所示。
由图3可知,湖北省的新冠确诊人数是各省中最高的,但其治愈人数与确诊人数相差不大,大部分确诊患者在湖北省都能成功治愈,这也说明了我国的医疗水平先进和医疗设施完善,我国对于湖北省投入的医疗物资齐全,同时也派遣了大量优秀的医务人员,而且普通民众对疫情防控措施也十分配合,这也是其他省份感染不严重的原因。
2.2 国外疫情对比分析
本节以国外部分典型国家的新冠感染状况为例绘制了饼状图进行分析,如图4至图6所示。
从图4至图6中可以看出,全世界确诊人数、治愈人数和死亡人数排名前三的国家全都是美国、印度和巴西,尤其以美国最为严重,该国确诊人数、死亡人数均为最多,原因在于美国政府未能及时发布限制令,使得境外输入病例持续增加;来自不同地区的人员参加大规模聚会在早期传播中扮演显著角色;美国还缺少防护措施,使得病毒在传入人口密集区域后迅速扩散;在美国疫情早期,新冠病毒检测难度高,美国疫情起始和加速扩散阶段存在大量未被察觉的传播。而印度的情况也相当严重,是由于印度医疗条件落后、医疗技术落后,而且疫情初期没有对疑似病例进行检测,无法排除新冠感染的可能性;印度面积不大,但人口多,故人口流动的频率也很高,从而为新冠病毒的传播创造了有利的条件。巴西则是因为地域广大,而且巴西是南美中心,与大量国家有着密切来往,从而导致输入病例过多,造成大规模传染。
为了更加直观地看出全世界新冠感染状况,此处以世界地图建立了新冠感染分布图,如图7所示(该世界地图是采用Python的Map库直接生成)。
由图7可知,全世界疫情比较严重的地区基本集中在美洲地区和欧洲地区。原因在于这些地区对于新冠感染疫情的重视程度不够,在新冠感染初期没有及时采取有效的措施。部分欧美国家在疫情扩散时也采取了很多措施,但效果远远不如中国。其原因在于当地民众对于新冠病毒的无知,以及对防疫措施的不配合。部分疫区民众对自己不负责,对社会中的其他人也不负责,把所有责任都推给政府的防疫不利,推给媒体的错误报道。这也是导致欧美地区新冠感染大爆发的一个重要原因。以美国为例,各个州发布了抗疫措施,大量民众都不支持,许多人宁可冒着生命危险与州政府要求解除居家令,也不愿居家隔离,因此造成了新冠病毒迅速传播。而亚洲、非洲和大洋洲等地区疫情相对没有那么严重。以东亚地区为例,不管政府措施如何,在疫情的真实数据面前,普通民众都保持了较高的警觉意识,对于各类防疫措施也愿意接受。因此抗疫的关键需要民众的支持,否则一切防疫措施和政策都是空洞的。
3 数据挖掘建模
本文在进行可视化分析后,建立了两种模型来进行分析和预测,分别为ANN模型和LSTM模型。预测曲线的类型则分为两种:J型曲线和S型曲线。
ANN模型:ANN是指由大量的处理单元(神经元)互相连接而形成的复杂网络结构,是对人脑组织结构和运行机制的某种抽象、简化和模拟,它以数学模型模拟神经元活动,是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统[9]。
LSTM模型:LSTM是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的[10]。在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此需要一个存储单元来存储记忆,因此LSTM模型被提出。
3.1 国内疫情分析预测
本文通过对国内新冠感染数据进行训练得出了湖北省和全国新冠感染的ANN模型和LSTM模型,训练和预测结果如图8至图11所示。
通过对比湖北省和全国的疫情预测数据曲线,可以看出两者均为S型曲线,即新冠感染达到最高点后增长速度趋于平缓,其原因在于中国及时采取防控措施,集中救治患者。初期的增长是因为最初国内还没有引起重视和采取防范措施,从湖北省流出的人口较多,导致疫情在全国范围内迅速扩散。湖北省预测曲线中原始数据与预测数据是存在一定的偏差的,但趋势走向基本一致,表明预测结果相对准确。
湖北省和全国的LSTM模型曲线趋势与对应的ANN模型曲线趋势一致,即均为S型曲线。但LSTM模型中湖北省疫情预测曲线和全国疫情预测曲线原始数据和预测数据有着明显的差距,LSTM模型在此处对于新冠感染的预测相比于ANN模型不够准确,主要原因在于LSTM主要采用门控的机制,能够在一定程度上解决梯度爆炸、梯度消失问题,但LSTM有不能并行的缺点,导致其性能有所损失。
3.2 国外疫情分析预测
通过对国外新冠感染数据进行训练得出了美国和全球疫情的ANN模型和LSTM模型,训练和预测结果如图12至图15所示。
通过对比美国和全球疫情预测数据曲线,可以看出两者均为J型曲线,即确诊人数增长速度一直在增加。这就说明疫情根本就没有得到控制,原因在于美国没有集中控制疫情,民众不支持政府的措施,且大部分国家的医疗水平不够高,医疗设施不够完善,造成了大量的病毒感染。
美国和全球的LSTM模型曲线趋势与对应的ANN模型曲线趋势一致,即均为J型曲线。但二者的LSTM模型的预测效果均不如ANN模型的预测效果好,与国内的两种模型的曲线对比一致。
4 结 论
通过上述宏观、微观分析,可以得出如下重要结论:
针对国内疫情,新冠感染重灾区分布在祖国中部和东南沿海地区,这些地区均与湖北省接壤和相邻,湖北省的疫情增长速度较快,其他省份增长速度相对平缓。原因在于湖北省武汉市为重大交通中心,全国大部分地区与湖北地区有着商务往来,且湖北地区人口密度较大,造成较多的输入性病例。因此疫情的传播与交通的发达程度和地区人口密度有着不可分割的关系,需要采取的措施为限制部分湖北地区的人口流动,呼吁全国市民居家隔离,以免造成交叉感染。
针对国外疫情,以美国、巴西、印度三个国家最为严重,主要原因在于各个国家政治体制不同,民众对于政府的态度有差异,不配合政府的措施行动,部分国家医疗水平的欠缺,许多国家之间有着业务上的来往,都会造成新冠病毒的扩散。要想从根本上解决这个问题,其他国家需要制定相应的防疫政策,将民众调动起来积极配合政府行动,防止感染进一步扩大。
针对预测结果,ANN模型的训练和预测效果更优于LSTM模型,且两种模型下的国内疫情均呈现S型曲线,而两种模型下的国外疫情均呈现J型曲线,与上述对于新冠感染的分析结果能够很好地对应起来,更加说明了所建立的两种模型的正确性。
参考文献:
[1] 周丹,陈安.时空尺度差异下疫情严重程度的比较研究 [J].科技导报,2020,38(6):103-114.
[2] 张海冰.全球抗击新冠肺炎疫情:国际合作与路径选择 [J].当代世界,2020(5):4-10.
[3] 王金恺,张虎,贾鹏,等.城市级新冠肺炎(COVID-19)疫情预测和仿真模型 [J].计算机辅助设计与图形学学报,2022,34(8):1302-1312.
[4] 张艳霞,李进.基于SIR模型的新冠肺炎疫情传播预测分析 [J].安徽工业大学学报:自然科学版,2020,37(1):94-101.
[5] 白璐,郭佩汶,范晋蓉.湖北省新冠肺炎确诊人数的建模与预测分析 [J].检验检疫学刊,2020,30(2):10-12.
[6] 吴志强,王波.基于组合神经网络模型的新冠疫情传播预测分析 [J].软件导刊,2020,19(10):15-19.
[7] 金啟轩.中国新冠肺炎疫情预测建模与理性评估 [J].统计与决策,2020,36(5):11-14.
[8] 胡文瑜,应康辉.实例层数据清洗技术研究 [J].计算机技术与发展,2022,32(5):22-28.
[9] 张海波,王富强.基于ANN预测模型快速检测改性沥青SBS含量的方法研究 [J].西部交通科技,2020(7):1-3+44.
[10] 李晶晶,张永敏,田桂林,等.基于LSTM神经网络的数据驱动空间负荷预测方法 [J].电子设计工程,2022,30(22):154-157+164.
作者简介:杨芷铭(1997.10—),男,侗族,湖南
怀化人,硕士在读,研究方向:物联网及区块链;谢欧(1996.12—),女,汉族,湖南株洲人,硕士在读,研究方向:复杂系统建模及仿真;谢文武(1979.12—),男,汉族,湖北荆州人,副教授,博士,研究方向:无线通信算法研究。
收稿日期:2023-02-07