常万杰,刘琳琳,曹宇,曹杨,魏海平
基于Informer算法的病毒传播预测研究
常万杰,刘琳琳,曹宇,曹杨,魏海平
(辽宁石油化工大学 信息与控制工程学院,辽宁 抚顺 113001)
新冠肺炎病毒等疫情受多种复杂现实因素的影响,因此疫情的发展存在不确定性。为了解决基于传染病仓室模型受自身诸多理想假设条件的限制而导致疫情预测结果误差较大的问题,采用基于深度学习的时序预测模型对疫情发展进行预测,建立了一种基于Transformer模型的Informer模型,并将注意力机制和蒸馏机制应用到疫情数据的时序预测中。以门限自回归(Threshold AutoRegressive, TAR)模型和多种主流的循环神经类时序预测模型作为对比模型,通过仿真实验,对中国、美国和英国的疫情数据当前尚存感染人数进行短期预测,并以均方根误差(RMSE)和平均绝对误差(MAE)为评价指标,选择最佳模型进行了中长期的预测。结果表明,无论是RMSE还是MAE,Informer模型的指标值都是最优的,表明Informer模型对中国、美国和英国疫情的预测精度比其他对比模型高。最后,使用Informer模型对中国、美国和英国的疫情发展进行了中长期预测。
新冠肺炎病毒疫情; 门限自回归; 长短期记忆网络; 卷积记忆网络; 门控循环单元网络; 时序卷积网络; Informer算法
2019年底爆发的新冠肺炎病毒(COVID⁃19)疫情给人们的生命健康和财产安全带来了严重威胁。各个国家为积极应对此重大突发事件,对COVID⁃19疫情的发展趋势进行了深入研究。对COVID⁃19疫情的预测主要包括两个方面:一是对此次传染病建立基于传染病动力学的仓室模型。通过建立仓室模型进行动态建模描述,模拟疾病流行过程,分析其传播趋势。仓室模型包括传统的SIS模型、SIR模型、SEIR模型以及一些基于传统模型的改进模型。白宁等[1]针对湖北的疫情传播建立了非自治的动力学模型,揭示了在疫情发展中对感染者进行有效隔离是控制疫情的最有效措施。H.GARG等[2]采用SIR疫情模型的离散时间模型,对世界不同区域若干国家的COVID⁃19疫情数据进行收集、组织、分析。喻孜等[3]建立了SIR模型,结合时变参数对国内疫情开始到2020年2月1日疫情发展的初期进行了预测,研究了感染人数的变化趋势,并分析了政府防控措施对疫情发展趋势产生的影响。结果表明,政府的防控措施有效降低了病毒蔓延趋势。赵鑫等[4]提出一种基于SEIR模型改进的传染病动力学CSEIR模型,在传统SEIR模型的基础上增加了潜伏追踪入院和发病追踪入院的传播流程以刻画疫情发展趋势。结果表明,CSEIR模型更加有效地模拟了疫情发展的传播机理,模型预测结果与疫情发展的实际情况相一致。
二是从数据的角度出发,对疫情数据进行时序预测,包括多种时序预测的方法,如传统的时序预测模型ARIMA、Logistics回归树模型以及多种神经网络模型。任晓龙等[5]建立Logistics回归树模型对美国新冠疫情确诊人数进行了数值预测。结果表明,在美国疫情发展的前中期,Logistics回归树模型的拟合预测值与实际确诊情况基本吻合。李少亭等[6]将基于树模型的组合模型XGBoost应用于新冠疫情的预测。F.SHAHID等[7]使用LSTM、GRU和Bi⁃LSTM三种RNN类网络对受COVID⁃19疫情影响较大的10个国家的确诊病例、死亡和康复情况进行了预测。结果表明,在大多数情况下,Bi⁃LSTM效果较佳,可用于大流行预测。当前,还有许多学者将注意力机制运用到时序预测方面。X.L.ZHU等[8]建立一种基于注意力的递归神经网络,有针对性地解决了广州流感疫情预报的实际问题。N.WU等[9]建立基于注意力机制的Transformer模型,对流感样疾病(ILI)进行了时序预测;在与之前预测结果最好的其他模型比较后发现,Transformer模型具有极强的竞争力。
此外,还有一些学者尝试将传统的仓室模型和网络预测模型结合起来。甘雨等[10]将LSTM网络和SEIR模型结合,建立LSTM⁃SEIR模型并对疫情进行了有效预测。结果表明,其预测效果优于传统的SEIR模型。考虑到传染病动力学的仓室模型存在假设条件过多、对实际环境要求过于理想化、缺乏对复杂环境因素的考虑等诸多限制[11],本文从时序预测的角度出发对疫情进行预测,提出了一种改进Informer模型,该模型使用ProbSpare Self⁃attention注意力机制、网络层间蒸馏机制以及残差连接,解决Transformer模型在时序预测方面的不足。
中国、美国和英国的当前确诊感染人数的预测数据来自国家卫健委,所获取的数据是从疫情开始截止到2022年2月10日。3个国家疫情开始的时间不是同步的。中国的数据是从2020年1月19日开始,共750 d;美国的数据是从2020年1月23日开始,共746 d;英国的数据是从2020年2月1日开始,共738 d。3个国家确诊感染病例数据,需要进一步预处理。
在对中国、美国和英国当前尚存的感染人数进行预测时,考虑到疫情的发展存在不稳定和不可控的情况,可能会导致数据的波动性较大,对模型的预测带来不利的影响,所以对数据进行归一化处理,使数据被限定在一定的范围,将数据压缩到[0,1]。
在进行数据归一化处理后,对时序数据做基于时间窗口的样本划分,通过移动步长得到符合模型的数据。对尚存的感染者病例的数据做时间窗口处理时,以短期预测1 d为例,时间窗口值设置为8,窗口的前7个数据作为特征值,最后1个数据作为预测值,即利用前7 d的数据预测第8天的数据,窗口移动步长为1。时间窗口划分示意图如图1所示。
以数据的前80%作为训练集,剩余的20%作为测试集。在测试集上,计算RMSE和MAE,并将其作为判断模型优劣的标准。
对建立的Informer模型以及对比模型(TAR模型、LSTM模型、ConvLSTM模型、GRU模型和TCN模型)的整体架构和模型中的具体参数进行详细介绍。
长短期记忆网络(LSTM)属于RNN类网络,可解决RNN网络的“长期依赖”和“梯度消失/爆炸”的问题,是使用深度学习处理时序问题时最常用的模型之一。LSTM网络包括三个门结构:遗忘门、输入门和输出门。各个门的数学表达式见式(2)-(7)。
遗忘门:
输入门:
输出门:
LSTM单元结构图如图2所示。针对中国、美国和英国建立的LSTM网络结构包括一层LSTM,隐藏层神经元个数为64,经过LSTM层后接三层全连接层,神经元个数分别为32、16、8,最后输出神经元个数为1。以测试集的MSE作为损失函数,训练时使用Adam算法进行优化。
卷积长短期记忆网络(ConvLSTM)模型将卷积操作引入LSTM中,不仅可以像LSTM一样建立时序关系,而且可以通过卷积来学习空间特征。ConvLSTM的核心本质与LSTM相近,同样包括遗忘门、输入门和输出门,均是将上一层的输出作为下一层的输入,不同之处在于ConvLSTM网络加上了卷积操作,直接使用卷积作为读取LSTM单元输入的一部分,并且状态与状态之间的切换也换成了卷积计算,这样不仅能够得到时序关系,还能够通过卷积提取空间特征,属于时空深度学习,其模型的数学表达式见式(8)-(11)。
此次基于ConvLSTM模型的疫情预测任务是将14 d的数据划分成两个子序列,每个子序列的长度为7。ConvLSTM可以一次读取两个子序列的数据,并对每个子序列的数据执行卷积操作。每一子序列卷积操作的卷积核为(1,3),卷积核个数为128,LSTM层神经元个数为128。对LSTM的输出接上一个全连接层,该全连接层包括含有64个神经元的隐藏层和一个神经元的输出层。该网络采用线性修正函数(Relu)作为输出函数,采用自适应矩估计(Adam)作为训练机制。
门控循环单元网络(GRU)是LSTM网络的一个变体,主要有两个状态门组成:更新门和重置门。其中,更新门由遗忘门和输入门组成,用于控制前一时刻的状态信息被带入当前状态的程度,决定要将多少的历史信息传递到“未来”;重置门决定如何将新的输入信息与前面的“记忆”相结合。该模型可弥补LSTM网络参数过多、计算复杂的不足,预测任务的效果也很好。该模型的数学表达式见式(12)-(15)。
更新门:
重置门:
本文所建立的GRU网络结构包括GRU层,其隐藏层个数为64,两个全连接层,神经元个数分别为32和16,最后连接一个神经元的输出层。网络中的非线性函数使用LeakyReLU函数,参数的取值为0.3,以Nadam优化算法训练网络。
时序卷积网络(TCN)是一种将因果卷积和空洞卷积结合的神经网络模型,由因果卷积、空洞卷积和残差模块组成。采用空洞卷积使网络可以了解更早的“历史”,提供广阔的视野域,具有更强的记忆能力。
图3 GRU单元结构图
因果卷积:与传统的卷积神经网络不同的是,因果卷积不能看到未来的数据,只依赖于之前的数据,属于一种严格的时间约束模型。
空洞卷积:空洞卷积即膨胀卷积。在因果卷积中若要获取较久的历史信息,对长时间序列进行预测,受限于卷积核的大小需要线性堆叠多层,从而增加了模型参数数量和模型的复杂度。空洞卷积允许在卷积时对输入的时间序列数据存在间隔采样,参数(dilatation rate,扩张率)控制输入数据的采样间隔,即每个点采样一次作为输入。在TCN网络中随着网络层数呈指数增长,即随着网络层数的增加序列窗口呈指数级增长,实现使用较少的层获得较大的感受野。
残差连接:在深层的网络中,存在传统网络的一些缺陷(梯度消失/爆炸、容易过拟合等)。残差连接可以优化这些缺陷,使每层之间可以跳跃式地传递信息,有效地解决深层网络在训练时存在的问题。TCN网络中的一个残差块由两个一维卷积层和ReLU激活函数映射组成。TCN网络的残差模块示意图如图4所示。
针对COVID⁃19疫情建立的TCN网络预测模型结构包括一维卷积核,其大小为3,时间窗口为7,卷积核个数为8,空洞因子为[1,2],经过TCN层后连输出层,以MAE为损失函数,采用Adam优化算法训练网络。
Informer整体架构与Transformer架构相似,仍采用Encoder⁃Decoder结构。Encoder是将输入序列的信息压缩到一个固定的向量中,而Decoder是则将压缩后向量再转换成一个固定维度的向量。该模型的输入包括三个部分:标量投影,对输入的时序数据标量化处理;本地时间戳,对应于Transformer中的位置编码,保证数据间的时序关系;全局时间戳,表示数据的层次时序信息(年、月和星期等)和突发性时间信息(节假日和突发事件)等。
图4 TCN网络的残差模块示意图
Informer模型的结构图如图5所示。其中,时间窗口为7,预测步长为1,中长期预测时预测步长为。
Informer模型相对于Transformer模型的改进是将Self⁃attention自注意力机制替换为新提出的ProbSpare self⁃attention注意力机制,在多个attention层叠加时引入蒸馏机制。
ProbSpare self⁃attention:Transformer模型中的self⁃attention是根据3个输入(Query、Key、Value),使用Dot⁃Product计算输入的注意力矩阵,如式(16)所示。
图5 Informer模型的结构图
ProbSpare self⁃attention算法流程如下:
①为每个Query值随机采样定量的Key值;
④仅计算个Query值和所有Key的点积,从而得到注意力分数(attention score;
⑤其他的Query值对应的得分(score)是将self⁃attention层的输入取均值(mean()),以保证输入和输出序列长度一致。
Self⁃attention蒸馏机制:在每经过一层ProbSpare self⁃attention,每个位置输出就获取其他位置的信息。为了减少计算量,提高网络效率,避免冗余计算,适当较少输出序列的长度对深度网络来说至关重要。Self⁃attention蒸馏机制的本质就是在每经过一层ProbSpare self⁃attention后进行一次一维卷积(Conv1D)和最大池化(maxpooling)操作。
对中国、美国和英国的疫情数据建立多个预测模型,将预测结果可视化并以RMSE和MAE这两个指标进行模型对比,得到适合这3个国家的预测模型,最后使用最佳模型进行未来较长时间的预测。
分别对中国、美国和英国的预测结果做可视化,显示包括真实疫情数据分布情况、每个模型在疫情数据训练集上的拟合情况以及在测试集上的拟合情况。
3.1.1 中国疫情预测结果
使用TRA、LSTM、ConvLSTM、GRU、TCN和Informer模型,分别对中国疫情中当前尚存的确诊人数进行短期预测,结果如图6所示。
图6 中国疫情短期预测结果
由图6可以看出,以上模型都有不错的表现,主要是由于中国的疫情发展在可控制范围之内,不存在较大失控的状况,因此数据变化较为平稳,预测难度相对较小。但是,在疫情发展到500 d左右时有一个离值跳跃点,相比其他模型,Informer模型在这点附近的预测结果相对平滑。
3.1.2 美国疫情预测结果
使用TRA、LSTM、ConvLSTM、GRU、TCN和Informer模型,分别对美国疫情中当前尚存的确诊人数进行短期预测,结果如图7所示。
由图7可知,对美国的预测效果不如对中国的预测效果,其原因在于美国的疫情发展存在失控现象,数据不平滑,在疫情发展到约390 d时有一个极端跳跃点,预测模型不能很好地学习到这个突变点。
3.1.3 英国疫情预测结果
使用TRA、LSTM、ConvLSTM、GRU、TCN和Informer模型,分别对英国疫情中当前尚存的确诊人数进行了短期预测,结果见图8。由图8可以看出,GRU和Informer模型预测效果相对较好,并且测试集部分Informer模型相比前者更佳。
表1为不同模型预测的RMSE值和MAE值。由表1可知,Informer模型的RMSE值和MAE值相比其他模型小,预测效果好。
在使用以上预测模型对中国、美国和英国的疫情进行的短期预测中,Informer模型表现最佳。为了进一步提高模型的实用价值,对中国、美国和英国的疫情数据在Informer模型上做较长时间的预测,分别做未来7 d和未来14 d的预测,其评价指标依然使用RMSE值和MAE值。
3.3.1 Informer模型7 d预测结果
使用Informer模型对中国、美国和英国的疫情做未来7 d的预测,结果如图9所示。同时,计算了3个国家的RMSE值和MAE值。结果表明,中国、美国和英国的RMSE值分别为0.005 942、0.006 537、0.006 308,MAE值分别为0.004 267、0.004 598、0.004 203。由RMSE值和MAE值可以看出,7 d的预测效果相比短期Informer预测效果差,但整体看预测效果还是不错的。
图7 美国疫情短期预测结果
图8 英国疫情短期预测结果
表1 不同模型预测的RMSE值和MAE值
3.3.2 Informer模型14 d预测结果
图9 Informer模型未来7 d预测结果
使用Informer模型,对中国、美国和英国的疫情做未来14 d的预测,结果如图10所示。同时,计算了3个国家的RMSE值和MAE值。结果表明,中国、美国和英国的RMSE值分别为0.008 542、0.012 682、0.253 155,MAE值分别为0.006 478、0.010 067、0.130 288。由RMSE值和MAE值可以看出,进行14 d的预测产生的误差相对7 d预测产生的误差大,这也验证了长期预测由于存在误差累积,导致预测准确性降低的事实。但是,从14 d预测结果的整体来看,还是能够比较准确地预测疫情的发展趋势。
图10 Informer模型未来14 d预测结果
使用TAR、LSTM、ConvLSTM、GRU、TCN和Informer多种模型,对中国、美国和英国疫情中尚存的感染病例进行了预测。结果表明,带有注意力机制的Informer模型对时序疫情数据具有更好的表现,说明带有注意力机制的Informer模型更能学习到时序数据之间的重要信息,摒弃其他干扰信息,准确预测数据发展趋势。相比基于注意力机制的Transformer模型,带有注意力机制的Informer模型可极大地减轻模型的复杂度和负担,其性能和效率得到提升。因此,基于Informer模型的新冠疫情预测可以对疫情的发展趋势做相对准确的预测,即使在中长期预测时也能把握住疫情的发展趋势,对政府的疫情防控工作具有指导意义。
[1] 白宁,宋晨玮,徐瑞. 基于动力学模型的COVID⁃19疫情预测与控制策略研究[J]. 应用数学学报, 2020, 43(3): 483⁃493.
BAI N, SONG C W, XU R. Predicting the trend and evaluating control strategies of COVID⁃19 based on a dynamical model[J]. Acta Mathematicae Applicatae Sinica, 2020, 43(3): 483⁃493.
[2] GARG H, NASIR A, JAN N, et al. Mathematical analysis of COVID⁃19 pandemic by using the concept of SIR model[J]. Soft Computing, 2023, 27(6): 3477⁃3491.
[3] 喻孜,张贵清,刘庆珍,等. 基于时变参数⁃SIR模型的COVID⁃19疫情评估和预测[J]. 电子科技大学学报, 2020, 49(3): 357⁃361.
YU Z, ZHANG G Q, LIU Q Z, et al. The outbreak assessment and prediction of COVID⁃19 based on time⁃varying SIR model[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(3): 357⁃361.
[4] 赵鑫,孙更新,赵月. 基于改进的SEIR模型对新冠肺炎的疫情预测及防控措施的评估[J]. 青岛大学学报(自然科学版), 2021, 34(2): 1⁃8.
ZHAO X, SUN G X, ZHAO Y. Prediction of COVID⁃19 outbreak and assessment of prevention and control measures based on improved SEIR model[J]. Journal of Qingdao University (Natural Science Edition), 2021, 34(2): 1⁃8.
[5] 任晓龙,李忠,申天恩,等. Logistic回归模型对美国新冠疫情预测研究[J]. 福建电脑, 2021, 37(4): 47⁃49.
REN X L, LI Z, SHEN T E, et al. Study on the prediction model of COVID⁃19 in the united states based on Logistic regression[J]. Fujian Computer, 2021, 37(4): 47⁃49.
[6] 李少亭,王雪瑞. XGBoost模型在新冠疫情预测中的研究应用[J]. 小型微型计算机系统, 2021, 42(12): 2465⁃2472.
LI S T, WANG X R. Research and application of XGBoost in prediction of novel coronavirus epidemic[J]. Journal of Chinese Computer Systems, 2021, 42(12): 2465⁃2472.
[7] SHAHID F, ZAMEER A, MUNEEB M. Predictions for COVID⁃19 with deep learning models of LSTM, GRU and Bi⁃LSTM[J]. Chaos Solitons & Fractals, 2020, 140: 110212.
[8] ZHU X L, FU B F, YANG Y D, et al. Attention⁃based recurrent neural network for influenza epidemic prediction[J]. BMC Bioinformatics, 2019, 20(Suppl 18): 575.
[9] WU N, GREEN B, BEN X, et al. Deep transformer models for time series forecasting: The influenza prevalence case[EB/OL]. (2020⁃01⁃23)[2022⁃09⁃20]. https://arxiv.org/abs/2001.08317.
[10] 甘雨,吴雨,王建勇. 新冠肺炎疫情趋势预测模型[J]. 智能系统学报, 2021, 16(3): 528⁃536.
GAN Y, WU Y, WANG J Y. Epidemics trend prediction model of COVID⁃19[J]. CAAI Transactions on Intelligent Systems, 2021, 16(3): 528⁃536.
[11] 曹宇. 传染病动力学模型研究[D]. 沈阳:东北大学, 2014.
Research on Virus Propagation Prediction Based on Informer Algorithm
CHANG Wanjie, LIU Linlin, CAO Yu, CAO Yang, WEI Haiping
(School of Information and Control Engineering,Liaoning Petrochemical Univercity, Fushun Liaoning 113001,China)
The COVID⁃19 epidemic is facing the influence of a variety of complex practical factors, which makes the development of the epidemic uncertain. In order to overcome the problem of large error in epidemic forecasting results due to the limitations of many ideal assumptions based on the infectious disease compartment model, a time series forecasting model based on deep learning is adopted to predict the epidemic development, and an informer model based on transformer model is established. Attention mechanism and distillation mechanism are applied to the time series forecasting of epidemic data. The threshold autoregressive (TAR) model and a variety of mainstream recurrent neural time series prediction models are used as comparison models. Through simulation experiments, the current number of remaining infections in the epidemic data of China, America and Britain is predicted in the short term, and RMSE and MAE are used as evaluation indicators, and then the best model is selected for medium ⁃ and long⁃term prediction. The experimental results show that the indicator value of the informer model is optimal in both RMSE and MAE, further indicating that the prediction accuracy of the informer model is higher than that of other comparative models in China, America and Britain. Finally, the Informer model is used for the development of the epidemic in China,America and Britain medium and long⁃term prediction.
COVID⁃19; Threshold autoregressive (TAR); Long short⁃term memory (LSTM); Convolutional long short⁃term memory (ConvLSTM); Gated recurrent unit (GRU); Temporal convolutional network (TCN); Informer algorithm
TP389.1
A
10.12422/j.issn.1672⁃6952.2024.01.012
2023⁃05⁃11
2023⁃05⁃28
辽宁省应用基础研究计划项目(2022JH2/101300272)。
常万杰(1996⁃),男,硕士研究生,从事机器学习、深度学习算法开发与应用方面的研究;E⁃mail:819769597@qq.com。
刘琳琳(1981⁃),女,博士,讲师,从事信号处理与分析、大数据分析等方面的研究;E⁃mail:d1198182@163.com。
常万杰,刘琳琳,曹宇,等.基于Informer算法的病毒传播预测研究[J].辽宁石油化工大学学报,2024,44(1):80-88.
CHANG Wanjie,LIU Linlin,CAO Yu,et al.Research on Virus Propagation Prediction Based on Informer Algorithm[J].Journal of Liaoning Petrochemical University,2024,44(1):80-88.
(编辑 张 芳)