基于CIST-GCN的流行病数据分析与预测

2022-10-15 13:17何宇浩郑贤伟
现代信息科技 2022年14期
关键词:卷积节点病例

何宇浩,郑贤伟

(佛山科学技术学院 数学与大数据学院,广东 佛山 528225)

0 引 言

自2019年12月以来,武汉爆发的COVID-19 疫情由于春节人口流动快速蔓延,对疫情进行风险分析,评估防控策略的有效性和时效性等具有非常重要的现实意义。

在疫情的预测工作上,国内外早有许多学者做出大量工作。在传统数学建模方向上,兰州大学的黄建平等人(2020)利用其团队30年来在统计-动力气候预测的先进技术,将流行病学模型与实时更新的疫情、气象和环境数据相结合,构建了世界上第一个全球疫情预测系统,较好地预测世界各个国家每日新增确诊病例数的主要特征和长期趋势。王旭艳等(2020)采用平滑指数模型对累计确诊病例数,累计治愈出院病例数,累计死亡病例数,重症病例数及危重症病例数进行拟合和预测,采用该方法的拟合值与实际值的趋势基本吻合。董章功等(2022)基于传统的传染病动力模型SEIR 和差分整合移动平均自回归模型ARIMA 构建的SEIR-ARIMA 混合模型,对不同时间段,不同地点的新冠肺炎疫情做出预测和分析,通过与SEIR-Logistic 混合模型和SEIR-LSTM 混合模型的对比分析得出SEIR-ARIMA 混合模型对新冠肺炎的发展趋势的分析相对可靠,有利于国家面对疫情的科学决策,对我国未来预防其他类型的传染病具有很好的应用价值。在机器学习或深度学习方向上,Nikhil等(2021)提出了一个基于多项式的线性回归模型,使用过去几个月的数据根据当前情况预测未来的数据,该模型对2021年1月的病例进行了预测,经Wordometer.com 上的实际数据验证,准确率为99.29%。杨丽等(2021)提出了一种基于注意力机制的LSTM 网络,即A-LSTM,在大西洋支持的COVID 追踪項目提供的历史数据驱动下,A-LSTM模型进行预测,其RMSE、MAPE、MAE 和R-squared 的评价指标分別為285.89、0.048 2%、230.74 和0.995 4,分別优于其参考的 BPNN 模型。Aarathi S 等(2021)通过使用cox回归选择合适的协变量并将其数据输入 LSTM 模型来预测印度21 天的新COVID-19 病例数,与其他研究相比,当新病例数很高或对其进行长时间预测时,MAPE 较低。Anthony Li等(2021)提出了一种基于LSTM 的新型架构,开发并训练了人类物流数据,包括旅行模式、商业地产的访问,以及历史案例、人口统计和气候数据,为今后利用类似的时间和静态数据预测COVID-19 和其他类似疾病暴发提供了基础。

综上所述,在对新冠肺炎疫情预测的工作中,传统的数学建模方法与机器学习或深度学习方法更多的是对序列数据本身建模,或者融合其他传染病的传播模型对COVID-19 的传播进行仿真实验,从而对新冠肺炎疫情的未来发展进行拟合或模拟预测,这些方法某种程度上忽略了肺炎病毒的流动性,不能充分考虑各城市之间人员流动对病毒传播造成的影响。为此,本文在YU Zehua 等(2021)的工作基础上,提出了相关度交互图卷积网络(Correlation-Interactive Spatio-Temporal Graph Convolutional Networks,CIST-GCN)根据各城市之间的物理距离进行城市网络拓扑构建,并且利用各城市的日感染人数变化计算新冠肺炎病毒在不同城市间的传播相似度,并对拓扑图进行加权处理,最后利用时空图卷积网络(ST-GCN)处理城市网络的空间特征,并对城市的疫情发展状况进行预测。

1 研究方法

实验中以各个城市作为节点,首先根据各节点之间的物理距离构建拓扑图,再根据每个节点的日增感染人数计算每个城市之间的病毒传播相似系数,对拓扑图进行加权处理,最后利用时空图卷积网络(ST-GCN)处理城市网络的空间特征,并对城市的疫情发展状况进行预测。在计算过程中,为了统一计算量纲,会对原始数据进行归一化处理,所以最后需要对预测数据进行数据还原处理,具体流程图如图1所示。

图1 实验流程图

1.1 图卷积

传统的信号处理方法与卷积神经网络并不能很好地处理图结构信息,图结构的卷积网络从卷积方式上可以分为两种:(1)谱卷积;(2)空间域卷积。参考于Thomas Kpif与YU Zehua 等的工作,本文采用的是谱卷积的方式。将图的谱卷积定义为信号∈R与图核的乘积,将*定义为图的卷积算子:

其中图傅里叶基∈R是归一化图拉普拉斯矩阵的特征向量组成的矩阵,图拉普拉斯矩阵表示为:

在传统GNN 网络中,节点之间的Dijkstra 矩阵(邻接矩阵)W被如下定义:

其中d是节点和节点的物理距离,到此可以看出,传统的图卷积操作只考虑了节点之间的几何关系,即物理距离,而没有考虑其他的交互关系。在Zehua Yu 等的工作中,利用每个节点的疫情发展状况对其进行ARMA 参数求解,利用所得结果替代距离矩阵W,最终效果优于传统的ST-GCN 模型。本实验将在该方向上进一步研究优化。

1.2 时间序列预测

将疫情发展状况预测看作时间序列下的数据流预测,则其主要问题为:

即求得在已知-+1 到时间点内的疫情发展状况,求+1 到+时间点的疫情发展状况。特别的,在本实验中,v为33 个城市在时间的累积确诊人数,而W为融合各城市间物理距离与病毒传播相似度的混合矩阵。

1.3 CIST-GCN

1.3.1 数据预处理

其中为地球半径,利用勾股定理与正弦定理则可求出AB 两点间的物理直线距离d。计算出33 个城市相互之间的物理距离后,则可以进一步计算出每个节点的邻接矩阵,CIST-GCN 中邻接矩阵W的计算方式如下:

在本实验中,和是控制矩阵W的分布和稀疏性的阈值,根据前人实验的经验,分别设置为10 和0.5。

1.3.2 Person 相关系数

由于病毒具有极高的传染性,假设某人从城市A 到城市B 的途中确诊为新冠肺炎阳性患者,则不论是城市A 还是城市B,与该患者密切接触的人群都有极高的概率感染新冠肺炎病毒,所以城市A 与城市B 的确诊人数会同步上升,意味着这两个城市的感染人数变化呈正相关且相关系数较高。鉴于此,为了充分考虑各城市之间的数据流动性,本实验在构建城市空间网络时,融合由各城市确诊人数变化计算而来的Person 相关系数矩阵,作为带权无向图的权重考虑因子之一。

计算出每个城市之间新冠肺炎病毒的传播相关度矩阵后,与1.3.1 求出的邻接矩阵W进行加权融合,所得矩阵作为各城市之间的权重构建带权无向图,将该带权无向图作为ST-GCN 的输入,即为本文所提出的相关度交互图卷积网络(CIST-GCN)。

1.3.3 预测

在ST-GCN中,每个时空图卷积块形成一个类似“三明治”的结构,包括两个门控序列卷积层和一个空间图卷积层。

1.3.4 数据还原

将每个节点的预测结果与其标准差相乘,再加上均值,即可将数据还原为原量纲。

本文所提出的CIST-GCN 的主要特征总结如下:

(1)将时间序列数据根据节点的空间结构建模为拓扑图,并预测图的序列数据,CIST-GCN 在没有固定空间关系的情况下通常是有效的;

(2)CIST-GCN 充分考虑了城市的空间结构与各城市之间的数据流动性。

2 数据说明

交通数据和Covid-19 报告数据都是经过处理的具有多交互拓扑结构的序列数据,本实验在对疫情数据进行预测前,先用加州交通部收集的公认交通数据集PeMS-Bay(加州海湾区)和PeMSD7(洛杉矶)对模型进行检验。

PeMS:该数据通过300 多个(PeMS-Bay)和39 000 个(PeMSD7)传感器站从Caltrans 性能测量系统(PeMS)实时收集,这些传感器每五分钟记录一次平均交通速度。对于PeMSD7,本实验随机选择了228 个站作为模型的训练目标。

Covid-19 报告:来自约翰霍普金斯大学系统科学与工程中心(CSSE)整合的病例报告展示了所有受影响国家的Covid-19 确诊病例,死亡和康复人数以及各城市的经纬度位置。本实验提取了这些病例报告中的我国34 个省级行政区2020年1月22日—2022年3月9日的病例数据及其省会的经纬度坐标,但在数据处理的过程中,发现有一个城市的数据有缺失,所以本实验删除了该城市,仅对其他33 个城市的数据进行分析。

3 实验结果

本文所有实验均由Python 编译器在Windows10 环境(CPU:Intel(R) i5-9300 GPU:NVIDIA GeForce GTX 1650)上进行。

对于PeMS 交通流数据,选取前34 天作为训练数据,其余作为验证和测试集,遵循ST-GCN中的设置作为训练参数,使用12 个观察点来预测未来15、30 和45 分钟(=3,6,9)的交通状况。以传统的ST-GCN 作为基线,并且在与PeMSD7 数据集上与IT-GCN进行性能对比,实验结果如表1所示。

表1 数据集PeMSD7 和PeMS-Bay 在不同方法上的性能比较

表中CIST-GCN(*)即为本文提出的方法。ACSTGCN,为仅考虑相关度的方法,即仅用不同城市间的数据流变化相关度作为城市网络的权重,而不考虑城市间的物理距离,ST-GCN 则只考虑城市间的物理距离,而不考虑城市间数据流变化的相关度。

可以看出,在相同的资源消耗下,CIST-GCN 的性能明显优于ACST-GCN 与基线ST-GCN,而在PeMSD7 数据集上,CIST-GCN 仅比IT-GCN多训练了10 轮,性能就有了大幅提升。结果表明,本文提出的用相关度交互拓扑替换物理距离的方法是有效且合理的,为疫情的预测提供了有效的参考。

4 国内疫情预测

接下来,将CIST-GCN 方法用于国内的Covid-19 报告数据中,分析该方法对疫情的预测效果。

本实验利用12 天的日累计感染病例历史数据预测后9天的日累计感染病例数据。图2展示了ST-GCN、ACSTGCN 和CIST-GCN 于24 天内在33 个城市中预测结果的平均MAPE。CIST-GCN 的平均MAPE 为20.12%,远优于传统ST-GCN 的121.99%。由图2可以发现,中国台北的平均MAPE 远超于其他城市,观察数据后发现,中国台北的病例均为0 和1,原因可能如下:(1)在研究的时间段内中国台北始终没有新增病例;(2)对中国台北的数据进行收集时出现了错误或者没有对中国台北的病例数据进行收集。同时可以发现,ST-GCN 容易受离群数据的影响,而本文提出的CIST-GCN 方法则可以很好地避免这种数据带来的影响。接下来将讨论这些方法对北京、上海、广东、香港和湖北的疫情预测效果。

图2 中国33 个城市每日确诊感染病例预测的MAPE

由图3可以观察预测数据与真实数据的趋势是否契合,可以看出,三种方法中,本文提出的CIST-GCN 与真实数据的趋势最契合。特别地,对于“突增”的案例数据,CISTGCN 相对于其他方法更能判断出“突增点”。另外,在香港数据的末段,日新增病例数量突增,与2022年初香港的疫情大爆发基本吻合,同时本文提出的CIST-GCN 方法预测的疫情趋势也呈现出明显的上升趋势,可见该方法对新冠肺炎疫情的预测以及疫情突发状况的预警起到了一定的参考作用。

图3 各种方法在中国个别城市的预测效果

5 结 论

本文在YU Zehua 等(2021)的工作基础上,提出了相关度交互图卷积网络(CIST-GCN)根据各城市之间的物理距离进行城市网络拓扑构建,并且利用各城市的日感染人数变化计算病毒在不同城市间的传播相似度,以此对拓扑图进行加权处理,最后利用时空图卷积网络(ST-GCN)处理城市网络的空间特征,并对城市的疫情发展状况进行预测。实验结果表明,本文提出的CIST-GCN 性能优于传统的STGCN 以及YU Zehua 等提出的基于时间交互的IT-GCN,并且对于疫情发展的“突增点”比较敏感,对新冠肺炎疫情的预测以及疫情突发状况的预警起到了一定的参考作用。

猜你喜欢
卷积节点病例
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
“病例”和“病历”
基于移动汇聚节点和分簇的改进节能路由算法
本土现有确诊病例降至10例以下
基于深度卷积网络与空洞卷积融合的人群计数
CAE软件操作小百科(48)
基于点权的混合K-shell关键节点识别方法
卷积神经网络概述
妊娠期甲亢合并胎儿甲状腺肿大一例报告