基于多维时间序列的南非疫情相似性分析

2020-02-22 03:10张卓妮
现代信息科技 2020年17期
关键词:新型冠状病毒时间序列

摘  要:新冠疫情的发展,给全球多个国家都造成了重大的影响。非洲人口虽然只占全球人口的0.76%,但感染人数却占到了全球确诊人数的4.00%。文章提出了结合倒数欧氏距离,综合相似性分析度量方法来进行多维度时间序列相似性分析的方法,并用全球最新的疫情数据进行了验证。通过实验,文章找到了和南非疫情发展相似的两个大国:中国和英国,这两个国家的疫情治理经验可以供南非参考。

关键词:新型冠状病毒;传染病预测;相似性度量;时间序列

中图分类号:TP311.13      文献标识码:A 文章编号:2096-4706(2020)17-0009-04

Abstract:The development of COVID-19 has had a major impact on countries around the world. Although the population of Africa accounts for only 0.76 percent of the global population,its total confirmed cases accounts for 4.00 percent of the worlds confirmed cases. In this paper,for the research of multi-dimensional time series,a similarity analysis method combining reverse Euclidean distance and integrated similarity analysis measurement is proposed,which is verified by the latest global epidemic data. Through experiments,this paper identifies two large countries,China and the United Kingdom,with similar development of the epidemic in South Africa. The prevention strategies of these two countries can be a reference for South Africa.

Keywords:COVID-19;infectious disease prediction;similarity measure;time series

0  引  言

新型冠狀病毒肺炎是一种新型疾病,可以影响肺部和呼吸道。这种新型病毒叫做2019-nCoV[1],持续到现在,它引发了全球性的感染,根据Worldometer组织提供的数据,全球一共有235个国家及地区,截至2020年7月27日,其中187个国家及地区出现感染新冠病毒的肺炎患者。根据Worldometer组织提供的数据,非洲人口虽然只占全球人口的0.76%,但感染人数却占到了全球确诊人数的4.00%。2020年7月27日WHO六个地区累计确诊总数如图1所示。

用现有的传染病模型(如SIRS、SEIR模型)做拐点预测,但是无法找出和目标国家疫情发展相似的其他国家,从而难以为某个国家提供其他疫情相似国家的治理经验。所以,本文提出一种新的多维度时间序列相似性分析算法,并用于分析南非的疫情数据。

1  南非新冠疫情及相似性分析综述

1.1  南非疫情综述

有关南非疫情的研究文献较少,所以本文参考由南非共和国卫生部创建的COVID-19南非在线门户网站(sacoronavirus. co.za)进行研究,并得出如下结论。

当地时间2020年3月23日,南非总统拉马福萨首次宣布从2020年3月26日至4月16日,为期三周的全国性封锁。南非政府将会对人们的出行进行严格的限制,不允许聚会、家庭探访和其他社交活动。南非政府也关闭了海关,减少从海外流入的病例,并且入境者会被强制隔离。

这些措施不仅减缓了感染率上升并防止了卫生公共设施不堪重负,还给政府留了更多的准备时间以建立广泛的公共卫生应对措施。所以南非政府从2020年6月1日起,将防疫级别从四级下降到三级。南非民众可以在任何时间独自外出运动,并且购买商品和享受各种服务,聚集性活动依然不被允许,除了葬礼和工作场合可以进行少于50人的聚集性活动。并且民众在公共场所或者乘坐公共交通时,要使用口罩去遮盖住鼻子和嘴巴,以及要保持1.5米的社交距离。

2020年7月12日,由于一些南非民众无视规矩,举办了超过1 000参与人数的葬礼和其他聚集性活动,疫情日趋严重,多地医院已不堪重负,所以南非重新开启宵禁。南非总统拉马福萨表示,南非目前正处于疫情激增期,全国灾难状态延长至8月15日,实行不提升防疫级别的加强版三级防疫措施,会加强民众佩戴口罩的规定,雇主、商店老板和经理、公共交通运营商和任何其他公共建筑的经理和业主现在都有法律义务确保任何人进入他们的场所或车辆必须戴口罩,宵禁将于2020年7月13日9点开始实施。

1.2  疫情相似性分析综述

在传染病预测上,各种数学模型被提出。经典的基于复杂网络的传染病传播模型有SIR模型、SI模型、SEIR模型、SIS模型[2];基于机器学习算法的模型有贝叶斯方法[3,4]、支持向量机算法[5,6]。有的研究应用基于分割K-最近邻算法对上海市疾病预防控制中心的腹泻数据进行预测[7],只考虑了同地区不同年份相同月份的数据相似性,导致预测需要一个地区大量的过去数据作为基础。这些方法存在以下不足:

(1)无法通过现有的传染病模型做疫情传播共性的研究。

(2)现有传染病模型需要设置/调节的参数很多,而很多参数往往是难以测量的,导致模型精度和现实情况有差距。

(3)现有的传染病模型需要在疫情发展一段时间后监测到大量数据才能建模,耗费的监测时间比较长,无法在疫情发展初期或数据不足的情况下就开始建模分析。

针对以上不足,本文提出基于全球多维度疫情数据结合倒数欧氏距离、塔尼莫特系数和余弦系数的相似性判断分析方法。

2  相似性分析流程

2.1  数据来源

数据来源于Worldometer组织提供的数据,Worldometer是由一个由开发人员、研究人员和志愿者组成的国际团队运行,没有与任何的政府、政治体制和公司有任何联系的组织。该组织从官方报告和政府传播渠道直接收集数据和通过当地媒体间接收集数据。Worldometer能够及时更新来自5 000多个来源的不断更新的数据,再通过程序清理和保存数据。

该组织提供了很多与COIVD-19有关的数据,在本论文中的我们使用了其中的“Country wise day to day cases dataset”数据集。本数据的格式是CSV,大小为3.15 MB,数据每天更新,截至投稿日期,本文使用的数据范围是2020年1月22日到2020年7月27日。数据来自187个国家或者地区,它们被分为6个WHO地区分部,而南非与其他47个国家属于WHO地区分部之一的非洲地区。南非的疫情数据更新起始于2020年1月22日,终止于2020年7月27日;一共有188条记录。疫情数据包括国家、经纬度、所属WHO地区、累积确诊人数、现存确诊人数、死亡人数和治愈人数。

2.2  相似性分析过程

本文提出的相似性分析过程如图2所示。

图中各个步骤分别完成了如下任务:

(1)获取数据:从Worldometers获取原始数据,并用Python解析数据。

(2)预处理:获取大国数据,省市数据合并,剔除无记录日期数据。由于疫情各国发展情况(开始时间,数据记录起始点)不同,所以将各个国家的数据的起始值的时间平移对齐后,再对各国进行相似性分析。

(3)增长率序列:本文提出使用增长率序列来进行疫情趋势分析,剔除了数据单位本身的影响,更能找到数据背后的发展趋势。

(4)综合相似度分析:综合多个数据维度,以及多个相似度测量指标,进行数据分析。

3  相似性分析算法

3.1  增长率序列

为了让南非借鉴其他大国的疫情治理经验,应该按照疫情发展趋势的相似度来做相似性评价,所以本文将每日疫情数据序列转换为疫情增长率序列。

每日疫情数据序列为离散时间序列为:

其中S表示时间序列;ai,i∈(1,2,3,…,n)表示每日的疫情数据。本文一共使用了四个时间序列,分别为累计确诊、累计死亡、累计治愈、现存确诊。

疫情增长率序列定义:

其中R表示增长率序列;bi表示每日比昨日的疫情数据的增长率。

3.2  相似性指标

本文使用三个相似性指标,分别为倒数欧氏距离、余弦系数、塔尼莫特系数。

倒数欧式距离公式如下,X和Y是两个增长率序列,欧式距离是i维空间中两个点之间的真实距离,而倒数欧式距离便是欧氏距离的倒数。当倒数欧式距离越接近于1,则表明这两个序列越相似。

余弦系数的计算公式如下,cos(θ)通过计算两个向量夹角的余弦值,来衡量它们的相似性,它的取值范围是[0,1],当它越接近1,则表明这两个向量越相似。

塔尼莫特系数的计算结果取值范围是[0,1],其越接近1,说明两个序列越相似。

3.3  综合相似性评价

每个国家有四个不同的增长率序列,为了求两个国家之间的相似度,本文计算出两个国家对应的增长率序列的倒数欧氏距离、余弦系数和塔尼莫特系数,并求出四个不同的增长率序列的这些值的平均值。由于三个系数的取值范围都是[0,1],且都是取值越接近1说明两个序列越相似,所以本文使用的最后的相似性是这三个系数平均值的平均值。

如表1所示,Sac1、Sac2、Sac3和Sac4是国家1的四个维度的不同的增长率序列,Scn1、Scn2、Scn3和Scn4是国家2的四个维度的不同的增长率序列。

表1  实验中使用的数据集的例子

具體计算过程分为以下4个步骤:

(1)计算两个国家的四个不同增长率序列的余弦系数的平均数。

(2)计算两个国家的四个不同增长率序列的倒数欧氏距离的平均值。

(3)计算两个国家的四个不同增长率序列的塔尼莫特系数的平均值。

(4)计算以上三个相似性度量平均值的平均值,得到两个国家的综合相似性。

4  实验

本文分别用南非与中国、美国、加拿大、法国和英国这些国家在不同维度上,使用不同的相似度评价指标进行相似度对比。将各个国家的数据的起始值的时间平移对齐后,得到的数据如图3所示。

从图3中可以看出,原始数据时间序列曲线图难以看出各国的增长趋势与不同国家的相似度。但是通过增长率序列,就更容易看出增长趋势。

从累计死亡这个维度来看,南非的增长率序列与法国相似度更高;但是从现存确诊这个维度来看,南非的增长率序列与中国相似度更高。因此,不能单纯根据一个维度来判断相似度,所以本文提出综合相似度评价指标,它能综合多个相似性指标进行更准确的相似性度量,根据计算,中国和南非的相似度最高。

5  结  论

本文提出了基于多维时间序列综合相似性度量的南非疫情数据分析算法,并根据最新的全球疫情数据,对南非与全球其他国家的疫情发展相似性进行了分析。实验验证了本文算法的有效性,并找出了与南非疫情发展趋势比较相似的一些大国,这些大国的疫情治理经验,可以为南非提供指导。

参考文献:

[1] 靳英辉,蔡林,程真顺,等.新型冠状病毒(2019-nCoV)感染的肺炎诊疗快速建议指南(标准版) [J].解放军医学杂志,2020,45(1):1-20.

[2] ANDERSON R M,MAY R M. Infectious Diseases of Humans:Dynamics and Control [M]. Oxford:Oxford University Press,1992.

[3] LEE S D,KIM D. Bayesian Inferences and Forecasting in Spatial Time Series Models [C]//2010 Ninth International Conference on Machine Learning and Applications,Washington,D.C.:IEEE,2010:767-770.

[4] 冀俊忠,刘椿年,沙志强.贝叶斯网模型的学习、推理和应用 [J].计算机工程与应用,2003(5):24-27+47.

[5] GHALWASH M F,RAMLJAK D,OBRADOVI? Z. Early classification of multivariate time series using a hybrid HMM/SVM model [C]// 2012 IEEE International Conference on Bioinformatics and Biomedicine. Philadelphia:IEEE,2012:1-6.

[6] 許朝霞,王忆勤,颜建军,等.基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究 [J].北京中医药大学学报,2011,34(8):539-543.

[7] 相晓敏,顾君忠,王永明.一种基于分割K-最近邻算法的传染病预测方法 [J].计算机工程,2016,42(1):163-167.

作者简介:张卓妮(2001—),女,汉族,湖南临湘人,本科,研究方向:大数据。

猜你喜欢
新型冠状病毒时间序列
从疫情到舆情
突发性公共卫生事件:政府与公众的变与不变
突发公共卫生事件中的药物使用法规依据
疫情防控下的高校网上财务管理思考
“新型冠状病毒”该如何防治
传染病信息披露制度的法律建构与反思
上证综指收益率的影响因素分析
基于指数平滑的电站设备故障时间序列预测研究
基于时间序列的我国人均GDP分析与预测
基于线性散列索引的时间序列查询方法研究