COVID-19数据可视化及预测分析

2020-06-08 01:24大学生创新创业课题组
现代信息科技 2020年19期
关键词:病例肺炎模型

大学生创新创业课题组

摘  要:COVID-19(新型冠狀病毒)是新型的严重呼吸系统疾病。从2019年12月开始在中国武汉开始大范围暴发传播,当时正值春运,全国处于人口流动高峰期,给病毒传播提供有利条件,对中国人民的人身安全造成了严重的威胁,给社会经济带来了巨大的损失。文章对COVID-19疫情的发展进行了研究,其目的是通过编写爬虫,从国家卫健委及各省卫健委收集相关数据,将数据可视化来展示病毒传播特点,分析病毒传播的特征和模式,通过建立SIR模型分析疾病的发展过程,预测疫情疾病走势。

关键词:COVID-19;数据可视化;预测分析;SIR;Python

Abstract:COVID-19 is a new type of severe respiratory disease. A large-scale outbreak began in Wuhan,China from December 2019. It was during the Spring Festival transport season and the country was at the peak of population movement,which provided favorable conditions for the spread of the virus and caused serious threats and losses to the personal safety and social economy of the Chinese people. The article studies the development of the COVID-19 epidemic,and its purpose is to collect relevant data from the National Health Commission of the Peoples Republic of China and the Provincial Health Commission by compiling crawlers. Data visualization to show the characteristics of virus transmission,analyze the characteristics and patterns of virus transmission,analyze the development process of the disease by establishing an SIR model,and predict the trend of the epidemic disease.

Keywords:COVID-19;data visualization;prediction analysis;SIR;Python

0  引  言

本研究是福州外语外贸学院学生在导师的带领下运用专业相关知识进行研究。本研究的目的是将COVID-19疫情发展的数据进行可视化,分析病毒传播的特征和模式,然后使用SIR传染病动力学模型,分析疾病的发展过程,同时预测疫情走势,从而为中国政府在流行病预防和经济生产恢复的决策中提供参考。

1  研究背景与流程

1.1  研究背景

COVID-19(新型冠状病毒)是一种新型的严重呼吸系统疾病。从2019年12月和2020年1月开始,在中国武汉开始大范围暴发传播,对全国人民的人身安全和社会经济造成了严重的威胁和损失。

1.2  研究流程

本研究研究流程:首先确定研究目的、搜集相关文献并制定研究方法,将数据前置处理,并将最新数据及过往数据进行汇整,接着着手进行研究,透过SIR模型分析疫情发展情况,并使用Python将数据可视化,进而提出结论与建议。

2  数据收集

2.1  数据来源

数据主要来源于网易新闻[1]和腾讯新闻[2],还有使用Python爬虫从中国国家卫生健康委员会和各级地方卫生健康委员会官方网站爬取而来。

2.2  数据表结构

数据在爬取过程中已经进行了数据预清洗,删除了大量NA数据,具体步骤为:

(1)使用Python制作爬虫爬取网易新闻及腾讯新闻每日公布在其网站上的数据,分别爬取了全世界的疫情数据、中国各省份的疫情数据以及详细到中国各个城市每日新增的疫情数据,在经过数据清洗等步骤去除含有大量NA的疑似数据列等,还有一些列都是0,例如今日治愈以及死亡,这两列的数据使用当天总的数据减去前一天总的数据所得,最终爬取到的数据格式如表1至表3所示。

(2)直接从腾讯新闻或者网易新闻获取数据集的好处是速度快,且能直接获取到想要的疫情数据,无文字符号等干扰,无需进行二次处理,爬取下来就能直接使用。但缺点是数据集的数据不全面,缺少一些关键数据,因此针对这一情况,有些省份所使用的数据是从该省的卫健委官网直接爬取的。以福建卫健委爬取的数据集为例[3],最终爬取到的数据格式如表4所示。

3  统计分析

3.1  全国的分析

本研究通过Python可视化数据,由图1可知,中国在疫情的发展前期争分夺秒的增建方舱医院巩固医疗体系,并出台限制出行甚至实施封城等一系列防控措施的政策,取得良好成效,现如今国内本土新冠肺炎疫情已基本阻断,但零星散发和局部暴发的风险依然存在。随着疫情在全世界范围内的大流行,我国病例大多由本土新增病例转变为以境外输入病例为主,但疫情防控形势依旧严峻。

3.2  世界对比分析的分析

在疫情发生时,中国政府争分夺秒地控制发展与防控治疗。疫情最严重的武汉则进行长达76天的“封城”,使疫情得以有效控制,现基本已恢复生产与生活。反观美国,由图2的数据可以直观看出,不管新增病例还是死亡病例,全都居世界首位,现在已然成为全球新冠肺炎疫情大流行的中心,已经演变成一场美国全国性的公共卫生灾难[4]。这与美国的疫情防控相关措施有着必然的联系,在此前各州采取的缓解疫情的措施才刚开始取得成果,特朗普政府却急于通过取消隔离限制来提振经济,这恰好又形成了一个新的僵局。只因阻断COVID-19传播的进程中伴随着巨大的经济损失,美国迟迟不采取积极行动来遏制COVID-19的传播,总是意图做出有利于经济利益的决定,而非以科学为指导保护健康的决策,导致疫情从缓慢且可控的传播速度发展到如今的一发不可收拾局面。

4  疫情发展现状及其特点

本研究通过Python可视化及Tableau可视化工具,对全国、湖北省及福建省的疫情情况进行可视化分析。使用者可以从图3、图4、图5和图6中看到全国、湖北省及福建省三个地域从1月20日到8月16日期间的疫情变化情况,以折线图,疫情地图、条形图、面积图等形式呈现。让使用者以图形化的方式观看疫情从1月20日到8月16日的疫情变化(注:数据若出现负增长现象,原因在于4月16日当天,湖北依法订正疫情数据)。

4.1  全国疫情发展分析

如图7所示,从全国的疫情数据来看,全国新冠肺炎每日新增确诊病例略有波动。由图7可知,湖北是全国的疫情重灾区,截至2020年8月16日,湖北省累计确诊人数占全国的80%以上。

如图8所示,疫情发展前期(疫情开始暴发至2月11日),新冠肺炎确诊的手段主要依靠核酸检测和试剂盒检测,受制于试剂盒研发和产能的限制及检测效率等因素,疑似感染者得以确诊的速度较为缓慢。在2月4日达到高峰后,出现拐点假信号,连续7日新增确诊人数下降。

疫情发展中期(2月12日至4月14日),从图中可观测到2月12日存在特别大的噪音,是由于湖北施行2月12日国家健康委办公厅、国家中医药管理局办公室印发的《新型冠状病毒感染的肺炎诊疗方案(试行第五版)》[5]:增加CT检测手段,并将其归为临床确诊患者,并将临床诊断病例也被纳入确诊人数。此方案使得疑似感染病例得到大面积确诊,新增确诊人数达到最高峰。同时有利于临床确诊患者能及早按照确诊病例接受规范治疗,提高了病人的收治率。在2月12日后,每日新增确诊出现大幅回落,是由于湖北加大了对存量疑似感染患者的检测速度,得以大面积排查现存疑似感染人群,迅速消化现存疑似感染人群。并施行延迟开学、规定出行准则、统筹推进疫情防控工作、部署防境外输入工作等措施,有效地切断了病毒的传播途径,新增确诊病例呈现明显的下降趋势。

疫情发展后期(4月14日至8月16日),前中段新增确诊病例的主要来源为境外输入病例,因先前已有相关准备(入境检查,集中隔离等),每日新增确诊病例仅有小范围波动。后段由于某些地区出现反弹现象,新增确诊人数略比前中段高些,但总体处于良好控制水平。

从全国每日新增治愈病例来看,从1月21日开始,出现新增治愈病例。2月2日,武汉火神山医院正式交付;2月3日晚,三所“方舱医院”在武汉开建,用于收治新型冠状病毒感染的肺炎轻症患者;2月5日,雷神山医院具备交付条件。随着雷神山、火神山医院及方舱医院的开设,使得医疗资源紧张状况得到缓解。方舱医院主要收治轻症患者,发挥着集中隔离、集中观察、统一收治、统一管理、减轻重病救治压力、提高救治率等优势。而雷神山、火神山医院主要收治重症患者,配备专业救治设备和专业救护人员,患者的生命安全有一定的保障。结合国家统一领导、高效决策及全国统筹、对口支援等举措共同作用下,治愈病例数不断上升。2月21日当天治愈病例数首次超过新增确诊人数,到2月27日达到最高峰。随着疫情严峻形势得到缓解,新增确诊病例及治愈病例数均呈下降趋势,但治愈病例数总体高于新增确诊人数,该表现充分说明疫情得到有效控制。

从全国每日新增死亡病例来看,变化趋势较为平缓。每日新增死亡病例仅在0~252范围内波动,且总体低于每日治愈病例。直至4月18日至5月15日出现长时间清零现象。后期新增死亡病例仅在个位数变化。说明疫情形势正在往好的方向发展。

4.2  福建疫情发展分析

如图9所示,从福建省新增确诊病例数据来看,波动看起来较大,但其实数据仅在0~30范围内变化,疫情控制形势较好。其中1月31日和3月22日,这两天前后数据变化趋势较为明显。截至8月16日,最高峰值(1月31日福建省新增確诊人数25人)仅占该天全国新增确诊病例的1.2%左右,占比较小,疫情形势较乐观。结合举措可知,1月31日后福建省新增确诊病例下降可能的原因是福建省部门对住房系统、疫情期间采购安全化与便利化等方面防控工作的部署得到有效落实。至2月27日后连续22天出现零新增确诊病例。由于当前国外疫情形势严峻,在外留学务工人士想要回国寻求更好的医疗资源,致使3月20日,新增确诊病例(境外输入确诊)迅速增加。经3月19日,福建省对境外入闽人员14天集中隔离观察,有效地切断病毒传播,后期仅有少量的境外输入确诊病例出现。在治愈病例方面,2月3日开始出现治愈病例,且集中于2月份及4月份。在死亡病例方面,仅1例。

如图10所示,从福建本土病例与境外病例的对比图中可知,2月28日起福建本土再无新增病例,直至3月20日境外涌入的确诊人数开始快速增加。新冠病毒所带来的危机已从国内传播转向外来入境人员。

4.3  国际对比

从图11可知,中国的确诊人数趋于平缓,美国、印度、巴西等地都呈增长趋势。最早出现疫情的是中国,但随后美国在3月24日左右,确诊人数大幅度增长;印度在4月4日左右,确诊人数大幅度增长;巴西在4月17日左右,确诊人数大幅度增长;且5月15日起美国、印度、巴西累计确诊人数都高于中国。目前,美国已成世界确诊病例最多的国家,但欧洲各国仍处于疫情暴发期。截至8月16日,美国累计确诊病例占比26%左右,巴西累计确诊病例占比15%左右,印度累计确诊病例占比12%左右,中国累计确诊病例占比0.4%左右。

从治愈人数对比上,四个国家的治愈人数均趋于上升趋势。前期阶段,中国的治愈病例数略高于其他三个国家;后期阶段,中国治愈人数上升幅度较小,但与确诊病例数的差距逐渐缩小,后期几乎重合。其他国家治愈人数均以较快的速度增长,受限与医疗资源,社会环境等因素,治愈人数与确诊人数之间仍存在较大差距。

由图12可知,死亡人数对比上,中国死亡病例变化较为平缓,其他3个国家均以不同的增长速度不断增长。其中,美国的死亡人数上升最为迅速。至8月16日,美国累计死亡病例达172 606例,将近我国的36倍。

5  SIR建模与分析

5.1  SIR模型简介

SIR模型是传染病研究中一种经典的动力学模型,最早由Kermack等在1927年提出[6]。模型相对简单,参数较少,被广泛地研究和使用。在一个复杂网络群体中的所有个体(节点)可以大致分为有限的几种状态,包括易感的、受感染的和被移除的,可以使用这些状态的组合表示不同状态之间的转换顺序以及流行病学所处的阶段[7]。模型中把传染病流行范围内的人群分成三类:S类,易感者(Susceptible),指未得病者,但缺乏免疫能力,与感病者接触后容易受到感染;I类,感病者(Infective),指染上传染病的人,它可以传播给S类成员;R类,移出者(Removal),指被隔离,或因病愈而具有免疫力的人。当易感个体和感染个体充分混合时,感染个体的增长率为βIS-γI,易感个体的下降率为βIS,恢复个体的增长率为γI。易感者从患病到移出的过程可以用微分方程表示如下:

5.1.1  模型初始参数设定

我们本次研究仅选取全国和湖北的数据来进行预测分析。假设湖北和全国人数为N,即总人数为296 000和1 400 000。在模拟过程中对总人数按比例缩放,其原因在于中国人口基数过大,预测出的数据过大导致实际数据被压成一条直线,无法直观表现出感染人数的变化过程,两者难以比较。计算中使用的变量,I0为当天确诊总人数,R0为当天恢复人数,S0为当天易感染总人数,其计算公式为N-I0-R0,β为感染系数,γ为治愈系数,其初始数值都为0.000 1。

5.1.2  确认训练集

方程中的参数β与γ皆为常数,能够反映模型中疫情特征。但不同疫情具有不同特性,预防措施也不尽相同,实际上难以求解,只能通过模型计算得出数据进行预测。实验期间,湖北为2020-1-15至2020-1-23这八天的数据来作为训练集训练模型,模型训练出来的β与γ:[0.358 138 35  0.037 049 89],全国为2020年1月15日至2020年1月23日这八天的数据来作为训练集训练模型,模型训练出来的β与γ:[0.398 643 46  0.028 968 42]。

5.1.3  预测

使用训练集训练出来的β与γ值绘制的湖北省预测与实际对照的图形如图13所示。

在图13可以看出,疫情实际拐点相对于预测拐点提前出现。这是由于疫情暴发初期没有足够的试剂盒检测,导致部分疑似感染者无法检测出是否感染COVID-19,数据存在缺陷,预测出的感染人数比实际感染人数高。随着检测试剂的增加,以及2月13日临床诊断病例被纳入确诊人数,确定部分疑似感染者被感染,感染人数暴增。

疫情暴发前武汉实行封城,国家卫健委要求落實“集中患者、集中专家、集中资源、集中救治”原则,降低市民每日接触率,阻断病毒的传播,减少市民感染风险。

在SIR模型中,病毒的传播率是固定的。而图14中感染人数单调的增加,一些局部变化而引起的显著改变将无法预测。例如在1月23日武汉封城前,春运使得各城市人口流动数量暴增,导致病毒传播率提高,为后续疫情暴发提供基础;2月8日火雷两院建成,对感染者进行有效治疗与统一管理,减少感染者与人群密切接触,每日感染人数稍有下降。

使用训练集训练出来的β与γ值绘制的全国预测与实际对照的图形如图15所示。

从图15看出,在疫情前期预测数据接近实际数据。1月23日至2月11日,全国处于疫情爆发期,累计确诊病例数量暴增。为控制疫情蔓延,各个城市关闭公共场合,所有小区拒绝外来访客以此降低人口流动量,切断病毒传播途径。只有在湖北封城前出城的湖北居民才有可能是新冠肺炎的携带者。但后期预测结果与实际相差甚大,其原因在于:SIR模型是默认所有人都有感染风险。而做好防护措施且没有接触肺炎携带者的人感染风险极小。所以SIR预测全国感染人数与实际相差甚大。2月16日疫情达到增长拐点附近,随后每日确诊的感染人数减少,治愈病例稳定增加,说明疫情期间的各项举措开始发挥作用。

5.1.4  感染系数β与治愈系数γ

在训练参数的过程中,选择使用疫情早期的数据作为训练集进行模型训练,而在疫情早期政府的防疫措施不够完善,人为干预较少,预测出的曲线则更偏向自然传播,感染系数β高达0.486 3。

随后疫情暴发,武汉实行封城,使肺炎患者的数量集中在湖北一带,患者密度增大。随后雷神山、火神山医院建成,患者和公共医疗资源较为充足,疫情得到较好的控制,有数据可知感染系数β=0.353 8,有所下降。

在长期的斗争后,本土疫情逐渐稳定,随后的增长主要是外部输入,但零星暴发风险仍然存在。

6  结  论

本文基于国家卫健委及各级地方卫健委发布的官方数据,对中国、湖北、福建疫情进行了科学的分析和合理的预测,使用真实数据集对SIR模型进行训练,运用训练得出的参数β与参数γ对疫情后期发展进行预测。根据不同的政府措施将疫情分为3个时间节点,得出1月23日至2月2日的日感染系数在0.3左右,2月5日至2月12日的感染系数小于0.2且大于0.1。由此验证隔离方法能有效降低感染系数。

结果表明得益于中国强势的管控,采取封城及启动一级响应,限制人口流动,健康码的实时追踪以及建造大型专用医院,集中公共医疗资源等措施,使得疫情蔓延趋势得到有效控制,现应该加强飞机场、港口等境外输入渠道的管控,加强入境人员的健康跟踪及反馈,以严密的措施防止境外疫情输入。

参考文献:

[1] 网易新闻.实时更新|新冠肺炎疫情动态地 [EB/OL].(2020-08-07).https://wp.m.163.com/163/page/news/virus_report/index.html.

[2] 腾讯新闻.实时更新:新冠肺炎疫情最新动态 [EB/OL].(2020-08-07).https://news.qq.com/zt2020/page/feiyan.htm#/global.

[3] 福建省卫生健康委员会.福建省新型冠状病毒肺炎疫情情况 [EB/OL].(2020-08-07).http://wjw.fujian.gov.cn/ztzl/gzbufk/yqtb/.

[4] 柳叶刀TheLancet.COVID-19疫情防控:中国经验VS美国经历 [EB/OL].(2020-04-22).https://www.medsci.cn/article/

show_article.do?id=ac80192e541c.

[5] 新型冠状病毒感染的肺炎诊疗方案(试行第五版) [J/OL].中国中西医结合杂志(2020-02-08).http://kns.cnki.net/kcms/detail/11.2787.R.20200208.1034.002.html.

[6] KERMACK W O,MCKENDRICK A G. A Contribution to the Mathematical Theory of Epidemics [J]. Proceedings of The Royal Society A Mathematical Physical and Engineering ences,1927,115(772):700-721.

[7] 尹楠.基于SIR模型的有限區域内新冠肺炎疫情传播仿真模拟 [J].统计与决策,2020(5):15-20.

作者简介:苏志湧(1997—),男,汉族,福建泉州人,本科在读,主要研究方向:数据分析;通讯作者:何煌媚(1999—),女,汉族,福建龙海人,本科在读,主要研究方向:数据分析;李荣杰(2000—),男,汉族,福建宁德人,本科在读,主要研究方向:数据分析;陈祎(2000—),女,汉族,福建福州人,本科在读,主要研究方向:数据分析;肖佳莹(1999—),女,汉族,福建福州人,本科在读,主要研究方向:数据分析;程曦(2001—),女,汉族,福建南平人,本科在读,主要研究方向:数据分析;陈真真(2001—),女,汉族,福建泉州人,本科在读,主要研究方向:数据分析;李仁钟(1963—),男,汉族,台湾宜兰人,博士,教授,博/硕生导师,主要研究方向:智能计算、数据挖掘。

猜你喜欢
病例肺炎模型
自制空间站模型
来势汹汹的肺炎
“病例”和“病历”
本土现有确诊病例降至10例以下
一分钟了解新型冠状病毒感染的肺炎
My Heroes
看,这个肺炎最大“祸因”
模型小览(二)
圆周运动与解题模型
离散型随机变量分布列的两法则和三模型