关于新冠肺炎疫情相关数据集成共享平台研究

2021-01-05 03:19肖春涛柯惠新
统计理论与实践 2020年1期
关键词:病例疫情

张 喆 杨 松 王 宁 崔 涵 肖春涛 柯惠新

一、引言

自2019年底新冠肺炎(COVID-19)疫情爆发以来,持续时间长,波及范围广,对全世界的政治经济形势以及人民生产生活造成了巨大影响,并将持续下去,时间也难以预测,影响深远。根据世界卫生组织(World Health Organization)官方网站(https://www.who.int/emergencies/diseases/novel-coronavirus-2019)公布的数据,截至2020年6月10日,已有216个国家和地区报告确诊病例,全球累计确诊病例达到7145539例,累计死亡病例达到408025例。多国政府都高度重视疫情防控,采取了不同类型的防控措施,多国科研人员利用 SIR(Susceptible Infected Recovered Model)等传染病动力学模型,对疫情发展趋势进行模拟和预测,对理论研究和疫情防控具有重要意义,并起到了积极作用。各项防控政策的颁布和疫情趋势模型的拟合仿真都离不开实时和准确的数据支撑,因此本文梳理和汇总与疫情相关的数据发布平台,根据各平台的优势和不足,提出了与疫情相关的数据集成共享的平台搭建设想并付诸实践,目的是给全社会提供时效性强、便于使用又独具特色的数据仓库。

二、平台数据的来源

关于疫情数据,从数据发布来源和数据指标选取两个角度来梳理。对我国而言,主要数据来源是中华人民共和国国家卫生健康委员会和各省、直辖市、自治区的卫生健康委员会,各级机构每日都会定时在“疫情通报”中发布前一日的“新型冠状病毒肺炎疫情最新情况”,提供全国、省(直辖市、自治区)和市(区)三级疫情数据。数据源为官方机构,数据严谨,具有权威性,发布的指标有累计值和新增值,指标选取包括确诊病例、疑似病例、重症病例、死亡病例、治愈病例、医学观察病例(密切接触者)和追踪密切接触者。随着疫情防控形势的变化,从2020年3月4日起,还公布境外输入性病例的确诊、疑似、重症、死亡和治愈的情况;从2020年2月6日起,增加现有确诊病例指标,计算公式为:现有确诊人数=累计确诊人数-累计治愈人数-累计死亡人数。从3月31日起,开始公布无症状感染者接受医学观察的情况。

在国家卫健委每日发布的“新型冠状病毒肺炎疫情最新情况”中,还包含香港特别行政区、澳门特别行政区和台湾地区的确诊、出院和死亡病例数据。1月22日开始,港澳台各有1例确诊病例。国家卫生健康委员会和各省、直辖市、自治区的卫生健康委员会通常都是以新闻稿的形式发布,截图如图1—图4(选取重庆、甘肃和内蒙古为代表):

图1 国家卫生健康委员会新冠肺炎疫情通报截图

图2 内蒙古自治区新冠肺炎疫情通报截图

图3 重庆市新冠肺炎疫情通报截图

图4 海南省新冠肺炎疫情通报截图

对世界其他国家和地区,主要数据来源是世界卫生组织(World Health Organization)官方网站,其中包括全球已报告有确诊病例国家和地区的疫情数据。截至2020年6月10日,已有216个国家和地区发现确诊病例。官网数据每日更新,包含指标有累计确诊和死亡病例、每日新增确诊和死亡病例,共计四项,同时在官网上有对数据可视化展示图。世界卫生组织还会根据疫情防控需要,不定时发布通报,指导各国政府更新现有搜集的数据指标,例如世卫组织总干事于2020年5月15日在COVID-19疫情媒体通报会上指出,在记录病例时,收集按年龄和性别分类的数据。世界卫生组织网站信息截图如图5:

图5 世界卫生组织数据发布平台截图

三、已有数据平台汇总

从上面梳理的数据来源可以看出两个基本问题:第一,数据发布机构分层级。对中国而言,既有国家卫生健康委员会公布的全国汇总数据,也有各地区卫生健康委员会发布的数据;对于世界各国或地区而言,从世界卫生组织获取的数据更多是基础性数据,公布的数据指标相对简单,想要获得更详细的数据,还需要从各国或地区的疾病预防控制中心(Centers for Disease Control and Prevention简称CDC)获得。第二,数据差异和不合理现象。国际疫情形势变化很快,对于同一指标,通过对比来看可能由于发布时间和发布机构的不同,或者指标口径的不同,会出现数据差异较大的现象,同时由于各国核增核减、重报误报,还存在数据不合理等现象。因此需要整合现有数据来源,根据疫情变化和研究需要构建科学的数据资源平台,现将已有的数据平台汇总如下:

1.主流媒体疫情发布平台

国内主流媒体每日会根据已有的疫情数据,采用不同的展现形式向外界报告疫情变化情况,影响力较大的有人民日报和新华社的疫情发布平台。

人民日报公众号会在早上9点左右发布我国最新疫情信息,在晚上6点左右发布全球疫情情况。对我国疫情信息的发布,数据来源主要是国家卫生健康委员会,人民日报发布特色是重点突出两项数据,分别是新增确诊病例和新增无症状感染者(截图见图6、图7);对全球疫情的发布,数据主要来源于世界卫生组织,数据综合度强,有一定的权威性,通过比较可以看出数据比较合理。其特色是采用花瓣图形式展现各国确诊和死亡病例的情况,通过颜色和排序形象反映各国疫情情况(如图8)。

图6 人民日报公众号报道国内新增确诊病例

图7 人民日报公众号报道国内新增无症状感染者

新华社早上9点左右会在其公众号发布我国最新疫情信息,在中午12点左右发布全球疫情情况。对我国疫情信息的发布,直接引用国家卫生健康委员会信息;对全球疫情的发布,数据来源于世界卫生组织,其特色是采用直方图的形式反映各国疫情情况,通过颜色和矩形长度形象反映各国疫情情况(如图9)。

图8 人民日报公众号花瓣图

图9 新华社公众号直方图

2.互联网企业大数据平台

国内部分互联网公司借助其自身优势,建立疫情实时大数据平台,例如百度、网易、腾讯等,数据库包含国内疫情、国外疫情、实时播报、权威发布等栏目,可以快速获取国内各地区的累计确诊、累计死亡、累计治愈、现有确诊、无症状感染者等情况,同时自动呈现可视化走势图,其优势在于能够及时公布防控最新动态和相关新闻,同时发布一些防护知识(如图10—图12)。

图10 百度疫情实时大数据界面截图

图11 腾讯疫情实时追踪界面截图

图12 网易疫情实时动态播报界面截图

3.相关机构数据平台

目前有医疗领域的企业和海外留学机构,借助其行业优势,建立疫情数据信息平台,例如丁香园和一亩三分地。这两家数据平台都包含国内和国外疫情的基本统计数据,丁香园信息平台的特色是发挥医疗优势,开辟辟谣与防护、疾病知识栏目,从中可以了解一些传言的真假,同时获取病毒防治方面的指导。一亩三分地信息平台的优势在于借助海外资源,发布美国关于检测数据和检测地点方面的信息以及住院总人数的信息(如图13—图14)。

图13 丁香园疫情实时动态播报界面截图

图14 一亩三分地疫情实时动态播报界面截图

4.约翰斯·霍普金斯大学(Johns Hopkins University)疫情数据平台

约翰斯·霍普金斯大学(Johns Hopkins University)系统科学与工程中心,借助ArcGIS在线交互地图技术,制作COVID-19动态地图。由于上线时间早、数据更新速度快等原因,其影响力较大。优势在于数据更新及时,且非常完整(各国,中美两国的各省或各州),数据指标多(有住院人数和检测人数);数据平台界面设计友好,数据模块大致分为三部分:第一部分是各国的累计确诊病例数,按照病例数降序排列,还可查看各国省(州)的对应数据;第二部分是各国的累计死亡和治愈病例数,也按照病例数降序排列;第三部分是美国的累计检测和住院总人数。界面中间为可视化地图信息,点击地图中的不同国家,可以显示该地区的疫情数据情况,数据存储在GitHub(https://github.com/CSSEGISandData/COVID-19)(如图 15)。

图15 约翰斯·霍普金斯大学疫情信息发布截图

5.数据分析平台

关于疫情数据的分析平台,有研究团队建立网站或者利用GitHub平台发布数据和分析代码。加州大学伯克利分校郁彬教授团队建立了预测美国各县和医院疫情严重程度的数据平台,网站域名为https://covidseverity.com/,这个网站以交互可视化的形式提供预测数据。在GitHub上有JoachimGassen主页中的tidycovid19数据仓库,借助R软件的操作包Tidyverse,tidycovid19,zoo等,完成疫情数据的可视化操作(如图16—图 17)。

图16 郁彬教授团队疫情数据分析界面截图

图17 Joachim Gassen疫情信息GitHub界面

四、数据平台的搭建思路

1.搭建适合我国疫情数据共享平台的意义

从前面的分析中可以看出我国目前数据发布平台大多基于网页版界面呈现,包括含有数据的大段文字,图片型原始数据和可视化图表。由于国内学者大多使用EXCEL、R语言、STATA等分析软件,基于国内现有的数据平台只有采用“网络爬虫”,甚至经过图像文字识别才能及时获取,这大大增加了研究人员的工作负担,不利于研究人员使用数据,势必造成大量的重复工作。平台展现可视化图相对简单,缺乏深层次的数据发掘工作,数据信息利用率低,没有发挥更多的数据价值,造成数据严重浪费,同时数据质量是否可信也没有统一的核验标准,在数据分析中经常出现数据“打架”等不合理现象,例如某国累计确诊病例小于前日累计确诊病例数。因此,尽快搭建和完善适合我国研究人员使用的新冠肺炎疫情数据平台,不仅意义重大而且时间紧迫。

2.数据平台框架构建思路

搭建适合我国的数据平台需要兼顾数据及时性、可靠性和统计分析职能,以下是我们“六人团队”的一些具体做法。

在数据及时性和可靠性方面,平台需要包含专门栏目发布数据,利用国家卫生健康委员会以及各省、直辖市、自治区卫生健康委员会每日发布的动态数据作为国内数据的发布基础,利用人民日报公众号花瓣图数据和约翰斯·霍普金斯大学数据作为国外数据的主要来源。为了将国内数据与国外数据统一比较,通常选取每天18:30左右更新的数据。

数据的统计分析职能,可以通过增加新指标和指标排序等方法来发掘各国疫情的基本特征。增加死亡率、治愈率、每百万人确诊数、每百万人死亡数、累计确诊病例日增和日增速、累计死亡病例日增和日增速等。其中死亡率=累计死亡病例/累计确诊病例,治愈率=累计治愈病例/累计确诊病例,每百万人确诊数=(累计确诊病例/总人口数据)106,每百万人死亡数=(累计死亡病例/总人口数据)106。为保证统计意义,对于累计确诊病例数低于50的国家,不做死亡率和治愈率的计算;在每百万人确诊数和每百万人死亡数计算中,国家(地区)人口数不足百万人时,暂不进行计算和排序,其中日增速的计算公式为(Xt-Xt-1)/Xt-1。为保证统计意义,对于累计确诊数低于50的国家,不做累计确诊病例日增速计算;对于累计死亡病例数低于50的国家,也不做累计死亡病例的日增速计算。同时可选取全球确诊超过两千例的国家,根据其疫情数据对累计确诊病例、确诊病例最大日增、累计死亡病例、死亡病例最大日增、确诊病例死亡率、每百万人死亡数和每百万人确诊数进行排序,从而发现全球和各国疫情形势的发展规律、防控措施取得效果以及对未来疫情走势进行预测。

增加动态可视化疫情走势图和指数分析图,其中动态可视化图可以形象地看出数据的走势和变化;指数图不仅能对病例增速起到警示作用,还能比较各国之间的病例增速,以及分析各国的病例增速随时间产生变化的情况。

疫情数据集成共享平台还要包含数据核验功能,对疫情数据指标进行动态比较,如果出现数据问题,要能够及时反馈原因并进行提示预警。一方面保留原始数据,真实展现,另一方面采用注解和标注“?”的方式,引起数据使用者的重视。例如2020年5月27日法国累计确诊病例数发生错误,小于前一日的数值;又如2020年4月17日武汉市发布的数据,截至4月16日24时,确诊病例核增325例,确诊病例的死亡数核增1290例,这些错误或者变化要第一时间告知数据使用者。

3.数据平台载体的选择

搭建数据平台需要稳定的载体,根据国内受众的偏好可以选择建立微信公众号或者GitHub平台等模式;原始数据的后台数据库、存储和分析平台可以选择百度云盘或者腾讯微云等云端平台。数据发布平台载体的选择可以按照数据规模、受众人群和影响程度分批次推进,开始阶段可以利用微信群发送数据汇总EXCEL表的方式提升数据影响度;随着数据量增加和受众人群增加,关注度和影响力直线上升,对数据的要求越来越高,要求时效性强、便利简单易取,甚至要求对数据文件定时必有,随开随用,此时须建立疫情数据微信公众号,兼顾数据搭载和数据分析。由于微信公众号受到审核制度等限制,有时会出现不稳定现象,因此可选择GitHub作为数据仓库用来数据备份和分析代码分享的平台,同时方便海外学者下载使用。数据存储使用CSV格式,且表格格式尽量固定,可提升研究人员建模使用效率。

五、数据平台搭建的实践

根据前文梳理的平台搭建逻辑,遵循为研究者深入分析提供最完整的数据、为公众快速清晰了解疫情提供便利,让数据说话,用数据科学防控、让数据产生研究价值的初衷,我们从疫情开始就展开数据收集、整理、分析和发布共享工作,经历了数据指标不断优化、展示内容不断丰富、展示形式逐步美化和数据发布平台不断改良的过程。到目前我们选择的数据集成共享模式为微信公众号(“六人团队”微信号:gh_ca4218923bda)推送和 Github(https://github.com/zhestat/Covid-19-data)备份存储的模式,微信公众号带更新日期的标题和全球疫情关键数据,包含内容有全球疫情数据、新冠疫情数据可视化、人民日报新媒体全球疫情每日花瓣图发布数据和全国疫情每日数据等核心板块,充分利用统计图表的形式进行展示,每日中午12点之前对外发布前一日的疫情变动情况。

第一部分是全球疫情数据。基于约翰斯·霍普金斯大学发布的世界188个国家(地区)邮轮疫情数据,从累计确诊、累计死亡和累计治愈三个指标展现疫情基础数据情况,数据按照累计确诊病例数降序排列,同时还包含我国各地区的累计确诊、累计死亡数据和现有确诊病例数据,美国各州的累计确诊、累计死亡数据,美国累计检测和住院总人数。数据分析层面包含死亡率、治愈率和每百万人确诊数,累计确诊病例日增和日增速排名前20名的国家,累计死亡病例日增和日增速排名前20名的国家,以便了解每日疫情变动情况。数据库中数据截图如图18和图19(由于篇幅原因,只截取部分数据):

图18 全球疫情数据库基础数据构成界面截图

图19 全球疫情数据库分析数据构成界面

第二部分是疫情数据可视化展示。一是根据第一部分搜集整理的基础数据,利用动态条形图Racing bar展示从2020年3月20日开始到报告日的全球累计病例前十名国家的演变情况,让数据直接、形象地呈现(如图20);二是累计确诊病例增速比较的指数图①考虑到有些用户可能对指数图不太熟悉,在指数图发布的前期,我们也提供有关指数图的科普文音,并将当日数据分别做出指数图和非指数图作比较,解释指数图的功用,辅助用户解读每日发布的指数图。。我们每天会把世界上的国家和地区按照每百万人确诊数从多到少分成五类,然后从每类中抽取1个国家制图(如图21)。除此以外,我们还为使用平台的研究者提供点播定制服务,以增加研究者之间的交流探讨,每日会根据研究人员在平台发布的做图需求留言点播,挑选出若干组国家绘制指数图(如图22)。为了辅助理解,指数图中提供虚线辅助线,直观地表现出确诊病例每几天翻倍一次,以揭示病情爆发的激烈程度。

图20 累计确诊病例数前十名动态图界面

图21 累计确诊病例增速比较的指数图界面

图22 研究者点播样式图

第三部分是人民日报新媒体全球疫情每日发布数据。选取人民日报新媒体的花瓣图作为图形展示,根据人民日报海外版网站等信息源汇总世界各地有关疫情方面的新闻,根据数据汇总全球确诊超过2000例国家的疫情特征信息,截图如图23(由于篇幅原因,只截取部分数据)。从数据表可以看出,确诊病例死亡率全球平均6.11%,有15个国家大于平均值,可部分说明确诊后治疗状况不佳;每百万人口确诊数全球平均约775人,有43个国家大于平均值,可部分说明防控措施不到位;每百万人口死亡数全球平均约47人,有30个国家大于平均值,可部分说明疫情综合程度严重。

图23 全球确诊超过2000例国家的疫情信息界面

第四部分是全国疫情每日数据,根据国家卫健委的全国疫情日报汇总全国31个省(自治区、直辖市)和新疆生产建设兵团疫情数据,制成表格,用于计算死亡率、治愈率和每百万人确诊数。值得一提的是,作为对从官方渠道直接收集整理信息的补充和辅助,同时为丰富平台数据,我们也慎重选择了一些社会机构数据发布平台,比如百度疫情实时大数据报告,将其国内数据整理出来,并制作成表格,用来比对和研究。数据库中数据截图如图24(由于篇幅原因,只截取部分数据)。

图24 我国各地区疫情信息界面

目前该平台数据的发布采取双重审核制,数据整理过程中利用数据判定函数对数据基本特征进行检查,在汇总数据库整理好后,由平台主管再次核实验证,从而使数据质量得到保证。该平台已经被中国人民大学、首都经贸大学、中国民航大学、中国传媒大学、华东师范大学、湖南商学院、河南财经政法大学、江苏海洋大学、西华师范大学等高校的老师和学生作为科研和授课的基础数据来源,同时得到来自中日友好医院和武汉大视野、河南君友商务咨询等业界研究人员的关注。平台日活跃人数超过500人,关注人数已超过千人,且还在持续增加。公众号的阅读量和咨询留言数据不断提升,可见其已经成为有一定影响力的数据集成共享平台。今后,平台除了每日数据更新之外,还会加强数据分析的深度,从预测和可视化图方面增加研究内容,以发挥更大的数据价值。

猜你喜欢
病例疫情
战疫情
王蜗牛先生的病例
抗疫情 显担当
疫情中的我
疫情当前 警察不退
“病例”和“病历”
本土现有确诊病例降至10例以下
待疫情散去 春暖花开
疫情期在家带娃日常……
妊娠期甲亢合并胎儿甲状腺肿大一例报告