杨晨 苏有慧 周军
摘 要: 介绍了新冠肺炎疫情大数据可视化平台的搭建:以大量的新冠肺炎疫情数据为基础,借助Echarts技术以及交互组件,通过可视化图形与地图集成的方式对疫情数据进行可视化展示。实现从多个角度展示国内疫情发展趋势,丰富了疫情数据的展示内容,为广大人民群众了解新冠肺炎疫情提供了便利。
关键词: 新冠肺炎; Echarts; 大数据可视化; 多角度展示
中图分类号:TP399 文献标识码:A 文章编号:1006-8228(2021)01-61-04
Design and implementation of a big data visualization platform
for the COVID-19 epidemic
Yang Chen, Su Youhui, Zhou Jun
(Dept. of Mathematics and Statistics, Xuzhou Univesity of Technology, Xuzhou, Jiangsu 221018, China)
Abstract: The building of COVID-19 epidemic data visualization platform is introduced. Based on a large number of data of the COVID-19 epidemic, by using Echarts technology and interactive components, the epidemic data is displayed with visualization through the way of integrating the visualized graphics and the map. The COVID-19 epidemic situation is displayed from different point of views, the display contents of epidemic data is enriched, which facilitates the masses to know the COVID-19 epidemic situation.
Key words: COVID-19; Echarts; big data visualization; display from different point of views
0 引言
大数据背景下,海量数据只有被合理解读与表达之后才能展现其奥秘[1,2],而可视化的形式极大地提高了数据的易读性,人们不再局限于通过关系数据表来观察和分析数据信息, 还能以更直观的方式看到数据及其结构关系[3]。一般而言,大数据的可视化复杂且难以理解,需要经过抽取、清洗、转化、挖掘 等一系列过程才能展示潜在价值信息[4]。目前,大数据可视化形式主要包括文本可视化、网络(图)可视化、时空数据可视化和多维数据可视化[5],丰富多样的可视化形式极大程度的为人们获取关键信息带来便利。当今世界上很多国家及地区已经将大数据可视化技术应用到现实生活当中,例如我国的百度、新浪等网站将海量的新冠肺炎疫情数据通过表格的形式展示在同一个网站上,网民可以更加全面地获取到目前的疫情发展情况,改变了以往数据量大,冗余度高的情况。然而,目前网站上的新冠肺炎大数据图表大多只包含单一元素,不能直观地体现从疫情爆发到目前为止的发展趋势以及各项数据之间的差异,一定程度上降低了大数据的利用率。本系统才采用地图与统计图表相结合的方式,通过热力地图、二维柱状图、动态折线图等方式来反映全国各项疫情数据的变化趋势,直观地体现出不同指标下的数据差异。同时,将使用可拖动的时间轴将疫情数据进行动态可视化,生动地展现了疫情信息大数据的内容,丰富了疫情数据的表现形式。
1 大数据可视化方式
本文结合Echarts技术中主流的數据可视化展示形式[6-7],主要通过折线图、柱状图、饼状图和中国地图等方式,以对比统计图表法、分区统计图表法等方法的基本原理为依据,采用不同符号标记、不同高度的二维柱状图、不同颜色区分等形式反映疫情数据在不同时间、不同空间的变化情况,具有很强的对比性。如图1所示,折线图以疫情发展的时间为x轴,确诊人数量为y轴,在x轴下方还附有可以拖动的时间轴,用户可以通过拖动时间轴来获取特定时间段的疫情信息。中国地图中使用不同的颜色来标记每个地区疫情数据的累计情况,从中可以直观地看到每个地区受疫情影响的差异。系统针对不同的统计数据采用了不同的可视化方式,提高了大数据的直观性、易读性与空间对比性。柱状图以柱子的高度反映不同区域疫情数据的差异。
2 系统设计
2.1 可视化内容设计
新冠肺炎疫情大数据可视化平台以全国新冠肺炎疫情数据库作为基础进行建立。原始数据来自于相关政府部门已有的数据以及国家卫建委公布的数据,经过数据的过滤清洗与整合得到目前各个地区详细疫情数据。数据库包括全国疫情详情数据库、用户详情数据库。全国疫情详情数据库包括各省统计疫情情况数据表、各省详细情况数据表等。结合数据库内容与平台展示的一般需求,系统主要对以下四种信息对象进行可视化。
⑴ 全国疫情数据。主要字段包括省份名称、现存确诊人数、累计确诊人数、累计疑似人数、累计治愈人数、累计死亡人数等。
⑵ 各省疫情数据。主要字段包括各省下地级市名称、现存确诊人数、累计确诊人数、累计疑似人数、累计治愈人数、累计死亡人数等。
⑶ 湖北内外疫情分析数据。主要字段包括湖北内外现存确诊、新增确诊、治愈率、病死率以及湖北本地治愈率Top5、病死率Top5等。通过湖北内外疫情数据的对比和湖北本地数据的对比,便可清晰地观察到疫情中心区域与全国其他地区疫情数据差别。
⑷ 全国疫情分析数据。主要字段包括境外输入Top10省市、现存确诊Top10省市、累计确诊Top10省市、现存疑似Top10省市、治愈率Top10省市、死亡率Top10省市等。从全国疫情发展层面分析疫情数据,便可清晰地观察到全国目前疫情发展情况。
2.2 功能设计
⑴ 全国疫情数据可视化。全国疫情模块主要包括国内疫情和各省疫情两个子模块,其中主要的可视化图表需要实现数据随时间轴来观察特定时间段的疫情数据,这样可以迎合不同用户对不同时间段疫情数据的需求。可视化地图需要实现可以根据确诊人数区间使用不同的颜色高亮显示,方便用户检索。
⑵ 各省疫情数据可视化。系统需要实现以表格形式展示各省疫情情况,在数据展示上需实现可以根据不同的指标对表格进行重新排序,并可以通过详情按钮获取各省的详细信息。其中每个省的详细疫情将通过数据展示、图表展示和地图展示三种进行可视化展示,方便用户通过多种方式观察各省疫情数据。
⑶ 疫情数据分析可视化。系统需要实现湖北内外疫情分析可视化和全国疫情数据各项指标的Top10可视化,系统需要将湖北省内和湖北省外的数据进行对比分析,基于相同指标的数据(如湖北内外病死率、治愈率、新增确诊、现存确诊),进行对比可视化展示。系统将各项指标Top10的城市由高到低通过柱状图的形式进行可视化。这样,用户能够快速了解到重点地区与全国其他地区疫情对比情况,有利于用户提高安全意识。
3 系统架构与实现
3.1 系统架构
系统采用4层架构设计,如图2所示。最底层为运行支撑层,包含了基础的软硬件设施及网络安全保障体系。数据层包含两部分内容:①已有的疫情详情数据库,利用MYSQL进行存储;②基于新冠肺炎疫情可视化平台需求,选取合适的大数据离线计算框架,这里选用Spark。Spark采用基于内存进行数据处理的模式,减少了磁盘IO,大幅度地提高了计算性能及效率[8-9]。服务层包含平台所依赖的网页框架与数据服务。数据服务使用SpringBoot自带的TomCat(一个免费的开放源代码的Web应用服务器)构建数据服务器,使用RESTFUL风格设计Web服务交互方案,后端响应前端请求并将数据以JSON格式传递给前端。最顶层为应用层,基于Layui经典的模块化前端框架,SpringBoot简洁的微服务开发框架以及Echarts中丰富多样的图表元素库和地图元素库的支持之下,最终实现了全国疫情数据可视化、疫情数据分析可视化、用户信息可视化。
3.2 系统实现
全国疫情数据可视化模块部分截图如图3所示。图3(a)为全国疫情数据可视化首页,通过简洁的UI设计,方便用户快速了解疫情详情并使平台更加人性化。图3(b)为全国疫情数据累计模块的部分图表展示,疫情数据主要以折线图和中国地图为主。折线图上方的图例标明了每条折线的名称,通过点击图例隐藏或者显示相应的折线,方便用户观察疫情数据。图3(c)为全国疫情数据新增模块的部分图表展示,其图表展示方式与全国疫情数据累计模块一致。
各省疫情数据可视化模块部分截图如图4所示。图4(a)为各省疫情数据可视化模块,疫情数据以表格显示为主,可以通过表格上方的按钮,将疫情数据以某一属性进行升序或者降序排序,体现出每个省份的数据差异,并可以通过详情按钮详细观察某一地区的疫情数据。以安徽省的疫情詳情为例,图4(b)和图4(c)通过数据展示、图表展示和地图展示这三种可视化方式,对安徽省到目前为止疫情详情进行展示。
疫情数据分析可视化模块部分截图如图5所示。图5(a)为湖北内外疫情分析模块的部分图表展示,页面以折线图为主,从图5(a)中可以清楚地观察到湖北内外各个数据的发展趋势,有利于数据的对比展示。图5(b)为全国疫情分析模块的部分图表展示,页面以柱状图为主,通过Spark进行离线分析将各项数据的Top10进行可视化展示。
4 结束语
大数据可视化旨在通过与地图、热力图、散点图等多种图表形式,让观众对问题有直观的视觉思维,可以做到让大众“即看即懂”。本文系统基于B/S架构,借助Spark框架对疫情数据进行统计分析。前端网页采用地图与可视化图形相结合的方式,借助于Echarts技术中丰富的可视化图形库以及地图元素,对疫情分析数据进行多元化的展示,实现了新冠肺炎疫情数据可视化,对于居民提高自我防护意识,做好疫情防控工作,起着至关重要的作用。
参考文献(References):
[1] 艾廷华.大数据驱动下的地图学发展[J].测绘地理信息,2016.41(2):1-7
[2] 曾悠.大数据时代背景下的数据可视化概念研究[D].浙江大学,2014.
[3] 刘勘,周晓峥,周洞汝.数据可视化的研究与发展[J].计算机工程,2002.8:1-2,63
[4] 贺群,杨明川.基于Web GIS的大数据可视化研究与优化[J].电信技术,2015.6(8):37-40
[5] 任磊,杜一,马帅等.大数据可视分析综述[J].软件学报,2014.25(9):1901-1936
[6] 彭顺生.基于ECharts的肺炎疫情数据处理与可视化[J].计算机时代,2020.7:47-49,53
[7] 周启云,许新华,付昱榕,刘文文,刘梦宇.基于Echarts的可视化学情分析系统设计与实现[J].信息技术与信息化,2020.3:116-119
[8] 顾荣.大数据处理技术与系统研究[D].南京大学,2016.[9] 李博.基于开源软件的大数据处理与管理平台的研究与实现[D].北京邮电大学,2017.
收稿日期:2020-08-26
基金项目:江苏省自然科学基金资助项目(BK20151160); 江苏省大学生创新计划项目(XCX2020122)
作者简介:杨晨(1997-),男,江苏淮安人,本科生在读,主要研究方向:计算数学、Web开发。
通讯作者:苏有慧(1972-),女,甘肃省白银市人,教授,博士,主要研究方向:计算数学、Web开发。