基于Python实现的新冠疫情数据挖掘案例分析

2020-02-26 12:37闻思源刘庆旺
上海商业 2020年12期
关键词:数据挖掘数量案例

闻思源 王 睿 刘庆旺

0 绪言

数据挖掘是指从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。在当前伴随信息革命而产生数据爆炸的情况下,数据挖掘已成为一种非常重要的决策支持方法[1]。数据挖掘主要基于数据库、统计学、可视化技术、智能自学习等数学方法,高度自动化地分析数据,做出归纳性的推理和挖掘潜在模式,从而帮助决策者做出正确的判断,数据挖掘过程由以下三个阶段组成:数据准备;数据挖掘;结果表达和解释。

在《数据挖掘技术》课程的教学过程中,缺乏具有时效性强的足量数据、学生对于数据挖掘理论与实践相结合方法论难以建立起系统化概念,对数据挖掘结果难以有效地进行深入析因,这是教学过程中面临的主要难点。

1 案例背景

2019年底以来,世界各地普遍爆发了新型冠状肺炎疫情,波及范围之广,损失之大,社会影响之严重,近几百年来前所未有。由于信息技术的广泛应用,使得此次疫情数据非常充分地得到了记录,并且通过互联网进行公开发布,为本课程的教学以及管理科学实践提供了难得的数据基础、技术实现平台和挖掘分析空间。

针对本次疫情,各个国家和医疗相关机构都有实时数据发布,如(1)News Break从国际卫生组织(WHO)、美国国家健康中心、中国疾病预防控制中心等权威发布机构获得并发布的疫情数据;(2)美国约翰.霍普金斯大学的全球疫情数据大屏;(3)中国百度公司根据国家卫生与健康委员会数据接口发布的疫情地图。通过数据探查,从数据权威性、获取可行性和数据完备性角度综合考虑,决定本案例数据源中涉及的国外疫情数据采用News Break发布数据,国内疫情数据采用百度疫情地图数据。

2 案例构成要素

本案例以从2020年初以来开始公开发布的国内外新冠疫情实时更新数据作为数据基础,以Python3.7及Request、Numpy、Pandas、Matplotlib、Pyecharts、Scikit-learn 等数据处理与分析相关常用包库作为技术实现工具,实现数据挖掘的基本过程[2-3]。本案例的构成要素主要包括以下内容:

(1)网络数据的爬取。以Request包和作为数据爬取基本工具包,调用其方法获得网页源文件,由于数据是实时发布,本案例采用在线爬取(每天定时采集)和离线爬取(从离线网页源文件中分离)两种方式进行源数据获取。

(2)源数据的解析与清洗。首先通过Pandas包、BeautifulSoup包结合Python的字典、列表和集合数据操作,从网页源文件中分离出Json格式的疫情数据作为原始数据源,然后从其中分离出国内和国外疫情数据项,具体内容包括:累积确诊数量、每日新增确诊数量、疑似数量、重症数量、死亡数量、累积治愈数量、无症状感染数量、境外输入确诊数量等,国内数据精确到地级市,国外数据中,美国精确到州和主要城市,其他国家精确到国家;再通过Pandas包中方法对数据进行规范化清洗处理,具体包括:无效值排除、缺失/空值填充、异常值/重复值处理、更改格式、排序分组等,从而得到适合挖掘分析的规范全结构化数据。

(3)数据基础统计。利用Pandas包提供的统计学方法,完成均值、标准差、中位数、分位数、峰度、偏度、极值等统计运算,从而对各国家和地区疫情数据基于时间窗口做基础性统计;

(4)数据静态可视化。利用Matplotlib包提供的数据显示图形化方法,利用前述各数据项生成绝对指标(如各地区感染总数)和相对指标(如感染总人数的各地区构成比例、A地区与B地区确诊数量比值等)随时间的数值变化曲线,通过随时间的纵向曲线、以地区为单位的横向对比等图形充分从不同角度展现数据基本面。

(5)数据动态可视化。利用Pyecharts包中提供的地图数据和相关图形化方法,针对前述的各绝对指标和相对指标,生成时间线轮播多图、地区分布图、地区热图等,从而动态展示疫情严重程度的变化、不同地区的疫情规模和发展趋势[4]。

(6)实施数据挖掘算法应用。利用Scikit-learn包中提供的数据挖掘方法,通过回归分析考察疫情规模的相关因素,通过预测分析考察各项指标随时间的发展变化趋势,通过聚类分析考察各地区疫情状况的相似性和不同分级[5]。

(7)数据分析。通过前述各指标的数据统计结果和数据挖掘结果,站在比较性分析的角度,分别从效率质量两个方面分析中国和美国、中国和欧洲、中国和世界其他国家和地区在疫情防控方面的差别,并深入挖掘不同效果的社会根源,从而在基于客观数据和科学挖掘分析的基础上建立充分的制度自信、文化自信、发展自信。

3 小结

本案例改变传统案例侧重于算法解释,与现实社会和经济问题脱节严重的情况,通过对疫情数据统计与挖掘结果的析因分析,在培养学生数学算法和技术能力的同时,更加注重数据联系现实,增强学生用数据挖掘辅助解决管理学问题的能力。

猜你喜欢
数据挖掘数量案例
案例4 奔跑吧,少年!
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
随机变量分布及统计案例拔高卷
统一数量再比较
发生在你我身边的那些治超案例
头发的数量
一种基于Hadoop的大数据挖掘云服务及应用
一个模拟案例引发的多重思考
我国博物馆数量达4510家