肖明魁
摘要:数据可视化,是关于数据视觉表现形式的科学技术研究,是以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。数据可视化可以增强数据的呈现效果,方便用户以更加直观的方式观察数据,进而发现数据中隐藏的信息,使用户在短时间内理解数据背后的规律與价值。
关键词:大数据;Python;类库;程序设计
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)32-0267-03
1 引言
Python作为近年来最受欢迎的面向对象编程语言之一,广泛应用于系统管理任务的处理和web编程,具有简洁性、易读性以及可扩展性等优点,尤其是支持各类丰富,功能强大的第三方类库,大大拓展了其用途,在科学计算,数据库,人工智能等领域发挥很重要的作用。numpy,pandas,matliplot和seaborn是数据分析和图形化处理是最常用的模块,NumPy是Python语言的一个扩充程序库,支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。Seaborn是在matplotlib的基础上进行更高级的API封装,从而使得作图更加容易,在大多数情况下我们使用seaborn就能做出直观形象的图表,而使用matplotlib就能制作具有更多特色的图表。本文根据2014至2015年期间全国各城市空气质量指数汇总表,探讨如何利用基于anaconda开发环境之下的python语言及其相关模块,完成实际操作。
2 模块和数据导入
结果表明,数据切分之后数据规模已经大大减小,这样有助于后续进一步处理。
4 数据分析和可视化展示
图中用不同灰度矩形代表不同城市,X轴坐标代表10月份空气质量等级,纵坐标代表每种空气质量等级的天数,明显可以看出10月份空气质量为良的城市较多。
如图所示,X轴表示八个城市,Y轴表示日期,最右侧的灰度条由浅到深代表AQI指数从低到高,图中每个小矩形块的不同色深代表各城市当天的空气质量等级,小矩形块上的数字表示当天该城市具体AQI指数。显示结果可以看出,北方四城AQI指数明显高于南方四城。
5 结语
本文通过实例直观演示,验证了python及其相关类库对于数据图形化处理的高效性和便捷性,随着大数据时代的到来,社会各领域和行业中数据挖掘和数据分析工作不可或缺,其中可视化展示技术对于科学分析和制定决策至关重要,未来必然有广阔的应用和发展前景。
参考文献:
[1] 陈明."大数据可视化分析"[J].计算机教育,2015-3-10.
[2] 聂晶.“python在大数据挖掘和分析中的应用优势”[J].广西民族大学学报,2018-2-15.
[3] 刘雨珂,王平.“基于Python+Pandas+Matplotlib的学生成绩数据统计与图形输出实现”[J].福建电脑,2017-10-31.
[4] 陈衍鹏.“基于Python第三方库实现Excel读写”[J].微型电脑应用,2017-08.
[5] 李强,白建荣,李振林,张黎明.“基于Python的数据批处理技术探讨及实现”[J].地理空间信息,2015-04-24.
【通联编辑:梁书】