杨健章 关婷婷 曲婷婷 王璐
摘 要:针对当前数据可视化工具的种类、质量和灵活性上存在的不足,构建一个数据挖掘可视化平台。将获取的数据集上传到系统分布式数据库中,对数据集进行预处理,利用Mahout提供的分类、聚类等挖掘算法对数据集进行挖掘,使用ECharts将挖掘产生的结果进行可视化展示。
关键词:数据挖掘;可视化展示;数据预处理;挖掘算法
引言
在大数据时代,通过数据挖掘可以对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从而提取辅助商业决策的关键性信息,帮助企业做出决策。丰富而灵活的数据挖掘结果可视化技术使抽象的信息以简明的形式呈现出来,加深用户对数据含义的理解,更好地了解数据之间的相互关系和发展趋势。然而当前数据可视化工具的种类、质量和灵活性较大的影响数据挖掘系统的使用、解释能力和吸引力。
这就需要使用分布式大数据处理技术进行数据的存储和计算,构建一个数据挖掘可视化平台,通过多种挖掘算法实现对原始数据集进行挖掘,从而发现数据中有用的信息。
1 关键技术
1.1 MapReduce离线计算框架
一种在YARN系统之上的大数集离线计算框架,使用MapReduce可以并行的对原始数据集进行计算处理,从而高效的得出结果。
1.2 HBase分布式数据库
一个构建在Hadoop之上分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
1.3 Mahout
Apache Software Foundation旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子项挖掘等。
1.4 ECharts
一种商业级报表,创建了坐标系,图例,提示,工具箱等基础组件,并在此上构建出折线图、柱状图、散点图、K线图、饼图、雷达图、地图、和弦图、力导向布局图、仪表盘以及漏斗图,同时支持任意纬度的堆积和多图表混合实现。
2 系统设计
数据挖掘可视化系统包括数据预处理、挖掘算法、可视化显示三大核心模块。
2.1 数据预处理
通过上传接口将数据集上传到分布式数据库HBase中,对数据进行预处理后,将处理后的的数据集存储留待挖掘时使用。
2.2 挖掘算法
使用开源的数据挖掘框架Mahout,对所需挖掘的算法进行相关的参数设定,完成相关算法的挖掘。
2.3 可视化显示
挖掘之后的相关结果存放到MySql数据库中,前台从数据库中获取挖掘结果,并且使用ECharts进行可视化显示,用户通过前台提供的可视化结果进行数据分析,从而获取所需要的信息。
3 系统实现
本系统在操作系统之上构造了HDFS分布式文件系统,本地文件系统与分布式文件系统共同存在。在本地文件系统之上组织了关系型数据库MySql和分布式数据库HBase集群,其中MySql用来存储管理员账户信息和少量的数据信息,HBase用来存储用户上传的数据集。文件系统和数据库之上使用分布式计算框架MapReduce和Mahout数据挖掘包,对用户的数据集进行分类、聚类、关联规则等挖掘。后台管理员界面选择数据集以及挖掘参数的设定,前台用户界面通过图表形式展示挖掘结果,帮助用户进行数据分析。系统中用到的开发工具如表1所示。
4 结束语
现有的数据挖掘可视化工具种类在国内相对较少,在质量上对用户的展示缺乏交互性,且对于数据集的挖掘靈活性上比较欠缺。采用了当前在数据挖掘及其可视化领域相对比较成熟的技术,用户可以对挖掘结果的展示进行交互、下载、打印等操作。用户只需将数据集上传到系统中,设置相关挖掘参数即可实现对数据集的挖掘,提取有用的数据,通过直观的图表进行分析。
参考文献
[1]胡俊.数据挖掘可视化模型机器应用[D].北京交通大学,2009.
[2]施惠娟,孙蕾,李由.关联规则下数据挖掘可视化技术的探讨与实现[D].华东师范大学,2010.
[3]李渊.基于K-means算法的数据挖掘可视化技术的应用研究[D].北京交通大学,2008.
作者简介:杨健章(1991-),男,大四学生,专业:计算机科学与技术。
*通讯作者:王璐(1980-),女,硕士,讲师,主要研究方向:计算机应用。