范苏颖
重庆文理学院
数据挖掘可视化技术的研究与实现
范苏颖
重庆文理学院
如果把数据挖掘和可视化技术结合起来,就可以弥补传统数据挖掘中的缺陷,进而加强数据挖掘的处理过程。数据挖掘可视化正好把数据挖掘和可视化技术完美的结合在一起。
数据挖掘 可视化技术 数据挖掘
数据挖掘是把有意义的知识从数据仓库、数据库或者其他信息库的大量数据中挖掘出来的过程。它是数据管理与分析技术不断进化的结果。由于挖掘过程是看不见的,用户很难参与进去,而挖掘出来的结果通常只有专业的数据挖掘人员才能够理解,因此挖掘的结果很难取得用户的信任。如何解决这个难题呢?因为颜色、图形和图像是很形象直观的,所以可以把数据挖掘与可视化技术进行结合,这样就可以弥补传统数据挖掘中的缺陷,进而加强数据挖掘的处理过程。
数据挖掘可视化技术强调以人为本,充分利用人类在知识领域的感知能力,让用户对挖掘结果进行理解和利用。数据挖掘可视化技术的应用具有形象性和直观性,可以让更多的人参与和指导挖掘过程,因而使数据挖掘结果的可理解性、可信度和可用性得到了提高。数据挖掘可视化技术是把可视化技术与数据挖掘技术结合在一起,数据挖掘中的可视化技术按目的可分为三类:表示型、探索型和验证型。表示型是选择有效的技术和手段来表示数据;探索型是人们事先没有任何关于数据的知识,通过利用可视化技术分析数据的结构以及变化趋势,进而得到有关数据的假设;验证型是人们利用可视化来验证或者拒绝关于数据的假设。
数据挖掘可视化技术是把可视化技术与数据挖掘技术结合在一起,它通过运用图像处理技术、计算机图形学等,把数据挖掘的源数据、中间结果和最终挖掘结果,转变成便于理解的图形、图像等方式,对理论、方法和技术进行交互处理。按照数据挖掘可视化技术应用的不同阶段,可以把数据挖掘可视化技术划分为源数据的可视化、挖掘过程的可视化和结果的可视化。源数据的可视化是指在没有进行挖掘算法之前就可以直接可视化数据。而源数据可视化是用来展示源数据是怎样化分的,数据仓库中的数据可以看成是不同粒度或者是不同的抽象级别,数据可以用多种可视性的方式来进行描述,比如三维立方体、曲线、数据分布图表、盒状图、连接图、曲面等,或者是由以上几种方式的任意组合来完成数据组织的可视化。传统的几何方法可以根据数据分析的目的不同,采用点图、饼图、线图、柱状图等不同的方法。数据挖掘过程可视化是指采用可视化的形式对数据挖掘过程进行描述,也就是说挖掘过程和可视化过程是同时进行的。伴随着挖掘过程的进行,挖掘的中间结果和最终结果都会及时显示出来。在这个过程中,用户如果对挖掘的模式不满意,可以随时进行更改,调整系统参数甚至停止进行挖掘,然后再对挖掘进行指导,直到满意为止。在挖掘过程中,用户可以观察到数据是从哪里抽取的,如何抽取、怎么进行清理、集成、预处理以及挖掘的。并且可以指导如何表现挖掘的结果和把挖掘的结果放在哪里,做到在挖掘过程中及时和用户进行交流。数据挖掘结果的可视化是指在对数据库中的数据进行挖掘以后,可以把信息结果用可视化的方法表示出来。如果用户对挖掘结果不满意,可以重新可视化挖掘,最后形成知识。可视化可以用条形图、时序列图、高低区域图、柱状图、饼图来表示关联规则、孤立点、决策树、概化规则以及簇等。除此以外可视化技术还可以和一些变形与交互技术相结合,用以实现更有效的数据挖掘。比如可以采用标准2D/3D技术、基于图标技术、几何转换技术、分层技术、面向像素技术等。
数据挖掘可视化技术的研究与实现主要利用Java2D、AWT、Swing、技术结合JFreeChart开源工具包和Java3D技术开发实现。数据可视化技术的实现是指数据的可视化部分。包括两个方面,一个是对单个数据属性的二维展示,另一个是对整体数据集可视化的呈现;结果可视化技术的实现是指采用基于三维坐标的方法对挖掘结果可视化。这个方法可以清晰直观的表示关联规则。可以有效的避免界面的紊乱、歧义和遮蔽,也可以有效的表示出多对多和多维的关联规则;可视化交互的实现是指用户可以与可视化图形交互,对它产生的关联规则进行筛选和排序,除此之外还可以把结果进行缩放、旋转、或者移动,从而得到关联规则挖掘结果的多角度可视图;过程可视化技术的实现是指为了方便比较和验证过程可视化技术的有效性和优越性,可以对挖掘过程采用文字化的表达方式,和基于平行坐标的表示方法。基于平行坐标的方法是对传统的平行坐标方法的一种改进,可以对平行坐标的每一条坐标轴都进行一次扫描。所有的数据在轴上是均匀分布的。为了避免产生界面混乱的问题,各个项集支持度的轴间连线可以用不同的颜色来描述。并且用户还可以根据中间结果来调整算法的参数以及约束条件以改善挖掘结果,使挖掘质量得到提高,从而提升用户对挖掘结果的信赖。
目前,数据挖掘可视化技术与知识发现的集成问题引起很多学者的重视,许多人开始了这方面的研究。通常人们认为把数据挖掘可视化技术和知识发现结合在一起,关键在于建立共享的数据模型,从而能够帮助用户进行直观的引导和选择工具集。并且建立下个交互式的任务驱动,让用户可以根据中间结果对过程进行监控和引导,直到得到满意的结果。
[1]余世银、乐嘉锦等.数据挖掘可视化研究[K].东华大学学报(自然科学版),2001,(4):102-106
[2]杨俊、文堂柳.可视化数据挖掘方法与技术[J].福建电脑,2008,24(8):59,95
[3]还继民.开发Eclipse插件[J].电脑知识与技术,2005(3):22-25
[4]罗文静.数据挖掘中可视化技术研究与实现[D].成都:电子科技大学,2007
[5]刘玲.基于数据挖掘系统的可视化技术研究[D].北京:北京工业大学,2010