朱亚琼
摘要:在当下的“大数据”时代,每一分每一秒都有无数数据正在不断产生,因此,如何挖掘数据蕴含的真正有价值的信息,成为人们关注的热点。数据挖掘这一学科的出现,正在逐步解决这一难题,而可视化驱动的交互式数据挖掘也不断带来新的发现。该文通过对可视化数据挖掘、交互式数据挖掘的简要概述入手,延伸到可视化与交互式数据挖掘的分类,并通过举例说明,介绍了各种的典型代表与实际应用。
关键词:可视化;交互式;数据挖掘;检索;技术
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)36-0004-02
互联网的迅猛发展使我们正逐步步入“大数据”时代,当下,我们正面临着一个数据量空前庞大的世界。随着硬件设备的进步,我们的数据存储能力正不断提高。据英国伯克利大学统计,当下全球每年大概会产生1 Exa 字节的数据,超过一半的数据是电子数据形态,我们也可以由此估计,未来幾年产生的数据甚至会超过原有的所有数据量。数据的产生无处不在,即使是我们日常生活中的不经意动作,如通话,上网等等,都会产生大量的数据。由于人们相信数据中蕴藏着大量有用信息,所以这些数据被人们保存下来,但是,人们却面临着一个艰难的问题:我们如何从海量数据中挖掘出真正有用的隐藏信息?如果我们不能从费力收集保存的数据中获得所需要的信息,那么这些数据将会失去自身价值,用于储存数据的数据库将会成为“垃圾站”。
因此,面对众多的数据,如何进行挖掘和检索成为了一个棘手的问题。信息可视化技术的出现为我们解决此问题提供了很大帮助。计算机可视化技术借助计算机的储存功能和计算功能,加入人的观察力、创造性,使人能够在很大程度上参与数据检索,真正的实现人与计算机之间的交互。通过实践证明,可视化技术的应用在数据检索挖掘中潜力巨大,有着很大发展空间。
1 什么是可视化数据挖掘
随着人们对数据挖掘的逐渐了解与深入,可视化数据挖掘的重要性日益凸显出来。简单来说,可视化数据挖掘是人们对数据进行直观的分析,并结合交互式算法进行计算研究。可视化数据挖掘需要充分利用可视化技术,并把数据挖掘的结果直观的表现出来,得出可视化的结果。由于我们日常收集的数据自身带有很高的价值,当我们采用可视化的方式去处理数据时,视觉是观察数据的重要方式,这也帮助人们将视觉感官的作用不断发挥出来。可视化数据技术的基本作用就是将用户需要处理的大量信息通过计算机的计算分析功能转化为便于用户用感官去观察分析的数据。当计算机将数据整理成常见的科学模型时,用户就可以进一步的分析数据,找到数据中所蕴含的信息,从而找出问题的解决方法。
2 什么是交互式数据挖掘
交互式数据挖掘作为一种数据挖掘的算法,在实际应用中有几种标准的分类。主要的方法是+V型方法与+M型方法。+V型方法更加侧重计算机的数据处理能力,用计算机来挖掘数据中的隐含信息,将+V型方法与可视化相结合,可以更好地使用户提取信息。而+M型方法更加依赖与可视化技术,可视化技术是这种方式中最主要的数据处理方式。
3 可视化与交互式数据挖掘技术的分类
3.1 可视化数据类型
可视化的数据类型包括六类:一维数据、二维数据、多维数据、文本或超级文本、层次或图表以及算法或软件。
3.1.1 一维数据
一维数据的典型特点是密集,时间序列数据就是一维数据的典型代表,时间序列数据中,每一个时点上都有与之相对应的一个或多个数据,例如一段时间内股票的价格等。
3.1.2 二维数据
从名称上来看,二维数据即有两个不同维度的数据。地理数据就是二维数据的典型代表,地理数据中有经度和维度两个不同的维度,并借助X-Y轴系图表示出来。
3.1.3 多维数据
顾名思义,多维数据是有三个或三个以上的维度构成的数据,因此多维数据的可视化十分复杂。我们常用的数据库中的表格是多维数据的典型代表,一个表格中可能会有几十甚至上百列的属性,因此很难用二维方式去分析和研究,只能借助可视化技术进行处理。常用的技术包括平行坐标可视化技术,平行坐标的建立可以用折现将多维数据表示出来,使复杂的数据更加直观与可视化。
3.1.4 文本和超级文本
由于数据种类的多样化,一部分数据是不能通过维度表示出来的。随着网络与计算机技术的进步,文本和超级文本成为了一种重要数据类型。对于此种数据类型,需要先将数据转化成可以使用向量进行描述的数据,才能进一步使用多维技术与可视化技术。
3.1.5 层次与图表
图表与数据记录有着密切的关系,图表的节点包含着被记录的对象,边界表示对象间的联系。典型代表包括电子邮箱之间的信息发送与接收,网页间的超级链接等等,针对这里一类数据有很多专门的可视化技术。
3.1.6 算法与软件
算法与软件是一种大型的软件工程,这一类数据的处理也是一项很有难度的工程。在这种数据的处理上,可视化技术的宗旨是提高人们对算法的理解,从而更好地拓展软件内容。可视化技术在算法中的常见应用有将软件的源代码图表化,使程序能够更加的直观,方便编程人员与工程师对于代码的调试。目前,很多技术已经可以很好地实现算法与软件的可视化。
3.2 可视化技术类型
可视化的主要技术包括五类:标准二维/三维显示技术、几何变换显示技术、密集像素显示技术、图标显示技术和堆叠像素显示技术。
3.2.1 标准二维/三维显示技术
最为基础的技术方法,可以很大程度的实现数据可视化。
3.2.2 几何变换显示技术
几何变换显示技术可以将多维数据中的变换显示出来,常见的技术包括探索统计技术、前剖视图、切片以及平行坐标可视化技术。平行坐标可视化技术是一种十分重要的几何变换显示技术,这一技术可以在两个维度中将K维空间表示出来。
3.2.3 圖标显示技术
图标显示技术是指用特定的图标来记录数据的属性。例如,在显示维中记录二维数据,利用不同角度、不同长度的图表记录数据的其他内容,如果出现显示维的数据过度密集的情况时,则可以依据可视化原理,使不同的数据呈现不同形状,便于人们识别。
3.2.4 密集像素显示技术
与上一技术的原理类似,密集像素显示技术是用颜色像素来记录每一维度的数据属性,并将像素聚集和分类。一般情况下,一个颜色像素用来表示一个数据值,因此可以使大量的数据被可视化。当像素在屏幕上根据不同的目的排列时,会将结果十分直观地显示出来。常用的密集像素显示技术包括递归模式技术和圆环段技术。
3.2.5 堆叠显示技术
对于层次分布的数据,一般采用堆叠显示技术,要根据不同情况灵活选用数据维和层次。堆叠显示技术的典型代表是维度堆叠,简单来说就是将一个坐标系嵌入另外一个坐标系,通过坐标系的不断合并,将数据的属性形成可视化的结果,在这一技术的应用中,最关键的是最外部坐标维度的选择,应该按照重要性优先选择外部坐标系。
3.3 交互性技术
交互性技术的功能是促进用户与可视化界面的交互,主要有五类:交互式投影技术、交互式过滤技术、交互式变形技术、交互式变焦技术和交互式链接和涂刷技术。
3.3.1 动态投影技术
动态投影技术是指在进行数据挖掘时,改变数据的动态投影,来进行计算分析的技术,但这种方法具有一定局限性,在进行高维信息的处理上发展空间很小。
3.3.2 交互式过滤技术
当人们在面对庞大的数据时,数据的检索与查询必不可少,但是浏览数量十分大的数据是,仍是一件费力的事。因此,交互过滤技术逐渐发展起来,这一技术的典型代表工具是“魔镜”,这一工具的原型是生活中的放大镜,可以在筛选数据时实现可视化并过滤,以更加直观的方式显示数据。
3.3.3 交互式变焦技术
交互式变焦有着十分广泛的用途,是非常著名与重要的技术。这一技术可以将研究的数据进行放大,也可以将数据的显示方式进行自动调整,使数据的细节部分能够更好地被研究。关于这一技术有很多著名的例子如PAD++、DataSpace等等。
3.3.4 交互式变形技术
交互式变性技术对于用户检索信息来说十分便利,可以在展示用户需要检索的数据的同时,仍旧保留数据整体信息与概括信息。典型的交互式变形技术有双曲线变形技术和球面变形技术,在对于层次与图表数据的挖掘中经常被运用。
3.3.5 交互式链接和涂刷技术
尽管可视化技术众多,但是每一种技术都有着自身的优先与局限性。而交互式链接和涂刷技术则可以在众多的技术中取长补短,不断地将各种技术相结合。交互式的链接技术可以将不同项目的散点图相结合,涂刷技术可以使部分在全部的可视化数据中更为突出,因此,链接和涂刷技术的结合,为用户的可视化提供了更好体验。这一技术的典型代表包括散点图、饼状图、地图等等,适用于绝大多数的数据检索系统。
以上三种方法虽然是三个不同维度的分类方法,但是在实际应用中,在任何类型的数据处理中都可以采用可视化与交互式技术的结合运用。
4 结束语
在信息量不断膨胀的今天,我们会面临越来越多的数据,如果运用得当,数据会成为人们生活工作各方面的得力助手。面对“大数据”时代,可视化技术有着极大的潜力,在数据挖掘等许多领域有着重要作用。
在未来,可视化数据挖掘研究的一个重要方向就是与传统学科如统计学、运筹学、计算机科学等学科的整合,通过技术与专业知识的结合、人的感官能力与计算机的数据挖掘功能的结合,将会使我们对信息的整合与挖掘有一个质的飞跃。同时,可视化数据挖掘的发展也离不开信息化系统,要将可视化技术与数据库等结构化信息系统整合起来,形成一个更加庞大和全面快速的大型数据挖掘系统,不断扩展这一技术的发展空间,更好地为人们的实际生活带来便利。
参考文献:
[1] 马昱欣,曹震东,陈为.可视化驱动的交互式数据挖掘方法综述[J].计算机辅助设计与图形学学报,2016(1).
[2] 吕绍鑫.可视化驱动的交互式数据挖掘方法研究[J].信息与电脑,2016(11).
[3] 熊平,朱天清,王晓峰.差分隐私保护及其应用[J].计算机学报,2014(1).
[4] 陈莹,杨素锦.数据挖掘语言应用现状研究[J].煤炭技术,2011(6).
[5] 钱维扬,王俊义,仇洪冰.基于Hadoop的数据挖掘技术在测光红移上的研究[J].电子技术应用,2016(9).
[6] 闫大卫,涂波,黄小磊.基于教育云的交互式音乐教学模式研究——以钢琴教学为例[J].黄钟—中国·武汉音乐学院学报,2014(3).