章 蓉 , 陈 谊 , 张梦录 , 孟可欣
(1. 北京工商大学计算机与信息工程学院 食品安全大数据技术北京市重点实验室,北京 100048;2. 武汉理工大学信息工程学院,湖北 武汉 430070)
聚类算法作为数据分析中的一种重要挖掘手段,能够根据相似性度量对混乱、无规律的原始数据自动分组,其结果反映了数据内部的分布特征和结构模式。并极大地降低了分析人员探索位置数据的认知负担。马昱欣等[1]对比了数据挖掘与可视化提取知识的流程发现,加入可视化方法后,用户可以通过视觉通道从结果中发现和提取符合需求的数据特征和模式[2-3]。同时视觉模型可以利用交互方式接受用户的反馈并生成新的可视化结果,用户的专业知识和任务需求得到了很好地考虑[4]。SEO和SHNEIDERMAN[5]早在 2002年就提出了一个 Hierarchical Clustering Explorer的交互式可视化工具来探索聚类结果。随后,研究者们又陆续提出了多种交互式聚类可视分析系统[6-9],将分析的上下文和分析任务的目标与期望相结合,以帮助用户更高效地进行聚类分析。
越来越多维数众多且结构复杂数据的涌现加大了传统的聚类方法处理这类数据的复杂性和计算成本,许多更具扩展性和交互性的数据聚类可视分析系统[10-13]相继被提出。面对日益复杂的海量数据,可视分析通过对聚类算法选择、模型参数设定和分析结果展示等不同方面进行融合,相对于数据挖掘和统计学方法,在挖掘聚类结果和理解聚类过程方面有更大的优势。许多综述文章[14-17]大多是针对数据量大为数据聚类带来的问题对算法进行归纳总结,忽略了高维数据“维度诅咒(curse of dimensionality)”问题也为聚类分析提出了不少挑战。这些挑战既存在于算法选择方面,也存在于可视化设计方面。本文从高维数据进行数据聚类时存在的问题出发,回顾了近10年高维数据聚类可视分析取得的研究成果并进行了总结,其主要贡献为:
(1) 总结了高维数据聚类过程中常用的数据处理方法,并对其性能进行了比较。
(2) 总结了近10年来高维数据聚类的2类可视分析方法,包括基于降维及子空间聚类的可视分析方法。
(3) 对目前高维数据聚类可视分析中存在的机遇与挑战进行了讨论。
研究人员进行聚类分析的目的主要有2种:①为了减少数据量,将聚类结果作为其他算法的预处理过程,之后将诸如分类、特征学习等算法在检测到的簇中进行操作;②为了更好地理解数据,通过探索有意义的簇及其特征空间来认识数据的内在结构[18]。前者追求较好的聚类结果是为了更好地进行后续的分类及特征学习,主要是侧重于设计和改进聚类算法以更好地匹配数据集。后者需要研究人员能够深入数据内部,发现和展示数据内部规律及隐藏的模式特征。本文主要针对后者对近年来高维数据聚类可视分析方法进行总结。
聚类本身是一个探索过程,并且其数据通常都是无标签的。在大数据时代,人们对于收集和存储原始数据的属性和内在结构并不了解,甚至十分陌生,很难直接知晓数据集中是否存在聚类模式以及其反映的数据内部是怎样的数据特征和规律。即使研究人员根据领域知识提前知道数据集中可能存在聚类模式,但在聚类算法的选择和模型参数的设定等方面也面临着巨大的组合空间。高维数据的维度可以从几十维到几百维不等,在进行聚类分析时不仅需要解决数据量大的问题,其自身高维性带来的“维度诅咒”问题[19]也会使得传统聚类算法的结果非常不理想。除此之外,由于人类自身难以直接构建和快速识别超过三维空间中数据的结构和特征,对高维数据的聚类结果进行有效可视化也存在着许多挑战[20]。例如平行坐标是一种常用的多维数据可视化方法,但是随着数据量和维度的增加,其视觉紊乱现象会变得十分严重。同时平行坐标难以呈现非相邻维度之间数据的分布特点。尽管文献[21-22]对平行坐标做了改进,但是单一的可视化方法难以满足日益增长的聚类分析需求。
图1为高维数据聚类可视分析的流程图。高维数据聚类可视分析可分为2步: 第1步数据建模,即对高维数据进行聚类,挖掘数据中存在的聚类模式。高维数据中“维度诅咒”问题为数据聚类带来最直接的影响是时间和空间复杂度呈指数上升趋势以及使度量样本间相似性的距离度量失去意义。除此之外,“高维性”这一特点也使得数据中簇的形成并非依赖于所有维度,而是在部分维度上呈现出聚类模式,且由不同的特征空间构成。这些问题都为高维数据聚类带来了许多挑战。如何从这类具有高维性的复杂数据[23]中挖掘出合适的聚类结果是高维数据聚类可视分析的首要问题。降维和子空间聚类算法是用来有效挖掘高维数据中聚类模式的2种数据处理方法。其可以帮助研究人员排除高维数据中不相干维度的影响,同时挖掘其中隐藏的聚类模式。
图1 高维数据聚类可视分析流程图
在挖掘出聚类模式后,高维数据聚类可视分析的第2步是利用可视化技术帮助用户分析和理解聚类结果,揭示数据内部隐藏的结构和关系。
(1) 聚类结果分析。其主要针对无标签数据,由于缺乏一致、定量的指标评价聚类结果好坏,用户需要根据其任务和自身的专业知识来判断聚类结果是否符合需求。除此之外,聚类算法、样本和属性的不同组合会对聚类结果产生较大的影响,甚至由于算法随机挑选的初始点不同,在算法、参数和样本等都一致的情况下聚类结果也可能会发生改变。这都为用户分析和比较不同聚类结果带来了挑战。利用可视化技术分析聚类结果能够为用户同时呈现数据的不同聚类结果,通过交互手段帮助用户比较其异同,发现其区别和联系,进而获得较好的聚类结果。然后通过简洁交互界面的设计发现簇内数据点之间的关联关系[24],并帮助用户直观的了解数据项之间的联系。
(2) 特征空间分析。簇在特征空间中的分布情况反映了数据内部的结构和规律,对数据进行聚类分析的目的也是为了帮助用户自动、高效地发现原始数据集中的这些结构和规律。为此需要探索特征空间维度间的相关关系并发现数据在空间中的分布特点[25]。由于聚类算法主要是通过用户自定义的相似性度量对数据进行自动分组,这会使挖掘出的聚类结果可能存在相互之间没有实际关系或规律的数据被聚集到同一个簇中。此外高维数据中的聚类模式往往不存在于全局空间中,这些都要求用户能够准确发现并认识不同簇内数据在其特征空间中的分布。利用可视化技术,用户可以直观的比较不同簇内数据在其特征空间中的分布情况。同时通过交互方法可以比较同一簇在不同特征空间的分布情况,并分析和比较其区别和联系,进而正确认识数据的内部结构和规律。
高维数据聚类可视分析的数据建模过程是为了帮助用户挖掘高维数据中存在的聚类模式并获得聚类结果。在这个过程中,用户首先需要对原始数据集进行筛选并构造特征矩阵,为数据处理提供可靠的待分析数据;然后对其进行聚类,挖掘数据中存在的聚类模式。为了解决这些问题并获得聚类结果,目前常用的处理方法是降维和子空间聚类2种。
降维是通过线性或非线性变换,将数据从原始的高维空间嵌入至低维空间,在剔除不相干维度影响的同时使数据在低维空间中尽可能保持高维空间中的结构。经典的降维方法包括主成分分析[26](principal component analysis,PCA)、线性判别法[27](linear discriminant analysis,LDA)、多维尺度缩放[28](multidimensional scaling,MDS)、等度量映射[29](isometric mapping,isomap)、局部线性嵌入[30](local linear embedding,LLE)、t-SNE[31]等。上节讨论的“维度诅咒”问题是影响高维数据聚类的一个重要因素,通过对数据进行降维处理,研究人员可以将高维空间中稀疏的数据映射至一个低维稠密空间,使其空间样本点之间的距离变得有意义,并作为聚类算法中的相似性度量对数据进行自动分组。对降维后的数据应用诸如 k-means、DBSCAN、层次聚类算法等主流的聚类算法,挖掘数据在原高维空间中存在的聚类模式。例如对于一个具有500维的数据集,首先利用 PCA方法将该数据从原始空间降维至10维空间,然后对其数据应用DBSCAN的聚类方法获得聚类结果。聚类算法用于降维后的数据,大大降低了算法的时间和空间复杂度。
子空间聚类[32-33]旨在探索存在于高维数据子空间中的簇。通过将数据的原始特征空间分成不同的子空间以保留原数据集中的不同特征,减少了不相关维度和特征的影响,能够帮助用户同时挖掘数据中的簇及其特征空间。在子空间聚类算法中,一般采用2种策略来避免检索有意义的子空间和发现聚类模式之间的循环依赖关系。根据策略将子空间聚类算法分为:自底向上搜索网格方法[34-38]和自顶向下搜索迭代方法[39-43]。
通过对高维数据聚类可视分析的数据建模过程进行讨论可以看到,降维和子空间聚类这 2种数据处理手段都可以用来解决高维数据聚类过程中遇到的问题并为用户提供聚类结果。但 2种手段解决高维数据聚类问题的原理和最后获得的聚类结果且有很大的不同,这也会为后续分析和理解聚类结果并认识数据内部结构和规律提出不同的需求。
利用降维方法挖掘高维数据中的聚类模式,主要目的是通过保持数据特征在高维空间和低维空间的一致性,使得主流的聚类算法能够在一个低维稠密空间挖掘数据在原始高维空间中存在的聚类模式,降低由于“高维性”为聚类算法带来的长时间和空间复杂度。利用子空间聚类方法挖掘高维数据中的聚类模式则不需要将高维数据映射到低维空间,正如上节讨论的,通过自顶向下或者自底向上的搜索策略能够直接挖掘出高维数据中的聚类模式,同时用户还能获取每个簇的特征空间。这也是子空间聚类帮助高维数据聚类获得聚类结果区别于降维方法的地方,因为数据从原始高维空间映射至低维空间后,聚类算法在低维空间中所使用的相似性度量涉及到的维度已经失去了原有的意义,其可解释性较差[44]。因此用户不能获得构成该聚类模式的特征空间。这种差异也为后续分析聚类结果提出了不同的要求。
表1对比了利用降维和子空间聚类方法对高维数据进行聚类的性能。可以看到降维方法适用于同一特征空间中的数据簇,其为研究人员提供一个很好的全局概览。但结果难以解释,且用户很难同时获得与该簇相关的维度集合[45]。一旦维数增加,全局降维技术就不是最优的,更好的方法是发现与局部聚类任务最相关的子空间[46]。而且利用降维和主流聚类算法的组合挖掘高维数据的聚类模式对聚类结果的好坏有很大的影响。WENSKOVITCH等[47]已对可聚类分析中降维和聚类算法的选择以及应用等方面做了总结。除此之外,降维后的数据并不能完全保留高维空间中数据项之间的所有关系,因此在降维过程中很难确定应该保留数据中的哪个特征更有利于下一步分析[48]。特别是非线性降维,不同参数设置会显示哪些数据特性都是难以回答的[49]。该问题在利用子空间聚类挖掘高维数据中的聚类模式时则不会出现,相反的,用户可以通过子空间聚类挖掘出高维数据中可能存在的所有聚类模式并获得各个簇的特征空间。尽管子空间聚类的这种优势可以保证用户不丢失高维数据中的信息,但容易产生冗余信息,例如挖掘出的不同子空间中簇存在重叠现象。其造成更多的计算时间,并加大了用户的认知负担,用户还需从这些结果中辨别具有意义的聚类结果。
表1 降维与子空间聚类方法的性能比较
考虑到降维和子空间聚类方法的不同运行机制以及利用2种方法获得的聚类结果对于后续分析的关注点不同,本文将高维数据聚类可视分析方法分为:基于降维和基于子空间的聚类可视分析方法2大类。
SEDLMAIR等[50]设计了一个工作流模型,用二维、三维散点图和散点图矩阵的可视化技术来编码数据,并利用矩阵热图的形式比较3种技术对于数据可分性的性能,指导用户在验证高维数据中的聚类结果可分性时选择更好的可视化编码。GRIPARIS等[51]利用降维方法对地球观测档案进行探索,旨在识别具有相似语义的内容。
通过高亮三维投影空间的数据点能帮助用户发现具有相似结构的数据项,如图2所示。WANG等[52]提出了一个感知驱动的线性降维方法,并将其结果以二维散点图的可视化形式与其他降维方法进行了比较,发现该方法弥补了监督降维方法未考虑到人类的感知能力而导致一些类结构未被研究人员观察到的情况。
图2 地球观测档案聚类结果可视化[51]
随着维度的增加和数据结构也变得更加复杂,单一的可视化展示已经难以满足分析需求。同时通过降维和聚类算法对初始参数设定往往不能直接得到较好的结果,需要研究人员进行迭代分析。文献[46]设计了TripAdvisorN-D的可视分析系统(图3),该系统从一个初始的投影散点图开始,为用户提供了交互式工具对数据进行全局导航和局部探索,分析和认识高维数据中簇的分布情况。随后 WANG和 MUELLER[53]考虑到人们缺乏真正理解超过三个维度空间的能力,在 TripAdvisorN-D的基础上设计并开发了一个Subspace Voyager系统。该系统为用户生成一组连续的三维子空间并将数据投影到其中,显示为轨迹球。用户可以通过旋转、跳转、拖拽、保存等手段对高维数据进行可视化聚类分析。但这些都过于依赖用户手动调整参数,缺乏指导性意见来帮助用户发现分析簇。XIA等[54]提出了基于投票的投影推荐框架并开发了一个可视分析系统。用户在初始投影中发现聚类模式后,可以选定该簇,这时系统会自动推荐一个效果更佳的投影让用户识别出该簇。当系统没有更好地推荐时,用户可以人为地调整投影结果。图 4为该系统的一个实例分析过程。与其类似,LAI等[55]希望通过增强局部投影探索高维数据,为此开发了FocusChanger系统,该系统能够半自动地帮助用户进行聚类分析,使人的分析能力充分和机器的计算能力相结合。
图3 TripAdvisorN-D系统界面[46]
将深度学习模型的隐藏层作为降维的一种特殊形式也受到广泛关注。ZHANG等[56]通过无监督深度学习框架发现的簇反映了邻域的深层特征。HAN等[57]首次将深度学习技术应用到流数据的特征学习中,并提出将 FlowNet网络的输入集划分为簇,这些簇中蕴藏着最能捕获底层流特性和模式的子集,图5为FlowNet网络框架图,图6为结果可视化效果图。
通过文献可知,基于降维的高维数据聚类可视分析方法主要是通过散点图或以散点图为主视图,其他视图辅助的多视图协同技术分析高维数据的聚类结果。在早期,研究人员通过散点图的各种形式如二维散点图、散点图矩阵等方式对聚类结果进行投影,投影图中点与点之间的位置关系反映了各点之间的相似程度,而用户也能很好地通过位置关系来辨别不同降维和聚类算法组合获得的聚类结果之间的好坏。随着数据集及维度数量变大,更具交互和指导性的可视化方案设计出现,这也正是本节开始讨论的利用降维方法解决高维数据聚类问题带来的挑战决定的。根据表1可以看到,研究人员很难直接知道降维后的数据对于数据在原始高维空间中特征的保留情况,特别是随着数据量和维度数量的增加以及目前对于深度学习的火热研究,更加大了该问题的难度。因此能够提供指导信息来引导研究人员下一步操作的半自动化可视分析方案变得越来越重要。同时设计多个视图来辅助研究人员分析当前状态下聚类结果反映的数据特征,以提供交互方法来调整算法参数并获得更好的聚类结果的需求也变得更加重要。
图4 文献[54]实例分析过程图
图5 FlowNet网络框架图[57]
图6 FlowNet实例结果图[57]
ASSENT等[58]指出现有的子空间聚类方法缺乏交互可视化,同时目前算法对子空间的维数存在偏倚,即未考虑到不同子空间中维度的密度是不可比的。在此基础上,作者提出了维数无偏子空间聚类和子空间簇的距离函数,同时设计了 2个可视化工具允许用户浏览整个子空间集群,放大到单个对象,深入分析子空间集群特征。该系统的不足之处是不支持相应子空间中数据分布的可视化比较。Heidi Matrix[59]基于每个子空间中k个最近邻点的计算,使用二维矩阵加以颜色映射呈现数据集中的簇,同时还比较了这些簇在不同的特征空间中是否有重叠的数据分布情况。FERDOSI等[60]提出了一种用于聚类子空间排序方法,克服了许多聚类算法要求用户在没有任何指导原则的情况下,设置大量的参数和难以反映当前集群的数量或集群的重要性等问题,其设计的可视化系统以树形结构帮助用户交互选择各个子空间,并对其数据分布情况进行呈现。YUAN等[61]提出了层次化的交互式子空间可视分析方法,图7为Dimension Projection Matrix/Tree工作流程图。该方法包括 2种新的探索视图,其一是维度投影矩阵,在矩阵中,每行或每列表示一组维度,每
个单元格显示具有相应维度的数据的维度投影;其二是维度投影树,其中每个节点是维度投影矩阵。该方法能够同时探索高维数据的数据相关关系和维度间的相关关系。
图7 维度投影矩阵/树工作流程图[61]
簇的特征空间分析在聚类分析中也是一个非常重要的研究工作,其能帮助用户发现数据内部结构和分布规律。2015年 WATANABE等[62]基于双聚类技术提出一种提取特征子空间的新方法。与传统方法不同,高相关的维度被自动分组形成子空间。在传统的平行坐标上,通过增加聚类的平行坐标图(Clustered PCP)和聚合的平行坐标图(Contracted PCP)来帮助用户对特征空间进行比较。夏佳志等[63]认为维度间的相关性往往存在着数据上局部性,即不同数据子集体现出不同的维度相关性。在全局相关性分析时,这种维度局部相关性往往被掩盖,为此,提出一种基于子空间聚类的局部相关性可视分析方法。帮助用户发现簇内维度之间的局部相关关系。图8为其系统图。随后 XIA等[64]又提出一种基于维度相关性的子空间聚类可视方法,其开发的系统使用户能不断挑选相关性较高的维度构成子空间并可视化数据在子空间中的分布情况。不仅能帮助用户了解各维度间相关性大小,同时还能比较同一个簇在不同子空间中的分布情况。图9为该系统的实例分析过程。值得一提的是,在进行子空间聚类时,有一些簇可能在数据的原始维度中难以发现,但在一些重构的维度构成的空间中发现。ZHOU等[65]提出了一种基于维度重建的高维数据子空间聚类可视分析方法。该方法能够从子空间的数据投影中重建新维度,以保留有趣的集群信息。图10为文献[65]提出的交互式子空间分析的维度重建概念图,重建的维度包含在具有原始维度的分析工作流程中,以帮助用户构建能够清楚地显示聚类模式的子空间。为了避免子空间聚类算法挖掘出冗余信息,LEHMANN和THEISEL[66]提出了一种寻找相关投影的新方法。通过定义一个度量来衡量加入新的维度构成的子空间投影中簇类效果是否会增加,如果有则成为新的投影,否则舍弃。这样很好地避免了子空间聚类出现冗余的问题。
通过上述文献可以看到,基于子空间的高维数据聚类可视分析方法同样是以散点图的形式来分析聚类结果,用户可以通过点与点之间的距离直观、快速地获得数据内部簇的分布情况。与基于降维的高维数据可视分析方法不同,由于子空间聚类本身可以发现高维数据内部所有可能存在的聚类模式,不会产生信息丢失的情况,而且在发现聚类模式的同时还能抽取出相应的特征空间,因此用户不用像采用降维的方法那样,去分析聚类结果中保留了哪种数据特征和降维过程中会产生哪些信息的丢失。相反的,在基于子空间聚类的分析中用户需要辨别聚类结果中的冗余信息,比较不同簇之间是否存在折叠、交叉等情况,这导致在设计可视化方案时需要提供更多便捷的交互方法以观察数据在不同特征空间的分布情况。除此之外,由于子空间聚类算法的运行机制,即自顶向下和自底向上的搜索机制带有一定的层次结构,特别是自底向上的搜索机制,因此在基于子空间聚类的高维数据聚类可视分析中,也常常会出现树形或类树形的可视化方案来帮助用户发现不同层面的子空间中簇内数据的分布情况。
图8 基于子空间聚类的局部相关性可视分析系统[63]
图9 基于维度相关性的子空间聚类可视方法实例分析过程
图10 交互式子空间分析的维度重建概念图[65]
通过总结高维数据聚类过程中常用的数据处理方法及其可视化方法。可以看到交互式可视分析能够帮助研究人员从多角度对高维数据的聚类过程和结果进行探索和分析,并发现其内部规律和分布特征。表2对高维数据聚类可视分析方法进行了总结。
由表2可以看到,基于降维的聚类可视分析方法主要是分析通过降维后挖掘出的聚类结果是否很好地保留了其在原始空间中的特征以及保留了哪种特征,进而帮助用户获得较好的聚类结果。尽管线性和非线性降维都可以找到低维空间并从中挖掘聚类模式,但是线性降维是通过寻找一个线性函数将数据从高维空间映射至低维空间,并平衡了全局数据,但会导致一些数据项在低维空间处于错误位置,造成这些点的周围信息丢失,使得原始高维空间中一些特征没有很好地保留下来。利用可视化方法对其聚类结果进行分析时,用户需要获得原始空间对于降维后空间的影响程度,且通过调整维度的重要性来修改降维过程保留的特征,通过设计一个较为连续的变化视图来观察维度重要性的变化对于聚类结果的影响,使得这些错误信息得到修正。而非线性降维是通过保留数据项的周围信息将数据从高维空间映射至低维空间,且未考虑全局数据之间的关系,致使原始空间中的维度对于降维后空间的影响作用也难以获得,同时加大了其结果解释性的难度。用户对参数进行设置较困难,研究人员很难回答不同的参数设置会保留哪些数据特征。
基于子空间聚类的可视分析方法不仅可以获得高维数据中所有的聚类模式,同时可以获得簇的特征空间,在这个过程中极少甚至不会存在信息丢失,为用户分析数据内部结构和规律提供了可靠的模式来源。但是在子空间聚类的2种不同搜索策略下,获得的聚类结果也会有差异。通过自顶向下的搜索策略可将数据集初始化分为k个部分,并赋予每个簇相同权值,然后重复采用某种策略对初始簇不断改进并更新权值,最终获得聚类结果。利用该搜索策略进行的子空间聚类不会产生重复的簇。而自底向上的搜索策略则是利用了关联规则中的先验性质,即如果一个k维单元存在聚类模式,那么在k–1维空间中也存在聚类模式。反之,如果一个k维单元不存在聚类模式,那么在k–1维空间中也不存在聚类模式。从一维开始,不断向上搜索,最后获得聚类结果。通过这种搜索策略对数据集的全面挖掘,不会失去任何一个簇信息,但是这样也极易挖掘出冗余信息。相比于自顶向下的子空间聚类算法,自底向上的子空间聚类算法设计的可视化方案,除了能够帮助用户深入不同子空间分析簇内数据的分布,比较其分布之间的差异,在获得正确认识数据内部结构之外,还需要避免冗余信息的挖掘,降低认知负担,使得用户能够更高效地认识数据。
表2 高维数据聚类可视分析方法总结
利用交互式可视化方法对高维数据进行聚类分析,可以充分结合人的认知能力和计算机强大的计算存储能力,帮助研究人员认识和了解数据的内部结构以及数据规律。然而随着收集到高维数据的数据量不断增加,维度间的关系更加错综复杂,高维数据聚类可视分析仍具有重要的研究意义:
(1) 研究聚类可视分析过程中的不确定性。该研究需求来自于基于降维的高维数据可视分析方法。降维方法不可避免地会产生数据信息丢失问题,是由于维度对于影响降维后空间重要性的不确定性造成的,其影响了降维过程中特征的保留。这种不确定性对于用户来说都是透明的,即使用户能够感知到这些失真和丢失信息[67],但难以通过交互手段来控制和调整这些错误[68],进而导致其结果不能令人信服[69-70]。除此之外,由于聚类本身是一个无监督的学习方法,主要针对无标签数据,并且不同领域的用户对于同一个数据集会出现不同分析需求,这都加大了算法选择和参数设定的不确定性。例如对于电子健康记录进行聚类分析,心脏病专家希望通过心血管症状对其进行分组,而教练可能希望通过与其运动技能相关的特征进行分组[71]。因此通过研究不确定性,用户可以根据自身的需求接受当前聚类结果或重新调整参数以获得更优的聚类结果。
(2) 优化交互方式。其主要是针对基于子空间聚类的高维数据可视分析方法。子空间聚类可以为用户挖掘出高维数据中所有的聚类模式及其特征空间,并且在这个过程中不会发生损失。但是也会带来信息冗余的问题,这大大加重了用户的认识负担。同时可造成挖掘出的一些聚类模式没有实际意义,相互之间存在重叠等问题。因此需要设计出便捷的交互方案来帮助用户识别、筛选出有意义的聚类模式并分析模式反映的数据特征,进而更好地认识和了解数据内部结构。目前,对于同时探索数据集中的簇及其特征空间时常常采用不同的方法,解释不同方法挖掘到的簇及其特征空间也会增加研究人员的认知识别负担[72]。需要设计一致的可视化表示与平滑的交互方法来探索和发现簇及其特征空间。
(3) 设计更具指导性的可视分析系统其对于基于降维和基于子空间聚类的高维数据聚类可视分析来说都是有用的。对于普通用户而言,直接对各种参数进行设定并获得正确的结果是很难的,哪怕对具有极高专业知识的研究人员而言也不是一个简单的事情。设计具指导性的可视分析系统能够帮助用户更高效地进行分析。XIA等[73]提出了一个探索性的可视化分析方法LDSScanner,为用户提供了选择适当模型所需的上下文信息。SACHA等[74]开发的SOMFlow系统提供了一个自定义的度量,以指导用户的下一步行动。文献[11]提出了一个 the Clustering Tour的新特征,该特征可以根据集群配置、数据特性和用户反馈为用户进行推荐。TATU等[75]通过定义子空间相似性来处理子空间冗余的问题。可以看到设计和实现更具指导性的聚类可视分析系统能更好地帮助用户有效地在空间中进行搜索,理解数据的内部结构,避免一些无用工作的进行。
可视分析技术是高维数据聚类分析的一个有效的手段。本文首先总结了高维数据聚类过程中常用的数据处理方法并对其性能进行了比较;随之对近 10年高维数据聚类可视分析的研究成果进行了总结;最后指出了该领域存在的机遇与挑战。