视图关系学习与图学习的多视图图聚类

2023-10-29 04:20高清维赵大卫卢一相
计算机与生活 2023年10期
关键词:集上视图聚类

袁 柱,高清维,王 琳,赵大卫,卢一相,孙 冬,竺 德

安徽大学 电气工程与自动化学院,合肥 230601

聚类作为无监督学习的一个分支是一种常见的数据分析方法,在机器学习、人工智能和模式识别等领域有着举足轻重的作用。它广泛应用于信息检索、数据分类和异常检测等场景[1]。聚类是根据数据之间的关系,将数据集划分为不同的聚类簇。聚类分析的目标可以概括为“类内的相似性与类间的排他性”。现实生活中,从不同的角度看待问题能够把问题描述得更加全面。从不同方面描述的数据称为多视图数据,相比单视图数据而言,多视图数据包含更丰富的信息,从而把事物描述得更加全面。因此,多视图数据广泛存在于实际应用中。例如,一则新闻可以由不同的媒体报道,一个对象可以用正面和侧面等不同的角度分别描述[2-3]。

多视图聚类应用于人脸识别、新闻数据处理等人们生活的各个场景。在人脸识别技术中,往往会受到来自光线、面部表情和面部细节的干扰,使得识别精准度与效率降低,而多视图聚类能够有效地解决这一问题。对于目前存在的新闻数据类型复杂、数量庞大以及传播速度极快等现状,有效处理新闻数据成为了一个新问题。在日常生活中,面对庞杂的新闻,人们往往不能快速获得感兴趣的信息。而多视图聚类可以有效挖掘新闻的类属信息,能够很好地解决个性化新闻推荐这一难题。本文在后续的实验部分将针对上述两种应用场景,验证本文算法的有效性与可行性。

串联所有的视图通常会导致维度灾难。因此,处理单视图数据的方法不能直接迁移到处理多视图数据上。近些年来,人们陆续提出了许多多视图聚类方法。可以分为五类:多视图子空间聚类[4]、基于协同训练的多视图聚类、基于多核学习的多视图聚类、多任务多视图聚类、多视图图聚类。多视图子空间聚类方法假设高维数据通常分布于低维子空间的并上[5-6]。它基于自表达性,即假设每个样本可以被其他样本线性表示。为了得到具有块对角阵结构表示系数矩阵Z,关于Z的两个广泛使用的假设是低秩[6]和稀疏[7]。通过对所有的表示系数矩阵求平均值得到相似性矩阵,最后把它作为谱聚类算法的输入[8],得到最终的聚类结果。在此基础上,提出了多种多视图子空间聚类模型。文献[9]提出了新的多视图子空间聚类算法。对所有的视图都学习一个图,并强制执行一个公共的聚类指标矩阵。但这一假设往往是不成立的,因为公共的聚类指标矩阵必须包含所有视图的部分信息。因此,无法得到一个所有视图共同认可的聚类指标矩阵。DiMSC(diversity-induced multi-view subspace clustering)[10]利用希尔伯特-施密特独立准则(Hilbert Schmidt independence criterion,HSIC)作为多样性项来探索多视图数据的互补性。它通过挖掘多视图数据的互补信息,提高聚类结果的准确性。文献[11]提出了一个基于联合相似图的多视图子空间聚类方法。这个联合相似图是基于多样性正则化和秩约束的低秩表示来构建的。CiMSC(consistency-induced multiview subspace clustering)[12]以视图内结构一致性和样本分配一致性作为切入点,可以从高维数据中,学习到一个有效的子空间表示,并通过非线性重构方式将其编码为潜在表示。但上述三种模型均采用了平均值图作为谱聚类算法的输入,忽略了这种低质量视图对聚类结果的影响。LGOMSC(fusing local and global information for one-step multiview subspace clustering)[13]与文献[14]提供了一种一步式多视图子空间聚类,它融合了子空间表示、多视图信息融合和聚类作为一个统一的优化框架来实现聚类。但这种方法忽略了不同视图的多样性,因此多视图数据的互补信息没有得到充分的挖掘。

在多视图图聚类方法中,用图形表示对象与对象之间的关系。图形中的节点对应数据对象,图形中的每个边描绘一对对象之间的关系。一般把对象之间的关系用相似性表示,即输入图矩阵由样本数据相似性矩阵生成。一个常见的假设是每个视图可以捕获多视图数据的部分信息,多视图数据中每个视图对应的图形都具有相似的聚类结构。因此,多视图可以通过合并视图以增强数据对象之间的关系。多视图图聚类的目的是在所有视图中找到一个融合图,然后在融合图上应用图形切割算法或谱聚类,产生最终的聚类结果。如何得到一个有利于聚类的融合图,成为多视图图聚类的首要问题。在文献[15-17]中运用多视图数据矩阵加权融合的方法,虽然它们没有添加额外的聚类方法,但它们独立地为每个视图构造相似图矩阵,这种方法可能会得到次优的融合图。MAGC(multi-view attributed graph clustering)[18]使用图过滤来实现聚类的平滑表示,并引入一种加权机制,区别不同视图的不同贡献。在实际应用中,每个视图在共识图中的重要性不同。因此,文中给每个相似图分配不同的权重[19]。GMC(graph-based multi-view clustering)[20]应用一种自加权图融合技术,将所有多视图数据矩阵融合,生成一个融合图数据矩阵。融合图数据矩阵反过来改进了每个视图的数据矩阵,在不使用别的图切割算法下直接得到了最终的聚类结果。文献[21]开发了一个统一的框架,同时进行图学习和谱聚类。然而,这种方法不能对所有视图保持灵活的局部多样性结构,导致聚类性能表现不佳[22]。文献[23]的方法运用每个视图是融合图的一个扰动和接近融合图的图应该被赋予较大权重的理论。在融合过程中对图进行动态加权,有效降低了噪声图的干扰效应。文献[24-25]针对现有的基于欧几里德结构的多视图图聚类方法,提出了一种基于流行拓扑结构的聚类方法,将多个自适应图整合到一个共识图中。GBS(graph-based system)[26]的工作原理是提取每个视图的数据特征矩阵,构造所有视图的图矩阵,并将构造的图矩阵融合生成一个统一的图矩阵,得到最终的聚类。文献[27]为了实现最优的全局特征学习,提出了一种把自适应图学习稀疏表示与自适应加权合作学习相结合。它通过引入自适应图学习的同步优化方法可以更好地保留每个视图内部的完整结构,使得到的全局最优矩阵有利于最终的聚类结果。

影响多视图聚类性能的因素是能否充分挖掘和利用隐藏在其中的信息。这些信息包括高维数据在低维子空间的分布、多视图数据分布的几何形状、多视图视图数据之间的互补信息以及不同视图所占权重等。然而上文提及的方法,在一定程度上不能有效地利用或挖掘出这些信息,以至于得到次优的聚类结果。为了充分挖掘隐藏在多视图数据中的信息,本文提出了一种视图关系与图结构学习的多视图图聚类方法,在一个统一的框架中基于多视图自表达来整合图融合与谱聚类学习。具体来说,首先把视图自表达学习扩充到多视图领域,有效地揭示了高维数据的低维子空间分布。其次对得到的相似图做流形正则化处理,控制样本数据分布的几何形状,明确地加强子空间表示。然后利用HSIC作为多样性表示,充分利用隐藏在多视图数据之间的互补信息。进一步,采用诱导自加权的图融合学习方法,交替优化融合图和不同视图所占权重,将相似图动态加权得到融合图。最后,通过对融合图图结构的学习,建立了与谱聚类的联系,构建了一个高质量的谱聚类输入图,生成聚类结果。图1展示了本文工作的框架结构图。在后续五个广泛使用的数据集上的实验结果表明,提出的视图关系学习与图学习的多视图图聚类算法具有一定的有效性和竞争性。

图1 视图关系学习与图学习的多视图图聚类算法框架Fig.1 Multi-view graph clustering algorithm framework for view relation learning and graph learning

1 视图关系学习与图学习的多视图图聚类

1.1 符号与定义

X={X1,X2,…,Xv}是有v个视图的多视图数据矩阵,其中表示第v个视图的特征维度,n表示视图所包含的样本个数。Zv∈Rn×n(v=1,2,…,h)是第v个视图相似图。U∈Rn×n是融合图。β、γ、δ、ε、ζ是权衡参数。

1.2 多视图自表达学习

1.2.1 单视图自表达学习

单视图数据集是指利用一种类型的特征对样本集合进行描述,从而构成的数据矩阵。给定一个单视图样本数据集X=[x1,x2,…,xn]∈Rd×n,该样本数据集有n个样本向量,每个样本向量的特征维度是d,设这组数据属于k(k已知或未知)个低维线性子空间的并。

单视图子空间聚类是指将这组样本数据分割为不同的类,在理想情况下,每一类对应一个子空间。它的基本思想是,将样本数据向量xi表示为其他所有属于数据集X的样本向量的线性组合。可以表示为:

对表示系数施加一定的约束,使得当xi与xj不属于同一个子空间时,有zij=0。将所有的数据及其表示系数按一定方式排成矩阵,则方程(1)等价于:

其中,Z∈Rn×n表示系数矩阵。若已知数据的子空间结构,并将数据按类别逐列排放,则在一定条件下可使表示系数矩阵Z具有块对角结构,可以写为:

其中,Zα(α=1,2,…,k)表示样本数据在所属子空间的系数矩阵。也就是说,若Z具有块对角结构,那么这种结构揭示了高维数据的低维子空间结构。

在实际应用中,数据往往受各种噪声或奇异值样本的影响,这种影响是不可忽略的,此时可以把视图自表达模型描述为:

本文使用最小二乘回归子空间聚类模型,优化上述方程(4),得到方程(5):

式中,第一项为数据项,刻画了表示数据与真实数据的逼近程度;第二项为正则项。β>0 是一个权衡参数,用来衡量视图自表达学习中数据项和正则项的关系。若β的值过大,对噪声或离群值鲁棒效果较差;若β的值过小,得到的Zv的结构对最终的聚类结果不利。

1.2.2 扩充到多视图领域的自表达学习

为了更加完备地表示一个样本集合,往往需要使用更高维度的特征描述样本集合,这被称为多视图数据集。把视图自表达学习扩充到多视图领域的优势在于:(1)多视图数据集的不同特征可以从不同的角度捕获更多的信息,相比单视图聚类只能利用单一的特征获得部分信息,多视图聚类结果的精度更高。(2)多视图数据之间存在互补和一致性信息,将多视图数据矩阵构成单一的特征表示矩阵,通常会存在特征冗余,并且不同视图的统计特性是不同的。如果只是简单地将所有视图矩阵组合成一个数据矩阵,通常会破坏原始特征空间的内在结构。而将视图自表达学习扩充到多视图领域可以有效解决上述问题。

在后续的可视化分析中,本文所提算法在BBCSport多视图数据集上的聚类结果要明显优于在该数据集上只使用单视图的聚类结果。证明了本文将视图自表达学习扩充到多视图领域的可行性。

把从单视图的自表达学习扩充到多视图领域得到方程(6):

如同在SMR(smooth representation),本文使用图的正则化技术,它明确地加强子空间表示以满足聚类效果[28]。流行正则化学习可以挖掘数据分布的几何形状,将其作为一个增加的正则项来控制样本分布的几何形状。流形正则化学习的一个直观解释是,如果两个数据点很接近,那么它们在相似图中也很接近。它具有以下形式||xi-xj||2→0 ⇒||zi-zj||2→0,∀i≠j。定义如下:

其中,前两项是扩充到多视图领域的视图自表达学习。利用样本数据相关性,对原始数据构建表示系数矩阵。方程使用Frobenius 范数进行约束,使得表示系数矩阵Z具有块对角结构且对大部分噪声有很强的鲁棒性,揭示了高维数据的低维子空间分布。最后一项是流形正则化项,γ是正则化项参数。对得到的相似图做流形正则化处理,控制样本数据分布的几何形状,明确地加强子空间表示,进一步提高聚类精确度。

可以看出,方程(8)所提算法仅考虑多视图的相似性信息。虽然使用流行正则化技术进一步地约束,但忽略了多视图数据之间的关系,没有充分挖掘和利用多视图之间的信息,得到的相似图质量较低。

1.3 视图关系学习

多视图的互补信息是每个视图可能包含其他视图不具备的知识。因此,采用多视图能够全面和准确地描述数据。然而,现有的多视图学习方法有很大的局限性,它们不能保证不同视图对应不同相似矩阵之间的互补性。换句话说,这些方法假设独立构造的相似矩阵之间有丰富的互补信息,或假设多视图彼此之间是独立的。然而,这种假设是没有任何依据的。因此,本文对视图之间的多样性进行研究。

为了增加多视图数据之间的多样性,本文探究矩阵之间的依赖关系。根据文献[29]可以得到,多视图数据的多样性与它们的依赖性息息相关。简单来说,如果数据之间有高度的依赖性,那么它们之间就有更强的多样性。两个变量之间的依赖性可以用很多方法来测量。本文采用HSIC,因为HSIC 实现简单,能够解决线性和非线性问题,并且经验HSIC 可以用数据矩阵乘积的迹来表示,这保证了问题的可解性。HSIC在希尔伯特空间中计算Zv和Zv′上的互协方差算子的平方范数,根据经验HSIC的定义[29],其表达式为:

其中,K1和K2是格拉姆矩阵,H=δij-1/n,H∈Rn×n。本文使用HSIC衡量数据之间的依赖性,保证多视图数据提供足够的互补信息,减少数据的冗余信息。

多视图互补信息的探索是多视图聚类的核心。因此,结合方程(8)和方程(9)得到:

其中,δ是正则化项参数。最后一项利用HSIC 独立准则,依据核相关性度量来挖掘多视图数据间的多样性,明确地对不同视图进行共正则化,深入探索了不同视图的互补信息。通过对上述联合增强的多视图自表达学习,可以得到每个视图的相似图{Z1,Z2,…,Zh}。通常取相似图的平均值图作为谱聚类算法的输入,以获得最终的聚类结果。但该方法没有区分不同视图在融合图中所占权重,并且会受到噪声视图的影响。因此,用次优的融合图作为谱聚类的输入得到的聚类结果并不理想。

1.4 图融合

本文基于以下两点:(1)每个视图的相似图Zv是融合图U的一个扰动;(2)接近融合图的视图应该占较大的权重。提出一种诱导自加权的图融合学习,自动加权每个相似图Z1,Z2,…,Zh的不同权重,得到一个统一的融合图U:

其中,wv根据如下计算规则获取:

在实际应用中为了避免分母为0,使用方程(13):

其中,μ是一个非常小的数。

方程(11)中的wv依赖于U,即方程(11)中第一项的U和wv相互耦合。如果固定wv,可以把wv理解为第v个视图的在融合图中的所占权重。如果相似图Zv很接近融合图U,那么||Zv-U||F的值很小,wv的值就很大,即接近融合图的视图能够分得较高的权重。反之当Zv远离U时,wv的值很小,视图分配的权重较低。这使得wv可以作为多视图在融合图中的权重,这一项的存在是有意义的。

根据方程(11)得到的U可以进一步用于方程(13)wv的更新。因此可以通过交替优化U和wv的方法,来解决前文提出的一种诱导自加权的图融合学习。在下文的算法1,给出交替优化U和wv的具体过程。

1.5 图结构学习与谱聚类

谱聚类作为多视图图聚类的方法之一,它是一种应用图的分割理论,将图分割为多个独立的连通分量,每个连通对应一个簇。目前通常把图割理论优化为对拉普拉斯矩阵进行谱分解问题。一般情况下,聚类的目标聚类簇数量往往是事先给定的,在本文中取k。那么方程(10)与方程(11)的解融合图U也应该有k个连接点,即数据点已经被聚类为k个簇。如何约束融合图U,使得U能满足上述条件,获得优质的谱聚类输入图,因此,本文对融合图U的结构进行学习。

根据拉普拉斯矩阵性质,图U的连接点k的数目等于它的拉普拉斯矩阵LU的零特征值的重根数目。由于LU是一个半正定矩阵,它的特征值λn≥…≥λ2≥λ1≥0。即如果,那么融合图U就有k个连接点,才能作为谱聚类的输入。因此本文需要最小化

通过对融合图的拉普拉斯矩阵LU的特征向量进行聚类,将聚类问题转换成图的最优划分问题。根据Ky Fan定理,本文可以得到谱聚类的目标函数:

谱聚类算法通过输入融合图U和聚类目标簇数k,接着计算度矩阵DU和拉普拉斯矩阵LU,然后利用拉普拉斯矩阵的特征向量进行聚类。

将方程(14)带入到方程(11)中,可得到:

联合方程(10)和方程(15)得到一种基于视图关系与图结构学习的多视图图聚类算法模型:

其中,前四项相辅相成,充分地挖掘了多视图数据的互补信息。这样得到的相似图,可以有效且全面地揭示隐藏在数据中的分布结构。ε、ζ是正则化项参数。后两项进一步用诱导自加权的图融合学习方法,把融合图和不同视图所占权重交替优化。最后,通过对融合图结构的学习,建立了图学习与谱聚类之间的联系,构建了一个高质量的输入图作为谱聚类算法的输入,从而得到最终聚类结果。

2 优化

2.1 方程(10)的优化算法

求解方程(10)需要利用HSIC 的内积,即Kv=(Zv)TZv。可以得到如下方程:

可以看出,方程(18)对于每个视图都是独立的。因此,对于每个视图,本文可以分别更新Zv。方程(18)关于Zv求导得到:

通过求解方程(20),可以得到每个视图的相似图。对方程(10)的求解步骤,在算法1中做出总结。

2.2 方程(16)的优化算法

提取的多视图数据矩阵,使用算法1得到相似图Z1,Z2,…,Zh。之后本文通过求解方程(16)得到融合图U。观察到,方程(16)中的变量是相互耦合的,本文可以通过交替迭代的方法优化求解。

2.2.1 固定F 和U 更新wv

方程(16)转化成方程(11),可以由方程(13)直接得到。

2.2.2 固定F 和wv 更新U

注意到L是U的函数,方程(16)可以转化为:

方程(22)关于U(:,i)的导数为:

2.2.3 固定wv 和U 更新F

可以把方程(16)转化为求解方程(25):

F的最优解由LU的k个特征值对应的k个最小特征向量组成。

经过优化,所有变量都更新完毕。算法1总结了方程(16)的求解细节。

算法1MVG(multi-view graph clustering algorithm combining view relation learning and graph learning)算法的优化

输入:多视图数据矩阵X={X1,X2,…,Xh},聚类的数量k,参数β>0,γ>0,δ>0,ε>0,ζ>0。

输出:相似图Z1,Z2,…,Zh,融合图U,聚类指标矩阵F。

步骤1利用HSIC内积,把方程(10)转化为方程(18)。对方程(18)关于Zv求导,令导数为0,得到多视图相似图矩阵Z1,Z2,…,Zh。方程(16)中的各变量相互耦合,步骤2、步骤3、步骤4采用交替迭代的方法优化求解。

步骤2固定F和U,把方程(16)转化为方程(11),根据方程(12)求解wv。

步骤3固定F和wv,由于L是U的函数,把方程(16)转化为方程(21)。对方程(21)进行变换,并关于U(:,i)求导,令导数为0,可得U。

步骤4固定wv和U,把方程(16)转化为方程(25),根据方程(25)求解F。

2.3 复杂度分析

MVG 算法的复杂度由三部分组成。具体来说,更新Zv需要计算矩阵的逆,它的复杂度为O(n3)。更新U的复杂度为O(hn),其中h是多视图数据的视图数。更新F需要计算拉普拉斯矩阵的特征向量,它的复杂度为O(kn2),其中k是聚类数目,n是样本个数。设经过t次迭代后算法停止,总复杂度为O((n2+h+kn)tn),其中h≪n,k≪n,t≪n。对比其他方法的复杂度:MCLES(multi-view clustering in latent embedding space)[30]的总复杂度为其中d(v)是第v个视图数据集的维度,d是隐含嵌入表示的维度,k是聚类数目,V是多视图数据的视图数,n是样本个数;GMC[20]的总复杂度为O(((mk+mn+c+cn)n)t+mnkd),其中m是多视图数据的视图数,k是领域的数量,c是聚类数目,t是迭代次数,n是样本个数;LMSC(latent multi-view subspace clustering)[31]的复杂度为O(k2d+d3+k3+n3+dkn+kn2),其中k为潜在表示的维度,d是多视图特征的总维度,n是样本个数;MCDCF(multi-view clustering via deep concept factorization)[32]的总复杂度为O(m(pn2+dn2+hrqn2)),其中m是多视图数据的视图数,p是近邻图数量,q是内在维度,d是所有视图的原始特征维度,r是迭代次数,n是样本个数;FPMVS(fast parameter-free multi-view subspace clustering)[33]的总复杂度为O(hk2+hk3+nk3),其中h是所有视图的维度总和,k为聚类数,n是样本个数。通过对比上述算法的复杂度,本文所提算法更简洁。

2.4 收敛性分析

观察方程(16)发现,除了图融合项外,其余项是明显的凸函数。因此仅需要证明图融合项是否具有收敛性。接下来重点对图融合项的收敛性做理论分析。

引理1[34]对于任何的非0常数x和y,都有以下不等式成立:

代入wv=1/(2||Zv-U||F),得到:

根据引理1,可以得到:

联合方程(28)和方程(29),可以得到:

因此,每次迭代之后,图融合项总是在单调递减,直至收敛。因此在大多数情况下,算法1 至少会收敛到局部最优解。在后续的收敛性实验部分同样证明了这一点。

3 实验

为了验证本文方法的聚类性能,在五个广泛使用的多视图数据集上进行实验。根据六个评价指标,将MVG算法与其他算法进行比较。

3.1 数据集

五个数据集分别是reuters-1200、BBCSport、prokaryotic、ORL 和3scources。数据集的资料详细统计在表1中。

表1 数据集介绍Table 1 Introduction of datasets

3.2 比较方法

实验中,将本文提出的MVG算法与九种多视图聚类算法进行对比。对比算法分别是SC_best、GMC[20]、GFSC(multi-graph fusion for multi-view spectral clustering)[23]、MCLES[30]、LMSC[31]、MCDCF[32]、FPMVS[33]、Co-Reg[35]、LTMSC(low-rank tensor constrained multiview subspace clustering)[36]。SC_best 算法在每一个视图上运用谱聚类算法,通过信息量最大的一个视图,得到单个视图的最佳聚类结果。Co-Reg 算法运用共正则化的原理,使不同视图的聚类一致。MCLES算法在潜在嵌入表示之后构造相似矩阵,并利用聚类指标矩阵直接得出聚类结果。GMC算法使用稀疏表示和自加权策略得到多个视图统一的图矩阵,之后对图的拉普拉斯矩阵施加秩约束,不需要额外的聚类步骤。LMSC算法引入多视图潜在表示,增强聚类结果的鲁棒性。LMSC 算法在子空间表示中加入低秩约束,探索数据的高阶相关性,减少了视图的冗余信息。GFSC算法提出新的多视图谱聚类模型,同时进行图融合和谱聚类。MCDCF 将多层概念分解引入到多视图聚类中,能够学习层次信息,并推导出一个共识表示矩阵来获取视图间的共享信息。FPMVS将锚抽样机制和子空间图的构建统一到一个模型里,两个过程相互协商,提高聚类效果。

3.3 评价指标

聚类分析要求高的类内的相似性,低的类间的相似性。为了对所有聚类算法的性能进行评估,本文选择了6个广泛使用的评价指标,对所有的评价指标,数值越大,说明聚类性能越好。不同的评价指标算法对聚类特性的偏好不同,选用多个评价指标能能全面地评价算法的聚类效果。

(1)标准化互信息NMI(normalized mutual information):

其中,H(X)和H(Y)分别是随机变量X、Y的熵,I(X,Y)是两个随机变量X和Y的互信息。

(2)准确度ACC(accuracy),准确度用来度量预测结果与真实数据之间的关系,定义如下:

其中,si和ri是给定样本数据xi的真实类别标记和聚类标记。当x=y时,δ(x,y) 的值为1,否则为0。map(ri)是映射函数,将聚类标记映射到真实类别。

(3)兰德系数RI(Rand index),它表示预测样本正确聚类的值。值越大说明聚类结果和样本真实情况越相似。RI定义如下:

其中,TP是同一类的样本划分到同一个聚类簇;FN是同一类的样本划分到不同的聚类簇;FP是不同类的样本划分到同一个聚类簇;TN是不同类的样本划分到不同的聚类簇。

(4)精确率P(precision),它表示预测样本判定为相同聚类中,样本真实情况正确分类的占比。P定义如下:

(5)F(F-score),结合精确率和召回率R(recall)定义如下:

(6)调整兰德系数AR(adjusted Rand index),在RI的基础上,提出了具有更高预测区分度的AR,定义如下:

3.4 实验结果

对于比较算法,采用原论文中的建议调节参数,保存较好的实验结果。对于所有算法,每个实验重复运行10 次,报告平均值的标准偏差。评价指标的值越大,表明聚类性能越好。表2~表6 报告了MVG算法在5 个数据集reuters-1200、BBCSport、prokaryotic、ORL和3scources上的聚类结果。其中,最优结果加粗显示。

表2 各算法在reuters-1200数据集上的实验结果Table 2 Experimental results of each algorithm on reuters-1200 dataset

表3 各算法在BBCSport数据集上的实验结果Table 3 Experimental results of each algorithm on BBCSport dataset

表4 各算法在prokaryotic数据集上的实验结果Table 4 Experimental results of each algorithm on prokaryotic dataset

表5 各算法在ORL数据集上的实验结果Table 5 Experimental results of each algorithm on ORL dataset

表6 各算法在3scources数据集上的实验结果Table 6 Experimental results of each algorithm on 3scources dataset

通过比较表2~表6的实验结果,本文可以观察到以下几点:

(1)在所有的实验结果中,MVG算法在大部分情况下优于其他多视图聚类方法。具体来说,MVG 算法在总实验中排名第一的占比为66.7%,排名第二的占比为26.7%,排名第三的占比为3.34%。

(2)在ORL 和reuters-1200 数据集上,MVG 算法始终优于其他多视图聚类方法,这表明本文提出的MVG算法的有效性。在reuters-1200数据集上,MVG算法展示出较强的竞争力,评价指标NMI、ACC、P、F、RI和AR分别比次优方法提升0.22、0.09、0.115、0.152、0.032和0.185。

(3)MVG 算法始终优于SC_best 方法,多视图数据优于单视图数据的聚类结果,表明多视图聚类中探索数据互补信息的重要性。MVG算法在大多数情况下优于GFSC算法,表明加入视图关系学习能够有效提高多视图聚类性能。

3.5 可视化分析

为了更直观地描述算法的聚类结果,分析其揭示隐藏在数据中分布结构的能力。本文运用t-SNE(t-distributed stochastic neighbor embedding)可视化算法,将对比算法的聚类结果、MVG算法的聚类结果和在单视图数据集上的MVG 算法的聚类结果可视化。图2展示了上述三个实验在BBCSport数据集上的可视化聚类结果,不同的颜色表示不同的聚类簇。根据图2(a)~图2(e)观察到,本文提出的MVG算法,相同颜色的点更紧密,即聚类簇内的数据点具有强相关性。且不同颜色的簇之间分离度更高,即簇与簇之间有较强的无关性。实验结果进一步验证了类内的相似性与类间排他性的聚类目标。这充分表明本文算法的可行性与有效性,以及该算法具有揭示隐藏在数据中分布结构的能力。根据图2(e)、图2(f)可以观察到,MVG算法在BBCSport多视图数据集上的聚类结果,要明显优于在该数据集上只使用单视图进行聚类的结果。这表明多视图聚类方法优于单视图聚类方法,同时验证了本文将视图自表达学习扩充到多视图领域的可行性。

3.6 消融研究

为了验证本文提出的MVG算法中,视图多样性项、多视图数据分布的几何形状和融合图图结构项对聚类效果的影响,在5 个数据集上进行消融研究。MVG的3个变体算法定义如下,MVG-D忽略视图多样性,MVG-C忽略视图数据分布的几何形状,MVGS 忽略融合图图结构。MVG-D、MVG-C 和MVG-S分别将参数δ、γ、ζ设为0,在6 个评价指标上的聚类结果如图3所示。根据图3,可以观察到以下几点:(1)对比MVG 聚类算法的结果,当忽略多视图数据分布的几何形状,即MVG-C不进行流行正则化学习时,相比MVG 算法在常见的5 个数据集3scources、ORL、prokaryotic、BBCSport 和reuters-1200 上的聚类评价指标都显示次优的聚类结果。(2)忽略融合图图结构时,即MVG-S。可以看出,对聚类输入图的图结构进行约束,在聚类评价指标都有一定程度的提升。

图3 MVG算法的消融研究Fig.3 Ablation study of MVG algorithm

3.7 参数敏感性分析

MVG 算法有5 个参数,β是数据自表达项的参数,γ是控制数据分布几何形状项的参数,δ是视图多样性项的参数,ε是图融合项的参数,ζ是图结构项的参数。在reuters-1200数据集上进行参数敏感性分析实验,本文给出所有参数的敏感性分析结果。固定其他4个参数保持不变,改变其中一个参数的取值范围。图4展示了在reuters-1200数据集上所有参数对聚类性能的影响。

由图4可以看出,参数β、参数γ、参数δ、参数ε和参数ζ分别在10、0.1、1、0.1、10 左右,聚类取得最佳结果。参数的取值,过大或者过小都会降低聚类性能或导致聚类精度波动较大。当β的值过大时,对噪声或奇异值样本鲁棒效果较差;当β的值过小时,得到的Zv的结构对最终的聚类结果不利。当γ的值过大时,对样本分布的几何形状约束过高;当γ的值过小时,不能明确地加强子空间表示。当δ的值过大时,视图的多样性项权重过高,导致学习的相似图不准确;当δ的值过小时,多视图视图之间的互补信息不能得到充分的挖掘。类似的,参数ε的值过大时,会导致聚类评价指标的波动过大;参数ε的值过小时,融合图的质量不再受到算法的关注。参数ζ的值过大时,导致次优的聚类评价指标;参数ζ的值过小时,一定程度上忽略了融合图图结构的学习。

3.8 收敛性实验

本文提出的MVG 算法包含4 个未知变量,分别是Zv、wv、U和F。在每次迭代中,每次优化问题都有一个封闭解,可以表明,整个优化算法有较好的收敛性。图5显示了MVG算法在5个数据集上的收敛曲线。横坐标表示迭代次数,纵坐标表示目标函数值。在实验中,最大迭代数为10。从图5 可以看出,MVG在少量迭代中收敛,这能够证明所提出的算法有很好的收敛性。

图5 MVG算法的收敛性实验Fig.5 Convergence experiment of MVG algorithm

4 结论

在一个统一的框架中基于多视图自表达来整合图融合与谱聚类学习。把视图自表达学习扩充到多视图领域,有效地揭示了高维数据的低维子空间分布。对得到的相似图做流形正则化处理,控制样本数据分布的几何形状,明确加强子空间表示。把HSIC 准则作为多样性项,充分利用隐藏在多视图数据之间的互补信息。采用诱导自加权的图融合学习方法,通过交替迭代优化,将相似图动态加权,得到一个融合图。通过对融合图结构的学习,建立了图学习与谱聚类之间的联系,构建一个高质量的输入图作为谱聚类的输入,生成聚类结果。不仅能够充分挖掘隐藏在多视图数据中的丰富的信息,在此基础上自加权融合相似图,优化谱聚类的输入。在多个数据集上的实验结果表明,该算法具有一定的可行性与有效性。

猜你喜欢
集上视图聚类
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
基于DBSACN聚类算法的XML文档聚类
复扇形指标集上的分布混沌
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
基于高斯混合聚类的阵列干涉SAR三维成像
一种层次初始的聚类个数自适应的聚类方法研究