改进的多样性驱动的多视图子空间聚类算法

2020-10-09 11:17刘金花王洋贺潇磊
计算机时代 2020年9期

刘金花 王洋 贺潇磊

摘要:为了解决目前基于子空间的多视图聚类模型存在的两个问题,即:只考虑各视图间的互补信息或一致性来进行聚类;通常采取两步方式,提出了一种改进的多样性驱动的多视图子空间聚类算法。综合利用各视图的多样性表示来获得互补信息,同时通过引入概率单纯形约束和秩约束从子空间系数矩阵中自动学习用于聚类的共同亲邻图和一致类簇指标矩阵,以提高聚类性能。在真实数据集上的实验证明了所提方法的有效性和优越性。

关键词:子空间聚类;多视图数据;概率单纯形约束;秩约束

中图分类号:TP312

文献标识码:A

文章编号:1006-8228(2020)09-91-04

Improved multi-view subspace clustering with diversify driven

Liu Jinhua1, Wang Yang2, He Xiaolei2

(1 Fenyang College of Shanxi Medical University, Fenyang, Shanxi 032200. China; 2 Nnrth Automatic Control Technology Institute)

Abstract: In order to solve the two problems existing in the current subspace based multi-view clustering model, i.e.. onlyconsidering the clustering of complementary information or consistency information from the multiple views; usually adopting two-step framework, an improved multi-view subspace clustering algorithm with diversity driven is proposed. It obtains complementaryinformation by using diversity representation of each view. meanwhile learns the common affinity matrix and class indicator matrixautomatically by introducing probabilistic simplex constraint and rank constraint. Experiments on real-world dataset have validatedthe effectiveness and superiority of the proposed method.

Key words: subspace clustering; multi-view data; probabilistic simplex constraint; rank constraint

0引言

随着大数据时代的到来,数据的采集方式和设备都发生了巨大变化,呈现出大量的多视图数据。多视图数据是对同一对象的不同视角的表征和描述[1],含有比单视图数据更多样的信息,在數据挖掘、计算机视觉等领域经常出现。比如,同一段文本被不同的语言来表达,同一张照片被不同的没备采集和抓取。多视图数据挖掘的主要挑战就是如何在探索潜在一致结构时综合利用多样的特征信息来完成类簇的划分。

由于其有效性和理论保证,基于子空间聚类的方法成为了多视图研究的主流。文献[2]将子空间聚类扩展到多视图聚类任务中,通过学习共同的聚类结构来增强多视图之间的一致性。文献[3]提出的DiMSC模型和文献[4]提出的ECMSC模型,它们的主要思想是通过探索不同视图的多样性特征来提高聚类性能。文献[5]将每个视图的自表示系数矩阵分为一致性(低秩结构,由不同视图共享)和特异性(表征每个视图的固有差异),提出了一致性一特异性多视图子空间聚类模型(CSMSC)。

尽管上面提到的模型已经被证明具有很好的聚类性能,但由于采用两步策略,给聚类性能造成一定的影响。为此,本文提出了一种改进的多样性驱动的多视图子空间聚类模型,该模型不仅利用学习到的各视图的多样性表示来获得数据的互补信息,而且引入概率单纯形约束和秩约束从子空间系数矩阵中自动学习用于聚类的共同亲邻图和一致类簇指标矩阵,提高了聚类的性能。

1本文方法

1.1基础模型

受文献[5]的启发,我们使用的基础模型如式(1),为避免各样本由自己表示,增加了等式约束。

(1)

上述基础模型在获得了各视图的潜在系数表示Z后,通过式(2)来获得一致亲邻图S。然而,这样做会带来两个问题:①完全忽略掉各视图之间的一致信息;②通过绝对值操作强制使Z(v)中的负值变为正值,会破坏样本之间固有的联系。因此简单组合各视图的潜在系数矩阵会得到一个质量较差的亲邻图,影响后续聚类性能。

s=

(2)

1.2一致亲邻图与类簇标识矩阵

为获得一个有效的、能为各视图共享的亲邻图,受文献[6]启发,我们采用自动方式来学习一致亲邻图S,并且引入概率单纯形约束,使系数表示矩阵Z与亲邻图中的元素都在同一范围内。

(3)

另外,为了使一致亲邻图S有k个连通分量,我们对S的进行了秩约束。根据文献[7]中的理论,如果拉普拉斯矩阵满足rank(L) =n-k,那么亲邻图S恰好包含k个连通分量。又据文献[8]的研究,rank(L)=n-k等价于=0,根据Ky Fan的理论[9],得到下式:

(4)其中F是类簇指标矩阵,Ls为拉普拉斯矩阵,Ls=D-(S+ST)/2,D为对角矩阵,其第j个对角元素为。

综合式(1)(3)(4)得到本文模型的目标函数,如公式(5):

(5)

目标函数包含三部分,第一部分为视图内部的结构学习,其中第一项是自表示学习项,第二项是流形学习项;第二部分是视图间多样性学习;第三部分用来学习各视图的一致性亲邻图S和类别一致指标矩阵F,用于后续的聚类操作。

2优化

利用交替方向乘子法(ADMM)优化上述模型,引入辅助变量C(v),相应的增广拉格朗日函数如式(6)。其中Y(v)为拉格朗日乘子,u是惩罚因子。

(6)

2.1求解Z(v)-子问题

只考虑变量Z而忽略其他变量,得到式(7)。

(7)

上述方程有闭形式的解。

(8)

(9)

公式(8)是典型的西尔韦斯特方程,存在唯一解Z(v)求得Z(v)后,据式(9)就可以得到Z(v)。

2.2 C-子问题

通过求解下面的问题,便可以对C进行优化

(10)

上述问题可以通过算法1求得有效解。

2.3求解S-子问题

通过求解下面的问题,便可以对S进行优化。

(11)

引入辅助变量,那么式(11)等价于求解下式的最小值。

(12)

通过算法1可以得到公式(12)的惟一解。

2.4求解F-子问题

通过求解下面的问题,便可以对F进行优化。

O(F)=mintr(FTLsF)

s.t.FTF=I

(13)

F的优化解为拉普拉斯矩阵Ls的k个最小的特征值对应的特征向量(k为给定的类簇数)。

详细的优化过程如算法2所示。

3实验

3.1实验数据及评价指标

为了验证本文方法的有效性,在Caltech101-7,MSRC-v1、Reuters、BBCSport公开的多视图数据集上进行实验。另外,通过准确率(ACC),NMI和F-score三个通用的指标来评价聚类性能。

3.2比较实验

将所提模型与现有的相关模型进行比较,包括经典的k-means算法、一个单视图的子空间聚类方法(LRR)和三个多视图的聚类方法(Co-Reg SPC、DiMSC、ECMSCC)。将k-means方法作为本文的基准方法。具体地,我们使用k-means在每个视图的数据上进行聚类,并且挑选聚类性能最好的结果KM_best,另外,我们还将所有视图的特征进行拼接后,再用k-mean聚类,得到的聚类结果为KM_all。对于算法LRR,同样也将各视图的特征进行拼接后,再在这些数据上执行LRR聚类。对于各个对比模型,我们下载其作者公开的代码,参数的设置都遵循相关论文中的建议。为了避免随机初始化造成的误差,我们在每个数据集上都进行30次重复实验,然后取平均作为最后的聚类结果。表1-表3展示了各模型在公开数据集上的聚类准确率、NMI和F-score值。

從上述表中可以看出本文所提模型除了在数据集Reuters我们的模型没有达到应有的效果,在其他三个数据集上均优于其他的模型,需要重点观察的是与本文模型最相关的DiMSC模型,我们的模型的三个评价指标在三个数据集上都比DiMSC要高,这也很好的证明了通过自动学习一致亲邻图和类簇指标矩阵可以有效提高子空间的聚类性能。另外,与模型ECMSC相比,因为该模型中也用到了类簇指标一致项,是直接用Z来代替亲邻图进行图的秩约束,其本质上还是使用了前面公式(2)来代替亲邻图S,聚类性能还是受到了影响。

4总结

本文提出的模型结合了视图内部的结构学习和视图间的多样性与一致性学习来提高聚类的性能。通过引入单纯形概率约束和秩约束来自动学习用于聚类任务的共同亲邻图与类指标矩阵,避免了两步聚类策略带来的次优化问题,在真实的数据集上实验,验证了所提模型的有效性。但所提模型也存在一定的缺陷,如参数的调试很费时,实现一个无参的多视图聚类模型是未来研究的重点。

参考文献(References):

[1]何梦娇.基于非负矩阵分解的多视图聚类研究[D],面南交通大学,2017.

[2]Gao H,Nie F,Li X,et al.Multi-view Subspace Clustering[CI//IEEE International Conference on Computer Vision.IEEE.2015.

[3]X. Cao,C.Zhang,H.Fu,S.Liu,H.Zhang, Diversity-induced multi-view subspace clustering[C], in: Proceed-ings of the IEEE Conference on Computer Vision andPattern Recognition,2015:586-594

[4] X. Wang, Z. Lei, X. Guo, C. Zhang, H. Shi, S.Z. Li, Multi-view subspace clustering with intactness-aware similari-ty[J].Pattern Recognit, 2019.88: 50-63

[5]S. Luo, C. Zhang, W. Zhang, and X. Cao, Consistent andspecificmultiview subspace clustering[C], in Proc. Int.30th AAAI Conf. Artif. Intell.,2018:3730-3737

[6] X. Zhu, S. Zhang, R. Hu, W. He, C. Lei, P. Zhu, One-stepmulti-view spectral clustering[J], IEEE Trans. Knowl.Data Eng,2018.31:2022-2034

[7] F. Nie, X. Wang, H. Huang, Clustering and projectedclustering with adaptive neighbors[C], in: Proceedingsof the 20th ACM SIGKDD International Conferenceon Knowledge DiscoveW and Data Mining, ACM,2014:977-986

[8] K. Zhan, C. Niu, C. Chen, F. Nie, C. Zhang, Y. Yang,Graph structure fusion for multiview clustering[J].IEEETrans. Knowl. Data Eng,2018.31:1984-1993

[9] K. Fan, On a theorem of weyl concerning eigenvalues oflinear transformations[Cl. in, Proc. Natl. Acad. Sci,1949.35(11):652-655

收稿日期:2020-05-22

*基金项目:山西医科大学汾阳学院人才引进启动基金(2018D06)

作者简介:刘金花(1987-),女,山西省汾阳人,硕士,讲师,CCF会员,主要研究方向:机器学习、数据挖掘。