基于自表示和投影映射的不完整多视图聚类

2024-05-15 19:23赵翠娜杨有龙
吉林大学学报(理学版) 2024年2期

赵翠娜 杨有龙

摘要: 针对不完整多视图聚类存在的缺陷, 提出一种融合自表示和投影映射的统一框架. 首先, 利用自表示和样本存在指示矩阵学习一致相似图, 它反映了样本间的公共相似关系; 其次, 利用投影映射将样本矩阵投影到超球面上, 得到公共低维表示; 最后, 将两者通过谱表示嵌入在一起, 解决了因多视图数据缺失引起的不完整多视图聚类问题. 该算法在真实数据集上的实验结果优于其他算法, 证明了算法的有效性.

关键词: 多视图聚类; 不完整视图; 自表示学习; 投影映射

中图分类号: TP391文献标志码: A文章编号: 1671-5489(2024)02-0331-08

Incomplete Multi-view Clustering Based on Self-representation and Projection Mapping

ZHAO Cuina, YANG Youlong

(School of Mathematics and Statistics, Xidian University, Xian 710126, China)

Abstract: Aiming at the shortcomings of incomplete multi-view clustering, we  proposed a unified framework that integrated  self-representation and projection mapping. Firstly, self-representation and sample presence indication matrices were used to learn a uniform similarity graph, which reflected the common similarity relationship between samples. Secondly, the sample matrices were projected onto the hypersphere by using projection mapping to obtain a common low-dimensional representation. Finally, the two were embedded together through spectral representation to solve the incomplete multi-view clustering problem caused by missing multi-view data. The experimental results of this algorithm on real datasets are better than other algorithms, which proves the effectiveness of the proposed algorithm.

Keywords: multi-view clustering; incomplete view; self-representation learning; projection mapping

0 引 言

由于不同的采集源或对同一物体的不同处理方法, 数据可被分成多个特征集, 这些特征集有不同的物理意义和鉴别能力, 因此可将这些不同的特征集视为多视图数据. 随着多视图数据的大量涌现, 多视图聚类(multi-view clustering, MVC) [1-7]考虑了来自多个视图的互补信息和一致信息, 因此在数据挖掘和分析领域已引起广泛关注.

但由于一些现实因素的影响, 多视图数据经常是不完整的. 不完整性可能由于随机缺少特征或缺少样本的某个视图特征导致. 例如, 在图像聚类时, 获取到的图像可能由于遭到遮挡受到破坏, 这属于前者; 在多语言文档聚类中, 一种语言可视为文档的一个视图, 一个文档可能没有所有的语言版本, 这属于后者. 本文主要关注后者, 即一个样本可以在所有或部分视图上找到. 在不完整多视图数据上进行的聚类问题称为不完整多视图聚类(incomplete multi-view clustering, IMC).

近年来, 已有许多方法处理不完整多视图聚类. 不完整多视图聚类与多视图聚类相同, 可分为基于核的不完整多视图聚类、 基于矩阵分解的不完整多视图聚类和基于图的不完整多视图聚类, 但现有的很多方法已将上述种类融合在同一个框架中, 进一步提高学习性能. 从视图缺失处理角度, 不完整多视图聚类可分为基于部分视图的方法和基于缺失视图推断的方法.

基于缺失视图补充的方法对缺失视图或缺失视图转化部分进行填充, 占据了不完整多视图聚类很大一部分. 例如, Shao等[8]提出了一种集体核学习的多视图补全算法, 该算法对于两个缺失的视图, 利用共享实例的对齐信息, 去优化不完全核矩阵的信息, 最后使用核典型相关分析完成聚类; Wen等[9]提出了缺失视图推断的统一嵌入对齐不完整多视图聚类, 通过将位置重建项引入到矩阵分解和反向图学习中, 使所有视图都能自然对齐; Zhang等[10]提出了基于自适应缺失视图归算和合作学习的端到端不完全多视图模糊聚类, 将缺失视图植入、 隐藏视图学习和聚类整合到同一个框架中, 实现了隐藏视图和可见视图之间的合作学习; Wen等[11]提出了基于不完全多视图聚类的自适应图补全, 通过借用其他视图的相似性信息恢复不完整视图信息, 并且最大程度上保留了自身的相似性信息; Liu等[12]提出了具有不完整核的多核k-均值算法, 并不直接填充缺失部分, 而将缺失部分作为多核聚类过程中需要优化的辅助变量, 通过填充和聚类的交替迭代达到一个较好的聚类结果; Gao等[13]提出了不完全多视图聚类, 基于谱理论, 将原始数据投影到新的空间中, 并将各视图的投影进行整合更新每個视图中的缺失部分, 进而趋向共识.

基于部分视图的方法通常将视图信息分为对齐部分和非对齐部分学习视图的潜在表示去聚类. 例如, Li等[14]提出了部分多视图聚类, 利用矩阵分解在两个视图的共有部分学习相同的隐藏表示, 在局部视图学习各自的潜在表示去实现聚类; Shao等[15]提出了基于L2,1正则化加权非负矩阵分解的多重不完全视图聚类, 通过引入一个值位于0~1间的权重矩阵在非负矩阵分解中学习共识矩阵, 使缺失实例的影响低于存在实例, 并加入了L2,1正则化使模型对噪声和异常值具有鲁棒性; Zhuge等[16]提出了基于联合表示和聚类(joint representation learning and clustering, JRLC)框架的不完全多视图聚类, 提出了带谱嵌入的JRLC(JRLC-SE)及通过集成非负嵌入和谱嵌入的JRLC(JRL-NS)两种方法; Wang等[17]提出了谱扰动满足不完整多视图数据, 先将样本缺失转化为样本间相似性缺失问题, 然后基于谱扰动理论, 使用每个视图的Laplace矩阵进行一致性学习, 最后使用谱聚类在一致Laplace矩阵上进行聚类.

虽然现有的方法在不完整多视图聚类方面都取得了较好的效果, 但仍存在一些缺点:

1) 虽然在聚类过程中完成了缺失数据的填充, 但不准确的填补可能会使聚类结果和真实结果产生较大误差;

2) 利用各视图上存在的样本获取的共识表示并未充分探索视图间的互补信息, 仅学习到存在样本的一致信息;

3) 仅探索低维表示的信息, 原始样本矩阵中的公共结构信息被忽略.

基于以上限制, 本文提出一种基于自表示和投影映射的不完整多视图聚类(IMSP). 首先, 在每个视图上引入样本存在指示矩阵学习每个视图上的自表示矩阵, 既使缺失视图可以对齐, 又充分探索了样本点之间的公共相似度关系; 其次, 在减少缺失样本权重影响的情况下, 将不同视图的样本矩阵投影在一个超球面上获取共识低维表示; 最后, 将上述两部分通过谱表示嵌入在同一个框架中相互交替迭代和更新, 使样本间的公共表示和视图矩阵的局部表示更具有一致性. 本文使用IMSP-P和IMSP-S两种算法获得聚類结果, 进一步提高聚类结果的质量.

3 实 验

3.1 数据集

1) BBCSport: 该数据集包括来自BBC新闻网站的116篇关于5个主题的新闻文章, 每个文档被划分为4个文本, 对应于特征维度为1 991,2 063,2 113和2 158的4个视图.

2) ORL: 是一个从英国剑桥实验室收集的人脸数据集, 40个目录中有400张图像, 分别提取对应于3个视图的3个特征集, 3个特征集的尺寸分别为4 096,3 304和6 750.

3) Wikipedia: 该数据集用于检索, 包含693个样本, 其中128维图像特征和10维文本特征被分为10个类别.

4) BUAA: 该数据集共有1 350张图像, 分为150个类别, 每个类别包含视觉光谱和近红外数据, 两个视图的尺寸均为100.

5) Caltech-7: 该数据集是Caltech-101的一个子集, 包含7个类, 其中包含1 474张图像, 6个视图分别为48维Gabor特征、 40维WM特征、 254维CENTRIST特征、 1 984维HOG特征、 512维GIST特征和928维LBP特征.

3.2 对比方法

1) 缺失视图推断的统一嵌入对齐的不完整多视图聚类(UEAF)[9]: 首先, 利用误差矩阵和索引矩阵对缺失数据进行填充, 得到低维一致表示; 其次, 通过反向图正则化得到一致相似度图矩阵; 最后, 利用谱聚类和k均值得到最终聚类结果.

2) 基于不完全多视图聚类的自适应图补全(AGC-IMC)[11]: 该方法采用视图内保持和视图间推断的方法恢复完整的相似图矩阵, 先用自适应权重表示每个视图的重要性, 然后利用恢复后的完整图进行一致表示学习.

3) 基于L2,1正则化加权非负矩阵分解的多重不完全视图聚类(GPMVC)[23]: 在非负矩阵分解中引入加权指标矩阵, 减小缺失样本相对于已有样本的影响, 并利用协正则化和L2,1范数得到一致的低维表示矩阵.

4) 基于图正则化非负矩阵分解的局部多视图聚类(MIC)[15]: 该方法在部分多视图聚类(PVC)的基础上, 将两视图的情况扩展为多视图, 并增加了图正则化惩罚项, 提高了聚类的质量.

5) 不完整视图的在线多视图聚类(OMVC)[24]: 针对大规模多视图数据的处理问题, 提出一种逐块处理多视图数据的方法. 采用加权非负矩阵分解和L1范数学习一致性特征矩阵.

3.3 评估指标

本文选择聚类精度(ACC)、 归一化互信息(NMI)和纯度(Purity)这3个外部指标作为评价聚类性能的指标. 这3个指标值均位于0~1间, 其值越大聚类效果越好.

3.4 实验结果与分析

在实验中, 确保每个样本至少在一个视图上出现的情况下, 在每个视图上随机移除10%,30%和50%的样本. 为进行公平有效的比较, 使用上述方法在每个缺失率下随机生成10组缺失样本, 并将这10次聚类指标的平均值作为最终聚类结果. 不同算法在真实数据集上的聚类性能比较列于表1. 由表1可见, 在大部分实验中, 本文算法都优于其他算法, 尤其是在数据集BUAA上, 本文算法显著优于次优算法. 因为本文算法在减少缺失样本的影响下将多个视图的公共相似度关系和超球面低维表示很好地集成在一个框架中, 且互相促进彼此的迭代和更新. 在大多数情况下, UEAF和AGC-IMC算法的效果显著优于MIC,OMVC和GPMVC算法, 这是因为UEAF算法中利用图正则化学习到的误差矩阵去填补缺失样本, 误差矩阵即选取n-nv条最能代表存在样本特征关系的dv维向量; AGC-IMC算法是利用其余视图上的相似性关系的线性组合填补缺失样本的相似性关系, 在缺失率增加的情况下, 甚至在某些数据集上效果反而更好; 而MIC,OMVC和GPMVC算法只是简单均值填充, 说明合理地填补缺失样本或相似性关系也可以达到较好的效果.

雖然在一些数据集上, IMSP算法没有取得最优聚类指标, 但与最优算法相差较小. 在数据集BUAA上, IMSP比次优方法的聚类精度超出了50%, 证明了该算法的优越性.

3.5 参数确定及敏感度分析

在IMSP算法实验中, 3个超参数λ1,λ2,λ3需要通过网格搜索最优参数, 其中λ1,λ2,λ3的取值范围均为{10-5,105}. 比较算法的参数会根据相应的参数范围选择最优结果. 图1和图2分别是参数λ2和λ3与λ1在数据集上的敏感性分析. 由图1和图2可见, 参数在很大范围内都是相对稳定的.

3.6 算法复杂度分析与收敛性

根据迭代优化算法的更新步骤计算算法的时间复杂度, 变量P,F(v)和Z(v)是时间代价最大的, 为O(n3), 计算S的时间可以忽略不计, 因此总的时间复杂度为O(n3).

图3是在数据集Caltech-7缺失率为0.3时的收敛曲线. 由图3可见, 在5次迭代以内目标函数快速下降, 有效支持了算法的有效性.

综上所述, 针对不完整多视图聚类存在的缺陷, 本文提出了一种将自表示学习和视图投影相结合的统一框架去处理不完整多视图聚类的方法. 首先, 在自表示中引入了样本存在矩阵, 使学习的自表示系数自然对齐, 在一些限制条件下学习相似图矩阵; 其次, 每个视图上的样本矩阵经过投影映射到一个超球体的表面上; 最后, 前两者经过Laplace正则化组合成一个统一的框架. 该算法以较快的收敛速度迭代和更新, 实验结果证明了算法的有效性.

参考文献

[1]CAO X C, ZHANG C Q, FU H Z, et al. Diversity-Induced Multi-view Subspace Clustering [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 586-594.

[2]KUMAR A, DAUM H. A Co-training Approach for Multi-view Spectral Clustering [C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11). Bellevue, WA: Omnipress, 2011: 393-400.

[3]XIA T, TAO D C, MEI T, et al. Multiview Spectral Embedding [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2010, 40(6): 1438-1446.

[4]NIE F P, LI J, LI X L. Parameter-Free Auto-weighted Multiple Graph Learning: A Framework for Multiview Clustering and Semi-supervised Classification [C]//IJCAI. Palo Alto: AAAI Press, 2016: 1881-1887.

[5]BUCAK S S, GUNSEL B. Incremental Subspace Learning via Non-negative Matrix Factorization [J]. Pattern Recognition, 2009, 42(5): 788-797.

[6]CHAUDHURI K, KAKADE S M, LIVESCU K, et al. Multi-view Clustering via Canonical Correlation Analysis [C]//Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009: 129-136.

[7]CHEN Y Y, XIAO X L, ZHOU Y C. Multi-view Subspace Clustering via Simultaneously Learning the Representation Tensor and Affinity Matrix [J]. Pattern Recognition, 2020, 106(5): 1348-1353.

[8]SHAO W X, SHI X X, PHILIP S Y. Clustering on Multiple Incomplete Datasets via Collective Kernel Learning [C]//2013 IEEE 13th International Conference on Data Mining. Piscataway, NJ: IEEE, 2013: 1181-1186.

[9]WEN J, ZHANG Z, XU Y, et al. Unified Embedding Alignment with Missing Views Inferring for Incomplete Multi-view Clustering [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 5393-5400.

[10]ZHANG W, DENG Z H, CHOI K S, et al. End-to-End Incomplete Multiview Fuzzy Clustering with Adaptive Missing View Imputation and Cooperative Learning [J]. IEEE Transactions on Fuzzy Systems, 2022, 31(5): 1-14.

[11]WEN J, YAN K, ZHANG Z, et al. Adaptive Graph Completion Based Incomplete Multi-view Clustering [J]. IEEE Transactions on Multimedia, 2020, 23(2): 2493-2504.

[12]LIU X W, LI M M, WANG L, et al. Multiple Kernel k-Means with Incomplete Kernels [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42(5): 1191-1204.

[13]GAO H, PENG Y, JIAN S. Incomplete Multi-view Clustering [C]//International Conference on Intelligent Information Processing. Berlin: Springer, 2016: 245-255.

[14]LI S Y, JIANG Y, ZHOU Z H. Partial Multi-view Clustering [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2014: 1968-1974.

[15]SHAO W, HE L, YU P S. Multiple Incomplete Views Clustering via Weighted Nonnegative Matrix Factorization with L2,1 Regularization [C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2015: 318-334.

[16]ZHUGE W Z, TAO H, LUO T J, et al. Joint Representation Learning and Clustering: A Framework for Grouping Partial Multiview Data [J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(8): 3826-3840.

[17]WANG H, ZONG L L, LIU B, et al. Spectral Perturbation Meets Incomplete Multi-view Data [EB/OL]. (2019-03-31)[2023-02-10]. https://arxiv.org/abs/1906.00098.

[18]ZHANG L, ZHAO Y, ZHU Z F, et al. Multi-view Missing Data Completion [J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(7): 1296-1309.

[19]LIU J L, TENG S H, FEI L K, et al. A Novel Consensus Learning Approach to Incomplete Multi-view Clustering [J]. Pattern Recognition, 2021, 115(7): 1-13.

[20]FU X, HUANG K J, HONG M Y, et al. Scalable and Flexible Multiview MAX-VAR Canonical Correlation Analysis [J]. IEEE Transactions on Signal Processing, 2017, 65(16): 4150-4165.

[21]BARTELS R H, STEWART G W. Solution of the Matrix Equation AX+XB=C [J]. Communications of the ACM, 1972, 15(9): 820-826.

[22]WANG H, YANG Y, LIU B, et al. A Study of Graph-Based System for Multi-view Clustering [J]. Knowledge-Based Systems, 2019, 163(5): 1009-1019.

[23]RAI N, NEGI S, CHAUDHURY S, et al. Partial Multi-view Clustering Using Graph Regularized NMF [C]//2016 23rd International Conference on Pattern Recognition (ICPR). Piscataway, NJ: IEEE, 2016: 2192-2197.

[24]SHAO W X, HE L F, LU C T, et al. Online Multi-view Clustering with Incomplete Views [C]//2016 IEEE International Conference on Big Data. Piscataway, NJ: IEEE, 2016: 1012-1017.

(責任编辑: 韩 啸)

收稿日期: 2023-03-01.

第一作者简介: 赵翠娜(1997—), 女, 汉族, 硕士研究生, 从事多视图聚类的研究, E-mail: 20071212564@stu.xidian.edu.cn.

通信作者简介: 杨有龙(1967—), 男, 汉族, 博士, 教授, 从事数据分类、 数据聚类融合以及数据预测的研究, E-mail: ylyang@mail.xidian.edu.cn.

基金项目: 国家自然科学基金(批准号: 61573266)和陕西省自然科学基础研究计划项目(批准号: 2021JM-133).