摘 要:提出了一种新的深度子空间聚类方法,使用了卷积自编码器将输入图像转换为位于线性子空间上的表示。通过结合自编码器提取的低阶和高阶信息来促进特征学习过程,在编码器的不同层级生成多组自我表示和信息表示。将得到的多级信息融合得到统一的系数矩阵并用于后续的聚类。通过多组实验验证了上述创新的有效性,在三个经典数据集:Coil20,ORL和Extended Yale B上,聚类精度分别达到95.38%、87.25%以及97.58%。相较于其他主流方法,能有效提高聚类准确性,并具有较强的鲁棒性。
关键词:子空间聚类;多级结构;自编码器
中图分类号:TP181 文献标识码:A文章编号:2096-4706(2022)06-0100-04
Deep Subspace Clustering Method Based on the Multi-level Structure
YU Wanrong
(School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China)
Abstract: A new deep subspace clustering method that uses a convolutional autoencoder to transform an input image into a representation that lies on a linear subspace is proposed. The feature learning process is facilitated by combining low-order and high-order information extracted by the autoencoders, and multiple sets of self-representations and information representations are generated at different levels of the encoder. The obtained multi-level information is fused to obtain a unified coefficient matrix and use it for subsequent clustering. The effectiveness of the above innovations is verified through multiple experiments on three classic datasets, including Coil20, ORL and Extended Yale B. And the clustering accuracies reach 95.38%, 87.25% and 97.58% respectively. Compared with other mainstream methods, this method can effectively improve the clustering accuracy and it has strong robustness.
Keywords: subspace clustering; multi-level structure; autoencoder
0 引 言
高维数据处理已成为机器学习和模式识别领域具有代表性的任务之一。高维数据结构的一个重要特征是其通常近似的存在于低维子空间中,因此恢复数据的低维结构不仅有助于减少算法的计算费用和内存需求,而且能够减少高维噪声的影响,提推理、学习以及识别等任务的性能。
当所有数据点都位于单个子空间中时,问题可以被设置为寻找子空间的基和数据点的低维表示。子空间聚类问题基于自表示性质,即聚类问题中每一簇可以看成是一个子空间,将取自于多个子空间并集的数据点划分到潜在的子空间中。
子空间聚类作为聚类分析的重点和难点,在计算机视觉(如动态分割[1]、图像分割[2]、目标跟踪[3]以及视频对象的时域分割[4]等)、图像处理(如图像的表示和压缩等)等领域也已经有了许多成功的应用。
尽管自表示性质在各类方法中起着关键作用,但可能无法满足样本位于非线性子空间的情况,例如,在非均匀照明和不同姿势下拍摄的人脸图像[5]。与传统方法相比,深度子空间聚类方法可以更好地利用样本点之间的非线性关系,从而获得卓越的性能,特别是当样本不一定满足自表示属性的复杂情形下。
在本文中,我们提出了一种新的基于深度聚类的方法,利用卷积自编码器来解决子空间聚类问题。在编码器和解码器的相应层之间添加多个全连接线性层,利用编码器的多级特征进行聚类。本文也探究了层数对于聚类效果的影响。
1 相关工作
1.1 自表示方法
自表示特征反映样本間的内在关系,被广泛用于图像处理、特征选择和深度学习。在现存的子空间聚类方法中,基于自表示模型的方法由于其计算的有效性以及在实际应用中较好的性能而得到了广泛关注。自表示性质[6]指的是:取自多元线性子空间{Si}i=1,…,K的数据点{xi}i=1,…,N可以由同一子空间中的其他数据点的线性组合来表示。
假设数据矩阵X=[x1,…,xN]∈?D×N,其中{xi}i=1,…,N,xi可以被表示为:
xi=Xci (1)21C96A00-9883-4E7B-8B98-EF57E4C72B5F
其中ci∈?N是系数矢量。将所有数据点按列排列在数据矩阵X中,则(1)可以写成:
X=XC (2)
其中C∈?N×N是系数矩阵。按文献[6]所述,在子空间相互独立的假设下,通过最小化C的范数,可以保证C呈区块对角化结构,即当且仅当xi和xj在同一子空间时cij的值不为零。这样就可以将系数矩阵C用作谱聚类的输入来构建关联矩阵。
为了得到更加合适的C,现存的子空间聚类方法利用了各种正则化,比如稀疏和低秩[7]。
1.2 深度子空间聚类
最近,深度自编码器也被用于初始化深度嵌入网络以进行无监督聚类[8],例如,在自编码器模型的编码器部分加入聚类层的深度嵌入聚类(Deep Embedded Clustering, DEC)[9]以及Yazhou Ren等人提出基于深度密度的图像聚类算法(Deep density-based image clustering, DDC)[10]。
文献[5]中提出了一种有效的子空间聚类问题深度方法,称为深度子空间聚类(DSC),它采用深度卷积自编码器来学习潜在表示,并使用一种新颖的自表示层来强制它们分布在线性子空间的并集上。
DSC的目的是训练一个深度自编码器,使得它的潜在表示能够很好地适应子空间聚类,因此引入一个起到自表示作用的新的网络层,使网络直接学习得到关联矩阵。
2 方法设计
{xi}i=1,…,N∈?D是一组取自?D中K个不同子空间的并集的N个非线性样本点。DSC算法[5]介绍了一个包含L层的卷积自编码器来挖掘数据的潜在表示,并在编码器和解码器之间添加一个全连接层来实现自表示的功能。
具体来看,用Θ={Θe,C,Θd}表示自编码器的参数,Θe和Θd分别表示编码器和解码器的参数,C是新增的全连接层的参数,被当作自表示矩阵。表示编码器的输出,即数据矩阵X的潜在表示。表示由自编码器重构的数据。新的损失函数定义为:
(6)
文献[11]使用反向传播方法和谱聚类算法来找到使得式(6)最小化的解并得到最终的聚类结果。Θ可以通过反向传播进行更新,使得损失函数达到最小值。
该网络由三部分组成:编码器、自表示层和解码器,网络结构如图1所示。每个输入图像由编码器卷积层映射成一个潜在矢量zi,如图1中圆点所示。在自表示层,节点由线性权重进行全连接。然后,潜在矢量通过解码器反卷积层映射回原始图像空间。
由公式(6)可以看出,DSC算法只依赖隐性变量进行聚类。我们希望同时利用自编码器的高阶和低阶信息,以学习更多信息的子空间聚类表示。编码器的不同级别的特征,表示为,输入到全连接层,这些层的输出被馈送到解码器层。这样允许解码器重用低阶信息来产生更准确地输入数据重建,这反过来又可以提高整体聚类性能。该多级深度聚类框架,通过构建多级数据共享的单个系数矩阵来联合学习各级的子空间表示,同时形成稀疏性表示,并利用新建系数矩阵来融合各个层级学习到的系数矩阵,作为谱聚类方法的输入。损失函数如下:
(7)
其中Al,l=1,2,…,L,表示自编码器每一层的自表示层学习得到的权重矩阵,即其系数矩阵;A表示由各个层的系数矩阵整合得到的完整系数矩阵。
然后通过反向传播更新网络参数,在得到系数矩阵C之后,用下列公式建立反映各数据点之间相互关系的关联矩阵:
(8)
在此之后,利用谱聚类恢复潜在子空间并把样本聚类到它们对应的子空间中。
3 实验结果及分析
为验证本文提出的方法的有效性,本文在数据集Coil20、ORL以及Extended Yale B上进行了大量实验,与下列方法进行了对比:稀疏子空间聚类(SSC)[12]、Kernel Sparse Subspace Clustering(KSSC)[11]、Efficient Dense Subspace Clustering(EDSC)[12]以及Deep Subspace Clustering(DSC)[5]。
本部分将展示对比实验和网络层数探索实验的结果。
实验中所有方法均在CPU为2.90 GHz,内存为8 GB,操作系统为64位Windows操作系统,开发环境为基于Python语言的Pytorch框架。参照文献[8]和[5],batchsize设置为样本数,Adam优化器参数β1和β2分别设置为0.9和0.999,学习率设置为0.01。
3.1 对比实验
3.1.1 Coil20数据集
该数据集包含1 440张灰度图像,涉及20种目标,每个目标72张图像。该数据集部分样本如图2(a)所示。按照参考文献[5],将全部图像降采样至大小为32×32。
在Coil20数据集上与其他实验的对比结果如表1所示。可以看出,三层网络结构的实验结果在所有对比方法中表现最好,聚类精度为95.38%。
3.1.2 ORL数据集
上述数据集为物体数据集,为了体现方法的普遍性,作者选择了人脸数据集进一步实验。ORL数据集由大小为112×92,从40个人采集到的400张图片构成,每一类包含10张图。该数据集的部分样本如图2(b)所示。
在ORL数据集上与其他实验的对比结果如表2所示。由表可知,三层网络结构的深度子空间聚类方法与其他对比方法相比表现最好,聚类精度为87.25%。
3.1.3 Extended Yale B数据集
Extended Yale B数据集包含2 432张采集到的38个人的正面图像,每一类包含64张图片。部分样本如图2(c)所示。21C96A00-9883-4E7B-8B98-EF57E4C72B5F
对于不同类别数K∈{10,20,30,38},分别进行了多次实验以测试该方法的鲁棒性,按照文献[5]的实验方式,首先将各个类别按1 至38标号,然后取所有连续的K个类别进行39-K次实验并取平均值。
在Extended Yale B数据集上与其他方法的对比结果如表3所示。
该方法在各类实验中均取得了比其他方法更高的精度,并且可以看出,其他方法的表现随类别数K的增加而表现出明显的下降趋势,而本文提出的方法则相对稳定。具体来看,三层网络结构的深度子空间聚类方法表现最佳,在各组实验中聚类精度分别达到98.59%、98.44%、97.66%和97.58%。
3.2 网络层数探索实验
为了验证本文提出的多层结构的有效性,对网络层数的不同设置进行对比实验,具体设置为一层、两层和三层。对于三层网络,使用公式7所表示的损失函数;对于两层网络,网络结构如图3所示,使用公式7所表示的损失函数;对于一层网络,网络结构如图4所示,且由于不需要整合系数矩阵,故采用如下损失函数:
(9)
具体来看,以ORL数据集为例,一层网络结构的聚类精度为85.5%,两层网络结构的聚类精度为86.25%,三层网络结构的聚类精度为87.25%。可见,随着网络层数的增加,实验结果会有所提高,验证了多层网络的有效性。
4 结 论
本文提出了一种新的深度子空间聚类方法,该方法使用卷积自编码器将输入图像转换为位于线性子空间集合上的新的表示。首先在编码器层和它们相应的解码器层之间插入多个全连接的线性层,以促进学习得到更有效的子空間聚类表示。这些连接层通过结合低级和高级信息来促进特征学习过程,以在编码器的不同级别生成多组自表示和信息表示。接着,将得到的多级信息融合为一个整体,得到统一的系数矩阵。本文在聚类方法经典的三个数据集分别进行了实验,物体数据集Coil20,以及人脸数据集ORL和Extended Yale B,实验验证了多级系数矩阵整合方法的有效性和多级结构的有效性。
参考文献:
[1] 张红颖,贺鹏艺,王汇三.基于改进SiamFC的实时目标跟踪算法[J].激光与光电子学进展,2021,58(6):308-316.
[2] 黄志标,姚宇.基于像素聚类的超声图像分割[J].计算机应用,2017,37(2):569-573.
[3] 邹武合,张雷,戴宁.基于关键姿势的单次学习动作识别[J].半导体光电,2015,36(6):999-1005.
[4] 张爱华,雷小亚,陈晓雷,等.基于细胞神经网络的快速手语视频分割方法[J].计算机应用,2013,33(2):503-506.
[5] JI P,ZHANG T,LI H D,et al.Deep Subspace Clustering Networks [C]//31st Conference on Neural Information Processing Systems (NIPS 2017).Long Beach:CURRAN ASSOCIATES.INC,2017:24-33.
[6] ELHAMIFAR E,VIDAL R. Sparse Subspace Clustering:Algorithm,Theory,and Applications [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):2765-2781.
[7] LIU G,LIN Z,YAN S,et al. Robust Recovery of Subspace Structures by Low-Rank Representation [J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,35(1):171-184.
[8] LU C Y,MIN H,ZHAO Z Q,et al. Robust and Efficient Subspace Segmentation via Least Squares Regression [C]// Proceedings of the European Conference on Computer Vision. Berlin,Germany:Springer,2012,7:347-360.
[9] XIE J,GIRSHICK R,FARHADI A. Unsupervised Deep Embedding for Clustering Analysis [C]//Proceedings of the 36th International Conference on Machine Learning. Long Beach:JMLR,2016:478-487.
[10] REN Y Z,WANG N,Li M X,XU Z L. Deep Density-based Image Clustering [J].Knowledge-Based Systems,2020(197):105841.
[11] PATEL V M,VIDAL R. Kernel Sparse Subspace Clustering [C]//Proceedings of the IEEE International Conference on Image Processing. Paris France:IEEE,2014:2849-2853.
[12] JI P,SALZMANN M,LI H D. Efficient Dense Subspace Clustering [C]//Proceedings of the IEEE Winter Conference on Applications of Computer Vision. Steamboat Springs:IEEE,2014:461-468.
作者简介:郁万蓉(1997.08—),女,汉族,安徽蚌埠人,硕士研究生在读,主要研究方向:子空间聚类、模式识别。
收稿日期:2022-02-0921C96A00-9883-4E7B-8B98-EF57E4C72B5F