朱昌明 高玉森
摘要:由于受限于人工成本,很多现实世界中的多视角数据集是由少量有标签样本和大量无标检样本组成的。当前传统的多视角矩阵分类器无法有效处理这类数据集。为了处理这个问题,将Universum学习引入多视角矩阵分类器中,提出基于信息增强的多视角矩阵分类器。由于Universum学习可以生成额外的无标签样本,这类样本虽然没有被指定类别标签,但是包含了部分有标签样本的信息,所以Universum学习可以增强有效样本信息。实验表明,相比于传统的多视角矩阵分类器,本文提出的基于信息增强的多视角矩阵分类器具有更好的分类性能。
关键词:
Universum学习; 多视角; 矩阵分类器
中图分类号: TP391.4
文献标志码: A
Information enhancement-based multi-view matrix classifier design
ZHU Changming, GAO Yusen
(Information Engineering College, Shanghai Maritime University, Shanghai 201306, China)
Abstract:
Due to the limitation of labor cost, many real-world multi-view datasets are composed of a small number of labeled samples and a large number of unlabeled samples. At present, the traditional multi-view matrix classifier cannot deal with this kind of datasets effectively. In order to deal with this problem, Universum learning is introduced into the multi-view matrix classifier, and an information enhancement-based multi-view matrix classifier is proposed. Because Universum learning can generate additional unlabeled samples that contain some information of labeled samples, Universum learning can enhance the effective sample information. Experimental results show that, the proposed information enhancement-based multi-view matrix classifier is of better classification performance than the traditional multi-view matrix classifiers.
Key words:
Universum learning; multi-view; matrix classifier
收稿日期: 2020-05-10
修回日期: 2020-06-23
基金項目: 中国博士后基金(2019M651576);上海市晨光计划(18CG54)
作者简介:
朱昌明(1988—),男,上海人,副教授,博士,研究方向为多视角学习、模式识别,(E-mail)cmzhu@shmtu.edu.cn
0 引 言
多视角数据集普遍存在于图像处理、视频追踪、网页分类等领域。数据集多由矩阵型样本组成,因此通常采用多视角矩阵分类器(如改进的基于Nystrm的多核修正型Ho-Kashyap算法[1](INMKMHKS)、双重局部化多矩阵学习机[2](DFLMMLM)、具有5方面样本信息的多矩阵学习机[3](MMLMFAPI)等)处理。随着国际贸易发展、生活节奏变快,越来越多的样本呈现出大批量产生的特征,但受限于人力成本,仅有一小部分样本获得了标记。换句话说,当前的大多数多视角数据集是由少量有标签样本和大量无标签样本构成的。这类数据集称为半监督多视角数据集。传统的多视角矩阵分类器无法有效处理这类数据集。
增强有效的样本信息是处理这个问题的一种方式。众所周知,有标签样本可以提供有利于分类器设计的有效样本信息,而无标签样本能提供的这类有效的样本信息很少。若可以以有标签样本为基础生成一些样本,则这类样本可以提供有效的样本信息,从而增强有利于分类器设计的样本信息,并进一步提升分类器的性能。目前,Universum学习就是这样的一种解决方式[4]。Universum学习通过生成包含有利于分类器设计的先验知识和信息的额外无标签样本(即Universum样本),并选择其中的一部分加入原始数据集,来增强有效样本信息并指导分类器设计。比如,对于有0、1、2、3、4、5、6、7、8、9总共10个数字的1 000多张图片,要分类5和8,既可以用0、1、2、3、4、6、7、9这8个数字的图片作为Universum样本,也可以利用这些图片来拟合生成一些包含了关于5和8的先验知识的新图片(这些新图片虽然不能被归为任务一类,但是它们在生成时涉及了5和8的相关信息,因此这些图片也可以被认为是Universum样本)。
经典的Universum样本生成及选择方法在CHEN等[5]和ZHU[6]的工作中有所涉及,即通过选取任意两个不同类的有标签多视角样本,平均化它们的特征信息,从而构建一个新的无标签样本。新的无标签样本由于是通过有标签样本生成的,所以包含一定的先验知识和信息。朱昌明等[7]把该样本生成算法用于结构风险最小化问题中以验证其在理论上的有效性。刘鸿等[8]将Universum样本生成算法用于度量学习,以更真实地刻画样本之间的距离,提高分类和聚类的精度。此外,相关学者更从降维、模糊学习等角度验证了Universum学习的两大优点:①充分利用整个数据分布的域知识;②可获取更多的有效样本信息。[9-10]这些有效样本信息对于指导分类器的构建有着重要的作用,可以提升分类器的性能。
为克服传统多视角矩阵分类器的不足,本文以传统的矩阵分类器(即基于矩阵样本的修正型Ho-Kashyap算法(MatMHKS))[11]为基础,引入Universum学习,并拓展到多视角领域,提出一个基于信息增强的多视角矩阵分类器(information enhancement-based multi-view MatMHKS, IMMatMHKS)。
1 IMMatMHKS
IMMatMHKS设计方法包含两个步骤:第一步,通过Universum学习生成更多有用的Universum样本;第二步,把这些模式用到多视角MatMHKS中,构建一个基于信息增强的多视角矩阵分类器设计方法,即IMMatMHKS。为此,本节由两部分组成:第一部分描述Universum学习和生成Universum样本,第二部分给出IMMatMHKS的训练和优化步骤。
1.1 CIBU算法
为生成合适的Universum样本,并增强有效的样本信息,本文使用CIBU(creating in-between Universum)算法。
假设有一个多视角矩阵集Tmat={(A1,φ1),(A2,φ2),…,(AN,φN)},φp∈[0,c]是类标签(p=1,2,…,N),其中N和c分别表示有标签样本的数量和类别的数量。φp=0表示相应的样本没有标记,即该样本为无标签样本;φp≠0表示相应的样本为有标签样本。
先根据所有样本的信息建立近邻矩阵G。矩阵G第i行第j列的元素Gij由式(1)计算:
Gij=Ai-Aj22,Ai∈Nk(Aj)或Aj∈Nk(Ai)
+∞,其他
(1)
式中:Nk(Aj)或Nk(Ai)是Ai或Aj的k个最近邻样本的集合,Ai和Aj是两个不同的样本。
随后,分别针对两个不同的样本Ai和Aj(其中至少有一个是有标签样本),根据其Gij进行判断。若Gij的值不为无穷大,则由Ai和Aj得到一个Universum样本A*k,其计算方式如下:
A*k=(Ai+Aj)/2
(2)
最后,在生成的Universum样本集中选择最小的UAk个Gij所对应的Universum样本参与后续分类器的训练。之所以选择最小的UAk个Gij所对应的Universum样本,是因为Gij越小,Ai与Aj之间的相似度越高,生成的Universum样本所具有的先验知识和有效样本信息越多。至此,CIBU算法就完成了。
1.2 IMMatMHKS训练与优化
假设有一个包含N个多视角向量样本的集合Tvec={(x1,φ1),(x2,φ2),…,(xN,φN)},其中样本xp∈Rd,φp∈[0,c]为相应的类标签,p=1,2,…,N。Tvec可以通过参考文献[11]中给出的矩阵化技术被矩阵化到相应的多视角矩阵集Tmat={(A1,φ1),(A2,φ2),…,(AN,φN)}中,其中Ap∈Rd,d=n1×n2,p=1,2,…,N。另外,T*vec={x*1,x*2,…,x*M}是生成并选择的用于训练的M个Universum样本
的集合,其被矩阵化后的
形式是T*mat=(A*1,A*2,…,A*M)。IMMatMHKS的目标函数为
min J|J(u,,v0,bp,b*q)=
Np=1(φp(uTAp+v0)-1-bp)2/2+
C(uTS1u+TS2)/2+
DMq=1((uTA*q+v0)-1-b*q)2/2
(3)
式中:u、分别为左、右权向量;v0为偏置;bp为样本Ap的松弛量;b*q为样本A*q的松弛量;C和D为正则化参数,其作用是调节模型复杂度与分类误差之间的平衡。
为求解式(3),令:Y=(y1,y2,…,yN)T,yp=φp(uTAp,1)T,p=1,2,…,N;v=(T,v0)T;b=(b1,b2,…,bN)T;IN×1=(1,1,…,1)T;Y*=(y*1,y*2,…,y*M),y*q=(uTA*q,1)T,q=1,2,…,M;b*=(b*1,b*2,…,b*M)T;I*M×1=(1,1,…,1)T。IMMatMHKS的目标函数可重写为
min J|J(u,v,bp,b*q)=
(Yv-I-b)T(Yv-I-b)/2+
C(uTS1u+vTS~2v)/2+
D(Y*v-I*-b*)T(Y*v-I*-b)/2
(4)
式中S~2=S2000。由式(3)或式(4)无法直接获取参数u、v、b、b*的最优值,因此采用梯度下降法对式(4)进行迭代求解。
先由式(4)对u、v、b、b*求偏导数,再令所求得的偏导数为0,得到权向量u和以及偏置v0的迭代结果。设定迭代终止条件,当迭代终止时会得到最优的权向量u和以及偏置v0,即权向量un和n以及偏置v0n,随后便可利用这些最优值对测试样本进行分类。
2 实验分析
2.1 实验设置
為验证所提出的IMMatMHKS的有效性,选择3个多视角数据集作为实验数据,见表1~3。针对这些数据集,随机选择10%、20%、30%、40%、50%、60%的样本作为训练样本,其余的样本用于测试。另外,在训练样本中随机选择10%、20%、30%、40%、50%、60%、70%、80%、90%的样本作为有标签训练样本,其余的样本作为无标签训练样本。
选择INMKMHKS、DFLMMLM和MMLMFAPI这3个传统方法作为对比。这些方法的参数由相应的参考文献可知。而对于本文提出的IMMatMHKS,其大部分参数设置可以参考文献[11]。IMMatMHKS中的参数k和UAk设置如下:k=5;UAk为所有样本数量的3倍。实际上,
k和UAk這两个参数设置的不同,会影响IMMatMHKS的性能,但是通过大量实验发现,由于Universum学习的引入,这两个参数在大部分情况下都会使分类器的性能提高,因此本文中仅给出如上设置的实验结果。
为获得最佳参数,采用十重交叉验证的方法:针对每组参数组合,将所使用的数据集的训练样本分为10份,每次取9份进行训练,1份进行验证,然后获得一个分类性能;10次实验之后,便得到一个平均结果;以平均结果最好的情况下的参数为最佳参数,对测试样本进行测试实验。
2.2 分类性能比较
为体现IMMatMHKS的有效性,采用准确率、真阳率、真阴率和F值(相应的指标概念可参考文献[12])等4个指标描述其性能。从表4可知:①就准确率、真阳率、真阴率来说,IMMatMHKS可以带来相对较好的性能;②从F值的结果来看,IMMatMHKS的性能优势并没有明显偏向正类和负类,具有普适性。总体而言,由于本文提出的IMMatMHKS引入了Universum学习,可以在识别同一个数据集时,通过信息的增强使更多的有效样本信息参与分类器的训练,所以IMMatMHKS比INMKMHKS、DFLMMLM、MMLMFAPI具有更好的分类性能。
2.3 时间性能比较
表5给出了在最佳参数的情况下,4种方法的训练时间和测试时间。由表5可知,随着Universum学习的引入,分类器的训练需要更多的时间,但是由于增加的时间不超过10%,所以结合IMMatMHKS的性能优势,这一现象是可以接受的。另外,从测试时间来看,在同一个数据集中,IMMatMHKS所需要的测试时间也不一定是最多的。当然,应当注意的是,对于一般的识别问题而言,时间上的差距可以通过硬件来弥补,而识别率上的差异则需要通过算法来弥补,因此IMMatMHKS在时间上的额外开销并不会过多地影响其性能优势。
2.4 显著度分析
为验证IMMatMHKS的优势是显著的,下面进行显著度分析,即p值比较[13]。p值最早由FISHER提出,按照FISHER的理论,p值越小,两种方法在同一个数据集上的差异越显著。一般来说,当p>0.05时可以认为两种方法在一个数据集上的差异是不显著的,当p∈[0.01,0.05]时可以认为两种方法在一个数据集上的差异是显著的,而当p<0.01时可以认为两种方法在一个数据集上的差异非常显著。
为更好地表明IMMatMHKS的有效性,用表6表示在不同的评价指标下IMMatMHKS与参与对比的方法在不同数据集上的p值。
由表6可以明显地看到,相对于其他对比方法,特别是INMKMHKS,本文提出的IMMatMHKS具有显著的优势。
2.5 训练样本和有标签样本比例的影响
由于在实验中针对训练样本和有标签样本选择了不同的比例,本文也给出样本比例不同的情况下IMMatMHKS性能的变化。为简化说明,本文只给出在不同的训练样本比例和有标签训练样本比例的情况下
IMMatMHKS在Mfeat数据集上准确率的变化。尽管没有给出IMMatMHKS在其他数据集和其他分类性能指标下的变化,但是这并不会影响结果。从表7可知,训练样本和有标签训练样本的比例越高,IMMatMHKS在Mfeat数据集上的准确率越高,这也证明随着信息的增强,有效样本信息越多,可以更容易指导分类器的设计,从而提升分类器的性能。
3 总结与未来工作
在当前的模式识别领域中,多视角学习问题普遍存在。尽管已有学者提出一系列多视角矩阵分类器处理此类问题,但是受限于人工成本,现实世界中大多数多视角数据是由少量有标签样本和大量无标签样本组成的,传统的多视角矩阵分类器对于此类问题的处理存在一定的困难。
本文在矩阵分类器中引入Universum学习,通过CIBU算法增强有效的样本信息,并提出一个基于信息增强的多视角矩阵分类器(IMMatMHKS)。通过在Mfeat、Reuters、Corel等3个典型的多视角数据集上的实验,验证IMMatMHKS具有更高的分类性能且性能优势显著,只是训练时间略有增加。本文的工作也验证了随着训练样本或有标签训练样本比例的增加,矩阵分类器的性能也会增强。
除Universum学习外,还有很多其他的方法可以生成额外的样本,如对抗网络。由于本文的研究目的是验证信息增强后分类器性能会提高,而Universum学习的时间开销比对抗网络的小,所以本文研究采用了Universum学习。未来工作会采用对抗网络等方式加以深入研究,以更好地增强样本信息。
参考文献:
[1]ZHU Changming, GAO Daqi. Improved multi-kernel classification machine with Nystrm approximation technique[J]. Pattern Recognition, 2015, 48(4): 1490-1509. DOI: 10.1016 / j.patcog.2014.10.029.
[2]ZHU Changming, WANG Zhe, GAO Daqi, et al. Double-fold localized multiple matrixized learning machine[J]. Information Sciences, 2015, 295: 196-220. DOI: 10.1016/j.ins.2014.10.024.
[3]ZHU Changming, GAO Daqi. Multiple matrix learning machine with five aspects of pattern information[J]. Knowledge-Based Systems, 2015, 83: 13-31. DOI: 10.1016/j.knosys.2015.03.004.
[4]WESTON J, COLLOBERT R, SINZ F, et al. Inference with the Universum[C]//Proceedings of the 23rd International Conference on Machine Learning. ICML, 2006: 1009-1016. DOI: 10.1145/1143844.1143971.
[5]CHEN Xiaohong, YIN Hujun, JIANG Fan, et al. Multi-view dimensionality reduction based on Universum learning[J]. Neurocomputing, 2018, 275: 2279-2286. DOI: 10.1016/j.neucom.2017.11.006.
[6]ZHU Changming. Improved multi-kernel classification machine with Nystrm approximation technique and Universum data[J]. Neurocomputing, 2016, 175: 610-634. DOI: 10.1016/j.neucom.2015.10.102.
[7]朱昌明, 梅成就, 周日贵, 等. 基于Universum的多视角全局和局部结构风险最小化模型[J]. 上海海事大学学报, 2018, 39(3): 91-102. DOI: 10.13340/j.jsmu.2018.03.017.
[8]刘鸿, 陈晓红, 张恩豪. 融入Universum学习的度量学习算法[J]. 计算机工程与应用, 2019, 55(13): 158-164, 238.
[9]CHEN Xiaohong, YIN Hujun, JIANG Fan, et al. Multi-view dimensionality reduction based on Universum learning[J]. Neurocomputing, 2018, 275: 2279-2286. DOI: 10.1016/j.neucom.2017.11.006.
[10]TENCER L, REZNAKOVA M, CHERIET M. UFuzzy: fuzzy models with Universum[J]. Applied Soft Computing, 2016, 59: 1-18. DOI: 10.1016/j.asoc.2016.05.041.
[11]CHEN Songcan, WANG Zhe, TIAN Yongjun. Matrix-pattern-oriented Ho-Kashyap classifier with regularization learning[J]. Pattern Recognition, 2016, 40(5): 1533-1543. DOI: 10.1016/j.patcog.2006.09.001.
[12]BERGER A, GUDA S. Threshold optimization for F measure of macro-averaged precision and recall[J]. Pattern Recognition, 2020, 102: 107250. DOI: 10.1016/j.patcog.2020.107250.
[13]TANG Shijie, TSUI KW. Distributional properties for the generalized p-value for the Behrens-Fisher problem[J]. Statistics & Probability Letters, 2007, 77(11): 1-8. DOI: 10.1016/j.spl.2006.05.005.
(編辑 贾裙平)