蒋 文,齐 林
(郑州大学 信息工程学院,河南 郑州 450001)
一种基于深度玻尔兹曼机的半监督典型相关分析算法
蒋文,齐林
(郑州大学 信息工程学院,河南 郑州 450001)
摘要:从模式分类的角度出发,针对典型相关分析(canonical correlation analysis,CCA)算法不适应于高层次关联的缺陷,提出了改进算法。将深度学习理论与典型相关分析算法相结合,基于深度玻尔兹曼机理论提出了一种半监督典型相关分析算法。通过深度玻尔兹曼机提取出样本的显层特征与隐层特征,结合已标注样本的监督信息,构造出最有效的鉴别特征。依据ORL、Yale和AR人脸数据库进行仿真实验,实验结果表明:本文算法与其他的方法相比,具有更好的识别效果。
关键词:典型相关分析;深度玻尔兹曼机;半监督学习;人脸识别
0引言
近10年来,典型相关分析(canonical correlation analysis,CCA)在模式识别、计算机视觉及生物医学等领域中被广泛地应用,同时,在人脸识别、行为分类和疾病诊断等诸多领域中取得了突破[1-4]。文献[5]提出核典型相关分析(kernel canonical correlation analysis, KCCA),能够更好地解决人脸识别中的非线性问题。文献[6]能够实现类内相关的最大化与类间相关的最小化,且比CCA具有更好的识别性能。文献[7]使投影后样本在最小化类内离散度的同时,两组特征之间具有最大的相关性,从而有利于投影后同类样本聚类信息的保持。文献[8]有效地避免了小样本问题的发生,较好地描述了非线性的人脸识别问题。文献[9]提出利用少量的监督信息来提高分类性能。文献[10]提出能够捕获数据的局部流形结构特性,在数据可视化和姿态估计中获得了比CCA更好的实验结果。另外,文献[11]提出的稀疏保持典型相关分析方法,能在两组不同特征融合的基础上,对样本间的稀疏重构性进行约束,增强了鉴别能力。
最近几年,在特征提取和降维方法领域中半监督学习也得到了广泛应用。文献[12]提出了一种半监督判别分析方法,文献[13]提出了半监督局部线性判别分析方法,但是这两种方法也存在不足之处,即都没有采用约束信息,只用大量的无标号样本和少量的有标号样本进行降维。文献[14]提出了半监督降维方法,该方法能够同时利用无标号样本和样本之间的成对约束信息。文献[15]提出基于CCA的半监督学习,该方法只利用少量有标号样本。但是,这两种方法也有明显的不足:CCA往往只适应于低层次的关联,对于抽象、稀疏的高层概念应用范围较窄。因此,建立合适的监督信息特征提取方式成为解决这一问题的关键。
深度玻尔兹曼机(deep Boltzmann machine,DBM)是由Salakhutdinov提出的一种以受限制玻尔兹曼机(restricted Boltzmann machine,RBM)为基础的深度学习模型[16],不同于Hinton的深度信念网络(deep belief net,DBN)模型。在DBM模型中,各单元层之间均为无向连接,简化了上下层的反馈系数训练,从而使其数据泛化能力大大提高,并在多个数据库上的表现优于DBN模型。鉴于深度学习模型的迅猛发展[17-19],本文提出了一种基于深度玻尔兹曼机的半监督典型相关分析算法,该算法充分利用了大量的无标号样本和少量的有标号样本,保留了充足的有效信息。利用深度玻尔兹曼机提取深层的监督信息,并在使用CCA进行融合的过程中融入样本间的成对约束信息,从而有效解决了CCA只适用于低层次关联的弊病,确保了识别的准确性。并依据ORL、Yale和AR人脸数据库进行了仿真实验。
1基于深度玻尔兹曼机的半监督典型相关分析
DBM提取的特征分为隐层特征I-DBM和显层特征O-DBM。
设I-DBM提取的第i层隐层特征为hIi,为二值单元,则I-DBM提取的隐层特征vi的后验概率为:
(1)
其中:bi为特征vi的偏置项;Wij为显层单元i到隐层单元j的连接权值;hI={hI1,hI2,…,hIN}为隐层特征集合。
同理,设O-DBM提取的第i层显层特征为hOi,为二值单元,则O-DBM提取的显层特征vi的后验概率为:
(2)
对于包含N个训练样本的训练库监督信息标注集合为{(hI1,hO1),(hI2,hO2),…,(hIN,hON)},hIi为第i幅图像I-DBM隐性特征标注,维度为p;hOi为第i幅图像O-DBM显性特征标注,维度为q。监督信息标注集合分别构成两组大小为p×N和q×N的矩阵DI和DO,对两组矩阵进行典型相关分析得到监督信息矩阵。
(3)
其中:
(4)
整理得:
Cxy=XEYT+XMYT-XCYT=X(E+M-C)YT,
其中:E为单位矩阵;M为正约束集合;C为负约束集合。
利用Lagrange乘子法最终可以将式(3)转化为:
(5)
求解得投影向量{Wx,Wy},其中:
Wx=[wx1,wx2,…,wxp];
(6)
Wy=[wy1,wy2,…,wyq]。
(7)
将线性变换式(8)和式(9)作为投影后的融合特征用于分类:
(8)
(9)
综上所述,算法流程总结如下:
步骤Ⅰ输入两组特征集X和Y。
步骤Ⅱ根据式(4)构建Cxy。
步骤Ⅲ根据式(6)和式(7)计算投影矩阵W。
步骤Ⅳ根据式(8)和式(9)计算串行融合特征Z1和并行融合特征Z2。
步骤Ⅴ对测试样本进行分类,并比较串行、并行融合特征的识别率。
2实验结果与分析
在ORL、Yale和AR人脸数据库上进行人脸识别仿真实验,以检验本文算法的识别性能。同时,为了对比本文算法识别性能的优劣,分别与特征脸[20]、费舍尔脸(Fisherface)[21]、partialleastsquares(PLS)[22]、SVM-2K、CCA和KSLPCCA等算法作了对比。针对高维小样本的问题,本文先利用主成分提取法对数据进行降维处理,特征提取完毕后,再用最近邻法进行分类。
因为在每个人脸数据库上,训练库和测试库是随机抽取而得的,为了防止随机抽取的结果干扰到实验的准确性,每个数据库上的每组实验都重复了20次,实验结果取20次的平均值。
在ORL人脸数据库上的仿真实验中,对40个人的400幅灰度图像进行了分组,在每个人的10幅图片中选取5幅图像作为训练,剩余5张做测试。
表1分别列出了特征脸、Fisherface、PLS、SVM-2K、CCA、KSLPCCA和本文算法在ORL数据库上的识别率,同时将串行融合和并行融合的识别率进行对比。
表1 ORL人脸库上的识别率
总体来看,本文算法在ORL人脸数据库上的识别率最高,优于其他方法。不同的融合方法识别率略有差别,从各算法在ORL数据库上的识别率来看:串行融合获得的特征识别率略高于并行融合的特征。 支持向量机SVM-2K的性能比较好,优于KSLPCCA,但略低于本文算法。典型相关分析CCA的识别率介于特征脸和Fisherface算法之间。PLS的识别率与特征脸相当,且都高于原始CCA的识别率。作为CCA的最新改进算法,KSLPCCA在ORL数据库上的识别性能也相当优秀,但相比于本文算法,还是有一定的差距。
在Yale人脸数据库上的仿真实验中,对15个人的165幅灰度图像进行了分组,在每个人的11幅图片中选取5幅图像作为训练,剩余6张做测试。
表2 Yale人脸库上的识别率
表2分别列出了特征脸、Fisherface、PLS、SVM-2K、CCA、KSLPCCA和本文算法在Yale数据库上的识别率,同时将串行融合和并行融合的识别率进行对比。
总体看来,本文算法在Yale人脸数据库上的识别率较好。值得注意的是,采用不同的融合方法,识别率几乎完全相同。
从各算法在Yale数据库上的识别率上来看:串行融合获得的特征识别率与并行融合获得的特征识别率完全相同。支持向量机SVM-2K识别性能相较于其他算法,并无明显优势。PLS的识别率明显低于CCA。CCA的识别率介于特征脸和Fisherface算法之间。 KSLPCCA在Yale数据库上的识别性能最优秀,但本文算法与之相比,并不逊色。
在AR人脸数据库上的仿真实验中,对126个人的3 276多幅彩色图像进行了分组,在每个人的26幅图片中选取13幅图像作为训练,剩余13张做测试。
表3分别列出了特征脸、Fisherface、PLS、SVM-2K、CCA、KSLPCCA和本文算法在AR数据库上的识别率,同时将串行融合和并行融合的识别率进行对比。
表3 AR人脸库上的识别率
总体看来,本文算法在AR人脸数据库上也有较高的识别率。不同的融合方法识别率略有差别,从各算法在AR数据库上的识别率上来看:串行融合获得的特征识别率略高于并行融合,但是PLS和KSLPCCA算法并行融合获得的特征识别率反而高于串行融合。 支持向量机SVM-2K的性能比较好,但逊色于KSLPCCA算法和本文算法。CCA的识别率介于特征脸和Fisherface算法之间。作为CCA的最新改进算法,KSLPCCA在AR数据库上的识别性能也相当优秀,识别性能与本文算法相比,基本相当。
SVM-2K在ORL人脸数据库上的识别性能达到最佳,但在Yale和AR人脸数据库上识别性能并不理想,是由于光照、人脸角度和色彩的变换,使SVM-2K无法在相对复杂的数据库中提取更多的有效信息,导致识别率不理想。在模式识别理论中,特征抽取的一般原则是抽取特征之间的统计相关性越小越好,最佳的抽取结果是抽取得到不相关的特征。CCA可以抽取到完全不相关的特征,所以其抽取的特征显然优于PLS,识别性能自然优于PLS。基于Fisher准则的线性鉴别分析理论是模式识别中公认的最有效的方法之一,可以从理论上证明,Fisher线性鉴别分析是CCA的一种特殊情况,但是由于CCA存在小样本问题,当训练样本较少时,CCA的识别性能会受到影响,所以CCA在3个数据库上的识别性能低于Fisherface。
在ORL、Yale和AR人脸数据库上的实验结果,有力地验证了本文算法在半监督分类问题中的有效性,其识别性能明显优于SVM-2K和KSLPCCA。本文算法利用深度玻尔兹曼机提取深层的监督信息,结合已标注样本提供的重要监督信息,能够提取出对分类有效的最佳鉴别特征。KSLPCCA虽然获得了不错的识别性能,但是这种算法仅利用了已标记的训练样本,没有充分利用有效的监督信息,同时,该算法抽取特征维数受到总类别数的限制,不利于算法的进一步改进提升。而SVM-2K虽然利用了所有的训练样本,但是由于弱化了已标注样本在互相关矩阵构造过程中的重要性,导致抽取的特征过多地受无监督信息的总体互相关散度矩阵的影响而出现鉴别能力不足的现象,因而在3组实验中的识别结果均劣于KSLPCCA。
3结束语
本文提出了一种基于深度玻尔兹曼机的半监督典型相关分析,利用深度玻尔兹曼机提取深层的监督信息,不仅解决了CCA只适用于低层次关联的弊病,同时提取出了最佳的鉴别特征,有效地提高了识别率。通过在ORL、Yale和AR人脸数据库上的仿真实验,证明本文算法比其他算法更加优秀。SVM-2K算法虽然利用了所有训练样本,但弱化了同类样本之间的互相关,识别率不佳。KSLPCCA算法虽然有很好的识别率,但是仅用了已标注的样本信息,对大量的未标注信息并未充分利用。相比于PLS和CCA算法,本文算法所提取的特征更加优秀,识别性能更好。
参考文献:
[1]SUN Q S,ZENG S G,LIU Y,et al.A new method of feature fusion and its application in image recognition[J].Pattern recognition,2005,38(12):2437-2448.
[2]KIM T K,CIPOLLA R.Canonical correlation analysis of video volume tensors for action categorization and detection[J].IEEE transactions on pattern analysis and machine intelligence,2009,31(8):1415-1428.
[3]CORREA N M,EICHELE T,ADALI T,et al.Mult-set canonical correlation analysis for the fusion of concurrent single trial EPR and fuctional MRI[J].Neurolmage,2010,50(4):1438-1445.
[4]孙权森,曾生根,王平安,等.典型相关分析的理论及其在特征融合中的应用[J].计算机学报,2005,28(9):1524-1533.
[5]ZHENG W M,ZHOU X Y,ZOU C R,et al.Facial expression recognition using kernel canonical correlation analysis[J].IEEE transactions on neural networks,2014,17(1):233-238.
[6]SUN T K,CHEN S C,YANG J Y,et al.A supervised combined feature extraction method for recognition[C]//Proceedings of the IEEE International Conference on Data Mining.Pisa,Italy.2012.
[7]SUN Q S,LIU Z D,HENG P A,et al.A theorem on the generalized canonical projective vectors[J].Pattern recognition,2013,38(3):449-452.
[8]洪泉,陈松灿,倪雪蕾.子模式典型相关分析及其在人脸识別中的应用[J].自动化学报,2008,34(1):21-30.
[9]彭岩,张道强.半监督典型相关分析算法[J].软件学报,2008,19(11):2822-2832.
[10]SUN T K,CHEN S C.Locality preserving CCA with applications to data visualization and pose estimation[J].Image and vision computing,2013,25(5):531-543.
[11]侯书东,孙权森.稀疏保持典型相关分析及在特征融合中的应用[J].自动化学报,2012,38(4):659-665.
[12]CAI D,HE X,Han J.Semi-supervised discriminant analysis[C]//IEEE International Conference on Computer Vision, Rio de Janeiro,Brazil.2014:1-7.
[13]SUGIYAMA M,IDE T,NAKAJIMA S,et al.Semi-supervised local fisher discriminant analysis for dimensionality reduction[J].Machine learning,2010,78(1):35-61.
[14]ZHANG D Q,ZHOU Z H,CHEN S C.Semi-supervised dimensionality reduction[C]//Proceeding of the 7th SIAM International Conference on Data Mining.2014:629-634.
[15]ZHOU Z H,ZHAN D C,YANG Q.Semi-supervised learning with very few labeled training examples[C]//Proceedings of the 22nd AAAI Conference on Artificial Intelligence,Vancouver, Canada.2013:675-680.
[16]SALAKHUTDINOV R,HINTON G E.Deep Boltzmann machines[C]//Proceedings of International Conference on Artificial Intelligence and Statistics 2009.Brookline,MA,USA:Microtome Publishing,2009:448-445.
[17]LI Q,GU Y,QIAN X.Latent-community and multi-kernel learning based image annotation[C]//Proceedings of the 22nd ACM International Conference on Information & Knowledge Management.New York,USA:ACM,2013:1469-1472.
[18]QIAN X,HUA X S,HOU X.Tag filtering based on similar compatible principle[C]//Proceeding of IEEE International Conference on Image Processing.Piscataway,NJ,USA:IEEE,2012:2349-2352.
[19]QIAN X,HUA X S,TANG Y Y,et al.Social image tagging with diverse semantics[J].IEEE transactions on cybernetics, 2014,44(12):2493-2508.
[20]BACH F R,JORDAN M I.Learning graphical models with mercer kernels[C]//Neural Information Processing Systems.2002:1009-1016.
[21]BELHUMEUR P N,HESPANHA J P,KRIEGMA D J.Eigenfaces vs fisherfaces:recognition using class specific linear projection[J].IEEE transactions on pattern analysis and machine intelligence,1997,19(7):711-720.
[22]SUN Q,JIN Z,HENG P A,et al.A novel feature fusion method based on partial least squares regression[C]//International Conference on Advances in Pattern Recognition.2005:268-277.
文献标志码:A
中图分类号:TP391.4
DOI:10.15926/j.cnki.issn1672-6871.2016.02.010
文章编号:1672-6871(2016)02-0047-05
收稿日期:2015-08-19
作者简介:蒋文(1991-),男,四川资阳人,硕士生;齐林(1961-),男,河南郑州人,教授,博士,博士生导师,主要研究方向为信号检测与估计、通信系统及其信号处理、多媒体信号处理、情感及生物特征识别等.
基金项目:国家自然科学基金项目(61210005,61331021)