基于多视图核鉴别分析的图像识别

2016-02-23 12:19朱震宇荆晓远
计算机技术与发展 2016年12期
关键词:识别率视图投影

朱震宇,荆晓远

(南京邮电大学 自动化学院,江苏 南京 210003)

基于多视图核鉴别分析的图像识别

朱震宇,荆晓远

(南京邮电大学 自动化学院,江苏 南京 210003)

近年来多视图学习引起了研究者的广泛关注。在多视图学习中,数据主要来自于多个视图(或特征集)。多视图数据的最大优点是可以从不同视图之间提取互补信息。传统多视图学习方法是在不同视图上单独地训练分类器。这些方法利用了视图之间的互补信息,但是忽略了去除不同视图之间的冗余信息。为了解决上述问题,提出一种基于多视图核鉴别分析的识别方法。该方法通过基于核判别分析从各个视图中提取出相互正交的投影矩阵,从而能够提取出兼具互补和无冗余的特征。在AR和Oxford Flowers17公共数据库上的实验结果验证了所提算法的有效性。

多视图学习;互补信息;冗余信息;核鉴别分析

0 引 言

近年来,随着数据获取技术的不断发展,多视图学习已经在计算机视觉领域得到了广泛运用。例如,在传感器网络中,数据集来源于多个传感器,当前传感器缺失的数据可以通过其他不同的传感器弥补,因此通过多个传感器计算分类的效果要好于单一传感器[1-2]。每个网页可以根据其所含文档和指向它的超链接进行表示;一个人可以根据与其相关的音频和视频内容来表示;一幅图像可由不同的特征来表示(如颜色和形状等)。这些不同视图包含着大量的特征数据,如何从各个视图获取更多信息,多视图学习已经成为机器学习的研究热点之一。

大部分关于多视图分类方法是基于特征融合(前期融合)的方法,然后找到一个综合的节点来表示多视图特征[3-4];另一种是基于最终结果的融合(后期融合),通过结合了各个视图的结果来提升最终的表现[5]。除非多视图融合的特征是进行优化过的,否则很难保证特征融合能带来好的分类结果。

Tang等提出基于多视图的特征选择算法—MVFS[6],分别对每个视图进行独立的特征选择,并通过谱分析对每个视图进行约束,使多视图学习满足一致性原则。该算法考虑各个视图之间的相互关系,但没有去除不同视图之间的冗余信息。Jing等提出了基于鉴别变换的整体正交彩色图像识别方法—HOA[7]。该方法通过线性鉴别分析[8-9](LDA)与整体正交分析相结合,根据Fisher准则从彩色图像中分别抽取红、绿、蓝三种色彩的判别变换矩阵,并使之相互正交。但该方法在选择正交时直接按照固定的正交顺序,从而忽略了各个视图对最终识别效果的影响。

文中提出了基于多视图核鉴别的鉴别分析算法(MVKDA),利用核鉴别分析(KDA)[10-11]得到各个视图对应的投影矩阵,并使之按最优化的顺序进行相互正交。核鉴别分析是目前研究最多的非线性鉴别技术,它将基于核函数的非线性映射方法与线性鉴别分析相结合,将样本从原始特征空间映射到高维的核空间以提高数据的可分性。文中提出的方法提高了数据的可分性,去除视图特征之间的冗余信息,从而提高算法分类效果。在AR[12]和Oxford Flowers 17[13]公共数据库上的实验结果验证了所提算法的有效性。

1 核鉴别分析(KDA)

假设样本矩阵是X=[x1,x2,…,xN],xi表示X的第i个样本,样本总数为N,li表示第i类样本的样本数。通过函数φ,将样本投影到新的空间F。假设数据一共有c个类别,多类KDA的作用就是通过使用c-1个判别函数将数据投影到c-1维空间上。

(1)

其中,wi是W的第i列数据。

类间协方差矩阵可以表示为:

(2)

类内协方差矩阵可以表示成:

(3)

基于费歇尔准则的目标函数最大化:

(4)

根据再生核理论,多类KDA的目标结果可以转化为:

(5)

y(xt)=(A*)TKt

(6)

其中,Kt的第i个值表示成核函数k(xi,xt)。

这样就完成了样本的降维,将输入样本通过KDA算法维度下降到c-1。

2 多视图判别特征变换正交

这里在HOA[7]的算法基础上进行一部分改进,对获得的投影变换矩阵进行正交变换。假设已经获取了三种视图的样本数据,然后描述对MVKDA的具体实现过程。

2.1 获得所有视图核判别的变换W1,W2,W3

基于上述推导的费歇尔判别准则,得到目标函数:

(7)

因此通过解决下面的特征方程可以得到变换矩阵:

PW=λW

(8)

根据式(8),分别独立对每个视图求出相应的投影矩阵,然后根据式(6)求出每个视图的特征,再根据特征余弦最近邻算法分别求出每个视图的识别效果,从高到低排序:f(W1)>f(W2)>f(W3)。

2.2 更新W2

基于上述推导的核判别准则,得到目标函数:

(9)

因此通过解决下面的特征方程对W2进行更新。

P2W2=λW2

(10)

因此投影矩阵W2是由P2的c-1个最大非零特征对应的特征向量组成。

2.3 更新W3

基于上述推导的核判别准则,得到目标函数:

(11)

P3W3=λW3

(12)

因此投影矩阵W3是由P3的c-1个最大非零特征对应的特征向量组成。

MVKDA算法描述:

步骤1:根据式(6)和式(8)计算出所有视图训练样本的投影矩阵和特征向量,根据识别效果,得到W1,W2,W3;

步骤2:根据式(10)更新投影矩阵W2;

步骤3:根据式(12)更新投影矩阵W3;

步骤4:分别对W1,W2,W3进行标准化;

步骤5:利用投影矩阵W1,W2,W3将各个视图的所有样本通过式(6)进行相应的投影,并将得到的每个样本的多视图特征融合在一起;

步骤6:用余弦最近邻距离分类器[14]对所有样本进行分类。

3 实 验

为了验证文中算法的有效性,选择常用的公开人脸数据库AR[12]和OxfordFlowers17[13]作为实验数据库,以算法HOA[7]、KDA[10]、MVFS[5]为对比方法,比较分类识别准确率。

3.1 数据库介绍

AR公共彩色人脸数据库包含102类,每一类有26张图片,将图片处理成60*60的尺寸。考虑到表情、光照、位置、姿势等多种情况,为了有效地评价不同的变化对识别结果的影响,从每类样本中选择8个具有代表性的作为训练样本,剩余作为测试样本。图1为包含某类的部分图片。

图1 AR数据库的样本图像

Oxford Flowers17数据库包含17种花,每种80张图片。图2为部分图片。选用40个训练样本,20个测试样本,并从中提取出颜色、形状、纹理、HOG、HSV、SIFT等特征作为多个视图特征。

图2 Oxford Flowers17数据库的样本图像

对MVKDA和相关算法进行实验对比。主要包括HOA、KDA和MVFS。MVKDA和三个比较方法在两个数据库上均做20次实验。

3.2 实验结果与分析

图3和图4分别给出了在AR和Oxford Flowers17两个数据库上所有对比方法随机20次的识别率波动图。表1给出所有方法在两个库上的平均识别率和方差。

从表1可以看出,MVKDA有很好的分类性能。在AR公共彩色人脸数据库上,MVKDA方法比KDA、HOA以及MVFS三种方法的平均识别率提高了至少5.25%(93.90%-88.65%);在Oxford Flowers17数据库上,MVKDA方法比三种对比方法的平均识别率提高了至少5.35%(88.90%-83.55%)。文中将原始样本通过高斯核函数投影映射到高维空间,从而解决低维非线性不可分问题;同时考虑到去除多视图之间的冗余信息,增加整体变换正交,从而提取出更加具有鉴别性的特征。实验结果充分证明MVKDA算法能够有效地提高识别率。

图3 AR数据库上的识别率

图4 Oxford Flowers17数据库上的识别率

方法识别率(均值和方差)/%AR库OxfordFlowers17KDA88.65W8.2583.55±7.47MVFS90.04±6.4885.40±5.50HOA92.14±5.0387.85±4.84MVKDA93.90±4.4488.90±3.88

4 结束语

结合核理论,并使各个视图的投影矩阵正交,文中提出一种基于多视图核鉴别分析的图像识别方法。该方法通过基于核的线性判别分析从各个视图中提取出相互正交的投影矩阵,从而能够提取出相应特征。在AR和Oxford Flowers17人脸数据库上的实验结果表明,MVKDA与MVFS、HOA以及KDA相比,有效地提高了识别率。

[1] 朱长仁,王润生.基于单视图的多姿态人脸识别算法[J].计算机学报,2003,26(1):104-109.

[2] Xiong N,Svensson P,Svensson P.Multi-sensor management for information fusion:issues and approaches[J].Information Fusion,2002,3(2):163-186.

[3] Lai P L,Fyfe C.Kernel and nonlinear canonical correlation analysis[J].International Journal of Neural Systems,2012,10(5):365-377.

[4] Shon A,Grochow K,Hertzmann A,et al.Learning shared latent structure for image synthesis and robotic imitation[C]//Advances in neural information processing systems.[s.l.]:[s.n.],2005:1233-1240.

[5] Li S Z,Zhu L,Zhang Z Q,et al.Statistical learning of multi-view face detection[C]//European conference on computer vision-part IV.[s.l.]:[s.n.],2002:67-81.

[6] Tang J,Hu X,Gao H,et al.Unsupervised feature selection for multi-view data in social media[C]//SDM.[s.l.]:[s.n.],2013:270-278.

[7] Jing X,Liu Q,Lan C,et al.Holistic orthogonal analysis of discriminant transforms for color face recognition[C]//17th IEEE international conference on image processing.[s.l.]:IEEE,2010:3841-3844.

[8] 赵振勇,王保华,王 力,等.人脸图像的特征提取[J].计算机技术与发展,2007,17(5):221-224.

[9] Belhumeur P N,Hespanha J P,Kriegman D J.Eigenfaces vs. fisherfaces:recognition using class specific linear projection[J].Pattern Analysis and Machine Intelligence,1997,19(7):711-720.

[10] Yang M H.Kernel eigenfaces vs. kernel fisherfaces:face recognition using kernel methods[C]//Proceeding of international conference on automatic face and gesture recognition.[s.l.]:[s.n.],2002:215.

[11] Mika S,Ratsch G,Weston J,et al.Fisher discriminant analysis with kernels[C]//Proceeding of IEEE international workshop on neural networks for signal processing IX.[s.l.]:IEEE,1999:41-48.

[12] Martinez A M,Benavente R.The AR face database[EB/OL].2009.http://cobweb.ecn.Purdue.edu/~aleix/aleix_face_DB.html.

[13] Nilsback M E,Zisserman A.A visual vocabulary for flower classification[C]//IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE,2006:1447-1454.

[14] Qian G.Similarity between Euclidean and cosine angle distance for nearest neighbor queries[C]//ACM symposium on applied computing.[s.l.]:ACM,2004:1232-1237.

Image Recognition Based on Multi-view Kernel Discriminant Analysis

ZHU Zhen-yu,JING Xiao-yuan

(College of Automation,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

Multi-view learning has caused wide public concern of researchers in recent years.In multi-view learning,data is mainly from many views (or feature set).The biggest advantage of multi-view data is that it can extract complementary information from different views.The traditional multi-view learning method learns classifiers in different views independently.These methods utilize the complementary information between views,but ignore the redundant information between different views.In order to solve the above problem,a recognition method based on multi view kernel discriminant analysis is proposed.It uses kernel discriminant analysis to extract projection matrix from each view and makes the transformations orthogonal,so that it can extract both complementary and non-redundant features.Experimental results on public database like AR and Oxford Flowers17 verify the effectiveness of the algorithm proposed.

multi-view learning;complementary information;redundant features;kernel discriminant analysis

2016-02-01

2016-06-09

时间:2016-11-21

国家自然科学基金资助项目(61272273)

朱震宇(1989-),男,研究生,研究方向为生物特征识别;荆晓远,教授,博士生导师,研究方向为模式识别、图像与信号处理、信息安全、机器学习与数据挖掘。

http://www.cnki.net/kcms/detail/61.1450.TP.20161121.1641.028.html

TP181

A

1673-629X(2016)12-0092-04

10.3969/j.issn.1673-629X.2016.12.020

猜你喜欢
识别率视图投影
解变分不等式的一种二次投影算法
基于最大相关熵的簇稀疏仿射投影算法
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
找投影
找投影
提升高速公路MTC二次抓拍车牌识别率方案研究
5.3 视图与投影
视图
Y—20重型运输机多视图