改进的主成分分析和最近邻的人脸识别方法

2012-10-08 12:12刘永生
关键词:训练样本特征向量特征值

刘永生

(杭州电子科技大学计算机学院,浙江杭州310018)

0 引言

人脸识别技术是一个极具现实意义和使用价值的研究领域。目前,主成分分析(Principal Component Analysis,PCA)和独立分量分析是人脸识别问题中的提取阶段采用的两种主要方法。当人脸图像对齐、集合大小已作归一化处理时,基于PCA的识别方法的性能较好[1]。本文提出改进的PCA特征提取方法,采用最邻近分类器来分类识别测试样本,节约了系统内存资源的开销。

1 PCA特征提取的基本思想

1.1 传统的PCA特征提取

设有N个训练样本,每个样本由其象素灰度组成一个向量xi,则样本图像象素数即为向量xi的维数,M为行象素数乘以列象素数,由向量构成的样本集为{x1,x2,…,xn},该样本集的平均向量为:

平均向量又叫平均脸,则每个训练样本与平均脸的偏差为:

则样本集的偏差矩阵为D,D的维数为M×N:

用式3计算样本集的协方差矩阵C,C的维数为M×M:

为了求M×M维矩阵C的特征值和正交归一的特征向量,直接计算是困难的,同时也是非常浪费资源。为此,提出奇异值分解来优化这一问题。

1.2 改进的PCA特征提取

设 A 是一秩为 r的 n ×r维矩阵,则存在两个正交矩阵:U=[u0,u1,…,ur-1]和 V=[v0,v1,…,vr-1],以及对角阵 B=diag[λ0,λ1,…,λr-1],λ0≥λ1≥…≥λr-1,满足 A=UB1/2VT,UTU=I,VTV=I,其中:λi为矩阵AAT和ATA的非零特征值,ui和vi分别为AAT和ATA对应于λi的特征向量。上述分解称为矩阵A的奇异值分解为A的奇异值[2]。构造矩阵:

这样R是N×N维的矩阵,求协方差矩阵Y的特征向量vi和对应的特征值λi。特征脸子空间为:

式中,V=[v1,v2,…,vN],B=diag[λ1,λ2,…,λN],λ1≥λ2≥…≥λN。

ei称为“特征脸”,任何一幅图像都可以表示为这组“特征脸”的线性组合,用他们的线性组合可以重构得到样本中任意的人脸图像,且图像的信息集中于特征值大的特征向量中,即使丢失特征值小的向量也不会影响图像质量。将特征值按大到小的顺序排序:λ1≥λ2≥…≥λm≥…≥λN,对于某一λm,小于λm的λi数值较小,可以忽略。

一幅人脸图像都可以投影到由[e1,e2,…,em]构成的特征脸子空间中,W的维数为N×m。有了这样一个降维的子空间,任何一幅人脸图像都可以向其作投影,并得到一组坐标系数,称为KL分解系数。每幅图像的特征向量可为:

对于任一待识别样本f,可通过向特征脸子空间投影求出其系数向量z:

z就是KL变换的展开系数向量,为m×1维。将向量z作为表示脸部的特征,把其输入到分类器中进行学习和分类,比直接输入图像灰度值的信息要小的多,同时又很少损失原始图像的信息。实际上,根据应用的要求,并非所有的ei都有很大的保留意义。可以选取对应特征值最大的前m个特征向量,使得:

2 最邻近人脸识别方法

本文采用最近领域[3-5]方法作为人脸识别的分类策略来讲述人脸识别过程,依据最短欧几里得距离作为判定准则,在搜索空间中寻找与测试样本距离最近的训练样本,该训练样本所对应的类别,即是测试样本所属的类别。

设具备访问权限的人数为N,每个人有M张照片,就有M×N个训练样本。每一个人作为一个子类w1,w2,…,wN,每个子类有M 个样本(i表示 wi类中的第k 个样本,k=1,2,…,M)计算待识别图像x与全部训练样本之间的欧几里得距离,并选取其中最短的:

可以认为待识别图像与具有最短距离的样本最可能同属于一个子类wj,即x∈wj。

3 实验结果与分析

该实验在Matlab7.1版本上进行仿真,数据库用的是ORL数据库。该数据库一共有400张照片,40人,每人10张,每张照片是112×92=10 304象素的灰度图。考虑到每个人的10张照片的表情变化和遮挡情况,本文选取十折交叉验证的方法进行验证。

在本实验中,用十折交叉验证测试算法准确性。选取每个个体其中的1张照片作为测试样本,剩余的9张作为训练样本,该库中有40个个体,这样测试样本有40张照片,训练样本有360张照片。对测试样本的40张照片分别进行识别,统计正确识别的照片数,计算识别的正确率。重复做该实验10次,在选取测试样本时,轮流选取,计算每次识别的正确率。这样400张照片都进行了识别,最后计算平均识别率。

3.1 PCA特征提取实验

在PCA特征提取实验中,本文计算出了ORL人脸库中的平均脸和特征脸,从左到右分别是原始图、重构特征脸、带能量值的重构特征脸。如图1所示:

图1 原图和特征脸

3.2 统计分析

选取不同的能量值α,对主分量数和带能量值α的识别率的平均值进行了统计,对每一个能量值α,都要做统计和计算。如表1所示:

表1 不同能量值α的平均识别率

选取不同能量值α,分别计算了不带能量值α的时间和带能量值α时间。如表2所示:

表2 不同能量值α的时间差计算

4 结束语

本文提出了改进的PCA特征提取方法,将传统的PCA方法进行了优化,提高了计算速度和资源利用率。为了提高快速分类识别,本文同时选取了适当主分量数。在分类识别中,采取NNA人脸识别方法,确定待识别图像。通过十折交叉验证方法,验证了改进的PCA和NNA的有效性。该方法获得了较好的识别效果,可供其他科研和工程参考。

[1]Good R P,Kost D,Cherry G A.Introducing a Unified PCA Algorithm for Model Size Reduction[J].Semiconductor Manufacturing,2010 ,23(2):201 -209.

[2]边肇祺,张学工.模式识别[M].北京:清华大学出版社,2000:212-217.

[3]Mohanty P,Sarkar S,Kasturi R.Subspace Approximation of Face Recognition Algorithms:An Empirical Study[J].IEEE Transactions on Information Forensics and Security,2008,3(4):734 -748.

[4]Ni K S,Nguyen T Q.An Adaptable k - Nearest Neighbors Algorithm for MMSE Image Interpolation[J].IEEE Transactions on Image Processing,2009,18(9):1 976 – 1 987.

[5]Mc Names J.A fast nearest- neighbor algorithm based on a principal axis search tree[J].IEEE Transactions on Pattern A-nalysis and Machine Intelligence,2001,23(9):964 -976.

猜你喜欢
训练样本特征向量特征值
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
一类带强制位势的p-Laplace特征值问题
单圈图关联矩阵的特征值
人工智能
H型群上一类散度形算子的特征值估计
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法