摘要:稀疏性是信号表示非零系数个数的度量,一个信号越稀疏,它的非零系数个数越多。稀疏表示一种信号的基础研究,它在人脸识别、图像复原、图像去噪等领域有着极为重要的意义。文章基于信号的稀疏特性在人脸识别、图像去噪等方面的应用,对信号在过完备字典下的表示进行了研究。
关键词:稀疏表示;人脸识别方法;图像复原;图像去噪;字典优化 文献标识码:A
中图分类号:TP393 文章编号:1009-2374(2015)36-0001-03 DOI:10.13535/j.cnki.11-4406/n.2015.36.001
稀疏性是指信号进行某种变换后,用来表示该信号的非零系数远小于信号本身的长度。这种特性使得与信号相关的信息提取变得快速有效,减少信号在处理过程中所需要的成本。稀疏表示使得图像的能量只集中于部分少量的原子,这些非零系数对应的原子揭示了图像主要的特征及内在的结构。近百年来,信号处理经历了小波变换、正交基变换、多尺度变换,直到20世纪末则使用过完备字典的稀疏表示,过完备字典的表示是指构成字典的基原子的个数远大于基元素的维数,这样便构成了一个扁矩阵,进而将问题转换成为求解欠定方程的问题。
1 基于稀疏表示的人脸识别
人脸识别(Face Recognition,FR)技术是基于人脸部特征进行身份识别的一种生物识别技术,因为人脸的唯一性和不容易复制性,为人物的身份进行正确的判定提供了重要线索,人脸识别技术也已成为模式识别、计算机视觉、图像处理等领域的研究热点。2009年,J.Wright等人在前人的人脸识别算法基础上,提出了基于稀疏表示的稳健人脸识别方法(Sparse Representation-based Classification,SRC),与其他的算法相比,即使在图片具有高污染或阴影的情况下,仍然可以保持较高的识别率。
人脸识别问题也就是监督学习分类问题,即已知一些数据的正确结果,然后对未知的数据做出预测。在已有监督学习分类识别中,它的基本问题描述如下:给定个不同种类的人脸数据,共个样本集,假设给定的第类样本中有个样本人脸图片,且满足:
利用这些已知类别的个训练样本集,来判断新的测试样本属于哪一类别。在人脸识别中,一张像素为的黑白人脸图片,就是一个的矩阵图片信息,矩阵的每一个元素就对应人脸图片的一个灰度值。通过把这张人脸图片构成的矩阵堆积成一个维度为的列向量,在第类中,把这个样本人脸图片合并成一个维的矩阵,其中作为矩阵的列向量,即,则就表示第个人的人脸训练集。
在实际的人脸识别问题中,通常一张普通的人脸图片的分辨率为像素,则一张图片的维度为个数量级,所以图片维度大大超过训练样本的个数,即,这样求解是一个过定方程,得到的解是一个唯一的解,作为之后的分类判别效果很不好,并且图片的维数过高,但计算量太大,超出普通计算机可以承受的范围,所以需要对进行降维处理。
如图2所示,由于噪声的存在,导致求得的系数在不相关的类别上,并不是严格的零。如何针对求得的系数进行正确的分类是算法的核心问题。
基于全局的稀疏表示,可以设计出多种不同的分类器,SRC算法采用了使用系数向量与所有样本直接的相关程度来分类的方式,即用余差法的方式,具体过程如下:
对于每一个类别,让作为第个类别的对应系数的特征函数,对于,是一个新的系数向量,它当中的元素除了与它对应的第类的系数,其他元素都为零,即。使用这个只与第类对应的系数相关的向量,可以把测试样本重新表示为。接下来,将通过最小化和的范数来对进行分类:
(6)
在计算过程中,如果第类恢复得到误差最小,那么就判断测试样本属于第类。至此,可以总结得出SRC算法的基本过程:(1)输入:类训练样本的共张图片,构造出训练样本矩阵以及一个测试样本;(2)将样本矩阵的列向量归一化。identity(y)=argminiri(y);(3)求解最小化范数问题,得到稀疏系数: subject to ;(4)计算出测试样本对应的每一类的余差值: ;(5)输出:判断图片的类别:。
2 字典优化
为了应对现实模型分析,产生了基于学习的冗余字典。在基于稀疏表示的人脸识别建模中,就是使用基于训练样本学习的方法来构造过完备冗余字典。特征空间的提取对于稀疏表示模型的一个好处是:减少数据的维数,降低计算的成本。在SRC算法中,训练样本矩阵被替代为,d ,基本模型由前式(1)至式(5)可得。 为验证不同降维方法对SRC算法性能的影响,选取了两种降维方式:一是传统的通过主元分析(PCA)得到的特征脸Eigenfaces;二是一种随机脸(Randomfaces)的降维方法。 由参考文献[2]和参考文献[3]可得,通过PCA降维的主要思想是:寻找一个维子空间来表示数据,并尽量保持原始数据的方差不变。在运行PCA算法之前,首先需要对训练样本进行预处理,以保证不同刻量单位的数据具有零均值和单位的方差,下面是PCA算法通常的预处理步骤:(1)计算样本均值:;(2)替换每一个为;(3)计算所有类的第个数据的方差:;(4)替换每一个为。 由于图片灰度值都是0到255统一的刻度标准,所以步骤3、4在算法中可以省略。假设一个单位向量和一个空间的数据点,那么点到向量的投影的长度可以表示为,那么如果是数据集中的一个点,那么它到向量的投影就是到原点的距离。因此,为了最大化投影的方差,可以选择一个单位长度的向量进行最大化: (7) 其中是数据的协方差矩阵,在的条件下,由拉格朗日乘子可得,最大化,需要是数据的主元特征向量。当投影到一维子空间的时候,需要选择是的主元特征向量。更一般地,如果我们想把数据投影到一个维子空间(),需要选择是的前个特征值对应的特征向量,所有的都是正交的。因此,要表示投影后的数据,只需要计算对应的向量:
(8)
因为,因此向量就给出了低维空间的表示。向量叫做数据的前个主元成分。在稀疏表示人脸识别中,可以根据具体情况选择最合适的维投影空间,再由以上介绍的PCA过程计算出训练样本数据的前个特征向量作为投影矩阵来对数据进行降维。
通过随机脸降维的主要思想是:使用随机采样法,用一个高斯随机矩阵作为投影矩阵对人脸数据进行线性地投影。研究表明,在范数的求解过程中,如果系数解是足够的稀疏,有个非零元素,且t (9) 那么随机线性测量对于范数优化问题求解已经足够了,由此可以得出随机脸的定义:考虑一个投影矩阵,它的元素是零均值的正态分布且线性独立(高斯随机阵即可满足),那么归一化它的行向量后,这个矩阵的行向量就可以看作是维空间的随机脸。 3 实验结果及分析 在本文的人脸识别仿真中,使用了两种常用的人脸数据库,下面首先对这两个常用的人脸数据库进行介绍,分别是Yale Database人脸数据库和AR Database人脸数据库。 Yale Database:由耶鲁大学计算视觉和控制中心产生,一共有15位志愿者的165张图片,每人11张,包括表情、光照、姿态的变化,如图3所示是其中第一个志愿者的部分人脸图片。 AR Database:由100个人组成,其中50个男性,50个女性,每人26张图片,分两次拍摄完成,每次每人拍摄13张,如图4所示。其中14张图片只有光照和表情的变化,另外12张图片是戴着围巾或墨镜,是有遮挡的情况,比较符合现实中实际的人脸图片。 下面给出基于以上介绍的SRC稀疏人脸识别算法的Matlab仿真实验结果。这个实验是基于AR人脸数据库进行的仿真,选用100个人脸中每人7张图片共700张图片作为训练样本构造冗余字典。如图5所示,由于噪声的存在,求解得到的稀疏系数在其他人脸空间并不是严格的零,但系数分布仍然十分稀疏,较大的幅值主要集中于测试样本所属的人脸空间。从图中较大的系数可以看到,最大幅值所对应x的位置是8,由于每个人是7张训练图片,第8张图片恰好对应第二个人的训练图片的第一张。虽然算法并不是直接使用最大幅值来作为分类标准,是使用余差值的方法,但仍然可以由图中系数分布情况得到与算法一致的分类效果。 在本实验中,选取Yale Database人脸数据库中每个人10张图片作为训练样本集,剩余1张图片作为测试样本。在AR Database人脸数据库中,选取仅有光照和表情变化的14张图片进行实验,其中7张作为训练样本集,7张作为测试样本集。在选取过程中,以随机选取为原则,随机性地选择图片,保证了实验结果不依赖于某些特别的图片,从而保证实验的准确性。在这两个人脸库中,使用以上介绍的PCA和Randomfaces两种降维方法进行了正确识别率的测试,测试结果如下: 由图6和图7分析可得,无论使用哪种降维方法,算法的正确识别率都是随着特征空间维度的增加而增大,并且SRC对于特征空间的选取方式并不敏感,即使是随机脸,它的人脸识别率仍与Eigenface差不多,这与传统的人脸识别方法有很大的不同,传统的人脸识别分类依靠特征脸的选取,同一分类方法,使用不同的特征空间提取方法,分类效果差异很大,往往需要试验得出哪种分类效果更好。 既然SRC算法对于特征空间的选取不敏感,那么在对数据进行降维时,可以选取随机脸作为投影矩阵。随机脸易于产生,且与训练数据独立,不受训练数据集的影响,这些优点大大降低了降维过程中计算的成本。 4 结语 本文是基于稀疏表示的人脸识别。通过信号的稀疏表示,在Extend Yale B Database和AR Database人脸数据库仿真模拟下分析了SRC算法在不同的人脸特征空间的性能。 参考文献 [1] J.Wright,Allen Y.Yang and A.Ganesh.Robust Face Recognition via Sparse Representation[J].IEEE Tans.Pattern Analysis and Machine Intelligence,2009,31(2). [2] P.Belhumeur,J.Hespanda,and D.Kriegman.Eigenfaces versus Fisherfaces:Recognition Using Class Specific Linear Projection[J].IEEE Trans.Pattern Analysis and Machine Intelligence,1997,19(7). [3] R.Basri and D.Jacobs.Lambertian Reflection and Linear Subspaces[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2003,25(3). [4] D.Donoho.High-Dimensional Data Analysis:The Curses and Blessings of Dimensionality[M].AMS Math Challenges Lecture,2000. 作者简介:刘敏(1986-),女,四川泸州人,西南科技大学信息工程学院硕士,研究方向:图像处理。 (责任编辑:周 琼)