李文媛, 于威威, 张 燕
基于改进的多流形算法的人脸图像集识别①
李文媛, 于威威, 张 燕
(上海海事大学信息工程学院, 上海 201306)
一个图像集由大量变化不一的图像组成, 而且这些图像都表示同一个人. 现实中的图像集数据是非线性的, 造成这些现象的因素有人脸的角度不同、光线的明暗等, 因此图像集中的每幅图像都是变化的, 如果近似的将一个图像集建模为线性子空间, 而忽略了集合中数据结构的变化, 很显然是不合理的, 这也必然会影响到最后的识别率. 受流形理论知识的启发, 可以将图像集建模为一个流形,这与传统的将图像集建模为子空间的方法有着本质区别. 本文在基于流形的人脸图像集识别方法的基础上进行改进, 提出新的计算样子空间距离方法, 最后采用所有最短子空间距离的平均值作为流形之间的距离, 称为改进的多流形方法(Improved multi-manifold method, IMM). IMM方法在CMU PIE数据库上进行实验, 结果表明该方法相比其他方法具有更高识别率.
图像集; 流形; 线性子空间; 主角
传统人脸识别过程是对标准的单幅图像进行识别, 但是在现实生活中, 一幅标准的图像很难获取. 随着科技的发展, 存储大量的图像成为事实. 与单幅图像相比, 每个集合里有许多图像, 这些图像很自然地覆盖了人脸的外貌变化, 如: 姿势变化, 表情不一, 灯光明暗等. 所以, 通过充分利用集合的信息, 寻求一种具有更高鲁棒性的人脸识别方法.
在过去的十几年中, 基于图像集识别的研究已经取得了一些成果. 图像集识别方法一般分为两种: 基于参数方法和基于非参数方法. 前者是概率建模方法, 代表性的方法有流密度散度,该方法是用参数分布函数来表示一个图像集, 并用K-L散度来衡量两个集合分布的相似性. O. Arandjelović等人[1]提出用单一的高斯模型和混合高斯模型(GMM)[2], Wen Wang等人[3]在此基础上提出了基于高斯分布的黎曼流形判别分析方法, 同样也是将图像集建模为高斯混合模型.
基于非参数方法是假设数据分布情况, 代表性的算法是将图像集建模为一个线性子空间. Hamm等人[4]提出格拉斯曼流形判别学习方法(GDA), 该方法是在欧式空间将图像集建模为一个线性子空间, 在格拉斯曼流形中代表一个点, 通过非线性映射将数据点映射到新的格拉斯曼流形上, 最后在新的格拉斯曼流形深进行分类. 但是该方法没有充分考虑数据分布的集合结构. Yamaguchi等人[5]提出互子空间方法(MSM), Fukuid等人[6]在此基础上提出了约束的互子空间方法(CMSM). 该方法认为前几个特征向量更具有判别性, 用该特征向量张成子空间, 然后进行标准化和正交化. 随着流形的研究[7], 流形的建模方法也被用到图像集识别当中. 例如: Jinwen Lu等人[8]提出的多流形深度学习分类方法. Lei Zhang等人[9]提出了多流形判别分析方法, 该方法是在fisher判别分析框架下引入图嵌入学习, 这和GDA方法类似.
Li等人[10]认为在光照和姿态变化的情况下, 人脸图像在高维空间是非线性的, 所以不同的人会形成不同的子流. 鉴于这个理论, 我们认为一个图像集中所有的数据都分布在一个非线性流上, 在流形上构建局部线性子空间, 图像集合之间的相似性用流形与流形之间的距离测度来衡量[20]. 由于流形是非线性的, 目前没有给出统一地定义流形与流形之间的距离公式. 本文采用所有最短子空间距离的平均值作为流形与流形之间的距离.
流形是非线性的, 这和图像集中数据的非线性具有一致性[21]. 基于非线性流形模型是由许多局部线性模型构成的理论知识[7,22], 一个流形上的图像数据可以再分成局部线性子空间, 多流形分类的方法就转化为计算子空间之间距离, 并联合这些子空间距离作为最终的流形之间的距离. 基于多流形的图像集分类方法如图1所示.
训练样本集 测试样本集
2.1 构建子空间
目前从非线性流中提取局部线性模型的方法很多, 典型的有聚类方法k-means[11,12], 分级聚类(HAC)[13]等, 这些都是以一个简单的聚类方法构建局部线性模型, 因此不能保证局部子空间的线性性质. 所以Wang等人[14]利用欧式距离和测地线距离的比值, 式(1)来规约最大线性块, 即局部线性模型. 该方法解决了基于迭代的聚类方法中存在的问题, 使得构建的子空间具有线性性质. 本文也采用该方法在非线性流上构建局部线性子空间.
(2)
其中,是局部线性模型数量,N表示每个模型中的样本数量.的值由一次性算法[14]获得. 从式(2)可以看出, 非线性流可以表述为许多局部线性空间的集合. 如图2所示, 一个流形上代表一个人, 但是受到光照和拍摄角度影响, 这些图像之间的变化还是很大的, 所以将一个图像集合张成一个子空间显然是不合理的, 但是一个人在姿势和光线变化不大的情况下, 我们近似的认为该组图像是具有线性的, 因此可以张成一个线性子空间.
图2 一个流形上张成两个子空间
式(1)中的矩阵(1,2)反映了一个局部线性模型的非线性程度, 例如, 在任一个已构建成的局部线性模型C, 它的非线性分数可以用式(3)表述
2.2 局部模型距离度量
2.2.1 主角
主角是衡量两个局部模型相似度的关键. 有两个图像集合,,,.1,2分别是,一个线性子集, 其张成的子空间是,. 则1,2之间的主角[16].
定义
(4)
式(4)中,u和v是第个典型向量对, cosθ的值称为典型相关系数. 计算主角的方法很多, 但是具有数值稳定的算法[15]是通过奇异值分解(SVD)来计算主角. 如两个子空间1,2, 它们的正交基分别是,, 则1T2的奇异值分解定义为:
,=1,2,...,
2.2.2 子空间距离
两个子空间之间的相似度可以通过主角来反映. 经典的MSM方法利用最小主角来计算两个子空间距离:
因此我们可以通过主角来计算两个子空间的距离. 图3所示为在三维坐标下模拟示意两个子空间的距离.
图3 子空间之间的相似距离
其中1和2是两个局部空间的样本均值, 其主角为0. 传统的方法是采用局部模型的样本均值来表示局部模型特征. 由于原始数据的维度一般都很大, 为了便于后面高效的计算, 所以先通过PCA对每个局部模型进行降维, 得到PCA子空间, 然后在该子空间内计算局部模型的样本均值.
根据图3定义两个子空间的距离:
(8)
用样本均值的标准正交基表示:
(9)
可以用距离的倒数来表示其相似度, 即将式(9)可以改写为相似度量:.
很显然仅仅用样本均值不足以表现现实数据, 不同的人脸在姿势和光照变化不大的环境中得到的样本均值有可能很相似.
在经过SVD[18]过程后, 发现不同的人脸变化方向和变化大小都不同. 所以将变化的因素考虑进去, 使其更具有判别性. 文献[19]中介绍了投影度量的概念, 两个子空间的投影距离可以表示为子空间的正交投影矩阵,的的二范数值:
(10)
两个子空间的距离最终表示为:
(12)
有了确定的子空间距离, 那么流形之间的距离也容易定义了.
2.3 流形与流形之间的距离
判断两个集合是否是属于同一个类别, 我们参照传统的距离度量来衡量两个流形之间的相似性. 上面我们已经讨论了线性子空间可以表示局部模型, 而且流形可以看作是线性局部空间的集合.
如两个流形1和2, 由线性局部模型表示:,, 用W表示流形1中第个子空间到2上的最短距离, 同理, W表示2中第个子空间到1的最短距离. 定义如下:
(14)
图中绿色数字连接的子空间对属于W, 红色数字连接的子空间对属于W, 为了更准确表述流形上的信息, 我们利用所有最短子空间对距离来计算流形距离, 所以两个流形之间的距离可以定义为:
2.4 算法实现步骤
综合上面的讨论, 总结下该方法的实现步骤, 算法如下:
训练过程:
(2) 用PCA对每个局部线性模型进行降维(保留95%的贡献率), 得到PCA子空间.
测试过程:
(2) 计算待测的图像集中子空间和训练数据中子空间之间的距离, 即(S, S).
执行1-NN分类, 计算识别率.
为了验证该方法的有效性, 我们在CMU_PIE人脸数据库进行实验, 并且与以下四种识别算法进行对比实验.
LLE +K-means[12]: 该方法是将流形学习中典型的局部线性嵌入算法和K-均值聚类算法相结合. 在用K-means方法进行样本聚类时没有设置确定的K值, K值选取完全依赖于实验经验.
MSM算法: 该方法是基于子空间方法, 采用最小主角计算子空间距, 即选择子空间的最大距离. 而且该方法没有进行特征提取直接执行最近邻分类;
均值距离方法和投影距离方法指的是本文2.2章节讨论的基于局部子空间样本的均值距离和子空间的投影距离.
3.1 实验数据库
CMP PIE人脸库由美国卡耐基梅隆大学创建, 包含68个人, 约有41368幅图像, 每个人大约有170幅图像, 包括13种姿态(如: 抬头, 低头, 侧脸等), 43种不同光照和4种表情. 这些图像充分反映出人脸的位置、光照和表情等的变化, 实验过程中将每幅图像统一剪裁大小为32×32, 每个人取170幅图像. 部分人脸图像如图6所示.
图 6 CMU_PIE部分人脸图像
3.2 对比实验结果
(1) IMM算法与其他算法的对比实验
实验参数设置: 本实验中作对比实验的LLE+k-means方法中K=5, 所以算法的训练图像集数量为50, 测试图像集数量为120. 最后通过1-NN分类器来评价IMM算法和其他方法的性能. 表一给出了这几个方法在CMU_PIE数据库上的结果.
表1 不同算法在CMU_PIE数据库上的识别率
从表1可以看出IMM方法的识别率远远高于其他四种方法, 表明本文提出的IMM方法是可行有效的, 在提高识别率方面有了很大的突破.
(2) 训练样本数量对识别率的影响
对于CMP PIE数据库, 取68个人, 即共有68个类别, 每个人170幅图像, 分别取每个人前50, 100, 150幅作为训练样本, 相应地剩下120, 70, 20幅图像作为测试样本. 这三组实验的识别率情况如图7所示. 为了进一步分析, 求出三组训练样本数量和测试样本数量差值, 分别为30,70,130. 图8所示这三种差值情况下的识别率.
图7 不同训练样本下的识别率
图8 测试与训练样本差下的识别率
从图7来看, 输入的训练样本数对最后的识别率没有直接反映出规律性的影响, 但是从图8来看, 随着测试样本数量和训练样本的数量之差越大, 识别率也相应的越来越高, 而且相比另外两种方法, IMM方法的识别率更高.
(3) 参数K分析
本文中通过K-NN算法计算测地线距离. 选择训练图像集数量为50, 测试图像集数量为120. 图9所示K值在5,10,15,20下的识别率.
图9 不同K值下的识别率
由图9看到的值对于最后的识别率影响很小, 由此说明在流形上利用最大线性模型来构建线性子空间的方法比LLE+K-means方法优越.
通过对比实验, 提出的IMM方法有较高的识别率. IMM方法是将一个图像集建模为一个流形, 在该模型下构建局部线性模型, 利用主角的概念将局部子空间的均值距离和投影距离之和来衡量两个子空间的距离, 然后将所有最小子空间的距离取平均作为两个流形的相似度量.
训练样本参数的实验表明输入的训练样本数量对最后的识别率没有直接反映出规律性的影响, 但是随着测试样本数量和训练样本的数量之差越来越大, 识别率也相应的越来越高, 而且相同差值情况下, 相比均值方法和投影方法, IMM方法的识别率仍然更高.
本文采用所有最短子空间对距离的平均值作为最终的流形距离, 这存在一定的缺陷, 因为没有考虑到全局数据分布, 仅仅将所有最近子空间对距离平均化, 无法避免出现较大变化的情况. 当出现变化较大时, 平均距离则无法更真实的衡量两个流形之间的相似性. 这个是以后要研究解决的问题.
1 Arandjelović O, Shakhnarovich G, Fisher J, Cipolla R, Darrell T. Face recognition with image sets using manifold density divergence. Proc. Comput. Vision Pattern Recog. Conf. 2005. 581–588.
2 Shakhnarovich G, Fisher JW, Darrell T. Face recognition from long-term observations. Proc. Eur. Conf. Comput. Vision. 2002. 851–868.
3 Wang W, Wang RP, Huang ZW, Shan SG, Chen XL, Discriminant analysis on riemannian manifold of Guassian distributions for face recognition with image sets. CVPR. 2015.
4 Hamm J, Lee DD. Grassmann discriminant analysis: A unifying view on subspace-based learning. Proc. of the 25th International Conference on Machine Learning(ICML). 2008.
5 Yamaguchi O, Fukui K, Maeda K. Face recognition using temporal image sequence. Proc. of the 3rd. Int. Conf. on Face & Gesture Recognition. Washington D.C., USA. IEEE Computer Society. 1998. 318.
6 Fukui K, Yamaguchi O. Face recognition using multi-viewpoint patterns for robot vision. Int. Symp. of Robotics Res. 2003. 192–201.
7 詹宇斌.流形学习理论与方法及其应用研究[博士学位论文].长沙:国防科学技术大学, 2011.
8 Lu JW, Wang G, Deng WH, Moulin P, Zhou J. Multi-manifold deep metric learning for image set classification. CVPR. 2015.
9 Yang W, Sun C, Zhang L. A multi-manifold discriminant analysis method for image feature extraction. Pattern Recognition, 2011, 44(8): 1649–1657.
10 Li SZ, Jain AK. Handbook of Face Recognition. New York: Apringer-Verlag, 2005.
11 Kim TK, Arandjelović O, Cipolla R. Boosted manifold principal angles for image set-based recognition. Pattern Recog., 2007, 40(9): 2475–2484.
12 Hadid A, Pietikinen M. From still image to video-based face recognition: An experimental analysis. Proc. IEEE 6th Int. Conf. Autom. Face Gesture Recog. 2004. 813–818.
13 Zhou S, Krüeger V, Chellappa R. Probabilistic recognition of human faces from video. Comput. Vision Image Underst., 2003, 91(1): 214–245.
14 Wang R, Shan S, Chen X, Gao W. Manifold-manifold distance with application to face recognition based on image set. Proc. Comput. Vision Pattern Recog. Conf. 2008. 2940–2947.
15 BjörckÅ, Golub GH. Numerical methods for computing angles between linear subspaces. Mathematics of Computation, 1973, 27(123): 579–594.
16 Hotelling H. Relations between two sets of variates. Biometrika, 1936, 28: 321–372.
17 TenenbaumJ, Silva V, Langford J. A global geometric framework for nonlinear dimensionality reduction. Science, Dec. 2000, 290(22): 2319–2323.
18 冯欣.奇异值分解SVD的理论分析及在图形学中的应用. 信息与电脑:理论版,2010,(5).
19 Fan W, Yeung DY. Locally linear models on face appearance Manifolds with application to dual-subspace based classification. IEEE Conference on Computer Vision & Pattern Recognition. 2006. 1384–1390.
20 魏莱,王守觉.基于流形距离的半监督判别分析.软件学报, 2010,21(10):2445–2453.
21 肖睿.高维空间模式鉴别分析及多流形学习[博士学位论文].上海:上海交通大学,2012.
22 朱林,雷景生,毕忠勤,等.一种基于数据流的软子空间聚类算法.软件学报,2013,24(11):2610–2627.
Improved Multi-Manifold-Based Method for Face Image Set Recognition
LI Wen-Yuan, YU Wei-Wei, ZHANG Yan
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306, China)
An image set consists of a large number of different images, and these images represent the same person. In the real life, the dates of image sets are nonlinear due to the variation from viewpoint, emotion and illumination. Inspired by the manifold theory knowledge, we assume that modeling each image set as a manifold will be more efficient compared with the traditional method of modeling an image set as a subspace intrinsically. Because the images in an image set are different from each other, it is unreasonable to model an image set as a linear subspace without ignoring the data structure in the set, which may decrease the recognition rate ultimately. In the paper, we introduce a method of improved multi-manifold based face recognition for image sets, and propose a new method for computing the distance between two subspaces. In addition, in order to get the minimal manifold distance, we choose the mean value of closest pair of subspaces as the manifold distance. We call this new method, an improved multi-manifold (IMM). Experimental results on the public available face databases, CMU PIE, demonstrate that the new method outperforms the competing methods
image set; manifold; linear subspace; principal angles
2016-04-09;收到修改稿时间:2016-05-26
[10.15888/j.cnki.csa.005520]