(无锡太湖学院 物联网工程学院,江苏 无锡 214064)
利用异或运算和编码约束的降维LDP人脸识别方法
李荣
(无锡太湖学院物联网工程学院,江苏无锡214064)
为了有效表示面部特征,在局部方向模式(LDP)的基础上,提出降维局部方向模式(RDLDP);首先,修改LDP编码模式约束以完成模式的重构,通过对LDP码进行异或运算来计算每个块的单一码;然后,将所得编码图像划分为生成直方图,连接所有区域的直方图块以形成最终描述符;最后,计算特征向量间的卡方相异性度量值,并使用最近邻分类器完成最终的人脸识别;实验采用了3个公开的标准数据库FERET、扩展YALE-B和ORL,提出的改进方法在3个数据集上的最高识别率分别可高达96.97%、96.10%、97.61%,该结果验证了提出方法的有效性。与其他基于局部描述符的先进方法相比,提出方法在准确度和错误识别率等方面更优。
降维局部方向模式; 面部特征; 人脸识别;局部描述符;卡方相异性
生物识别模式多种多样,如虹膜、面部、指纹、声音等。由于人脸识别通用性更广,其研究热度和商用价值也更高。但当前人脸识别[1]系统在不同姿势、不同表情、不同角度和不同照明等非限制条件下,效果并不明显[2]。因此,研究效率高和适用性好的人脸识别系统至关重要。
人脸识别方法大致分为两类:基于几何特征和基于外观特征的方法[3]。基于几何特征方法利用全局特征信息,而基于外观特征方法主要描述人脸的纹理。一般,基于几何特征的方法可提供更好的结果。目前,比较流行的有主成分分析[1](principal component analysis,PCA)、线性判别分析[4](linear discriminant analysis, LDA)、独立分量分析[5](independent component analysis, ICA)、局部二值模式[6](local binary pattern, LBP)、局部相位量化[7](local phase quantization, LPQ)、局部方向模式[8](local directional pattern, LDP)、局部三元模式[9](local ternary pattern, LTP)、高斯掩膜的局部方向数[10](local gaussian directional number,LGDN)。
以上这些方法通常有些变体或改进模式。如文献[11]提出了一种降维-主成分分析法,通过确定面部识别特征值相关联的特征向量表示特征空间。该方法减小了原始图像维度,且具有一定鲁棒性。文献[12]提出一种快速、姿势鲁棒的人脸识别方法。在人脸图像Gabor特征的姿态上应用PCA以消除冗余。然而,对于成像角度变化等限制条件,并没有给出相应的解决方法。针对LBP和LDP算子对噪声敏感,文献[13]提出一种改进的LDP,主要改进二值量化特征信息的单一问题,按照偏振方位角的编码方式提取人脸图像的多方向纹理特征[13]。针对高分辨率的Kirsch掩模单纯考虑方向性而没有考虑像素位置权重问题,文献[14]在LDP的基础上,提出一种差值LDP(Difference Local Directional Pattern, DLDP),改进了权重。统计图像块上不同差值LDP模式个数生成相应的子直方图。将子直方图串联起来用于表示人脸图像。文献[15]提出了一种混合方法,采用灰度级共生矩阵(GLCM)、LDP加边缘信息来获取更加准确的人脸表示,但该方法复杂度较高。
人脸识别有多种局部描述符,这些描述符都定义一个掩膜,将其与图像叠加,并计算与掩膜中心重合中心像素的编码模式。基于此,提出一种改进的局部描述符,即降维LDP(Reduced-Dimension-Local Directional Pattern, RDLDP)。对于每个区域,生成LDP代码,通过修改原有LDP编码模式约束条件来完成模式的重构。提出的改进方法主要创新点总结如下:
1)提出的方法在保留原有LDP算法Kirsch掩膜模板以及对每个像素进行LDP编码的基础之上,对LDP编码的提取流程施加约束,通过异或运算获得8位RDLDP编码,优化了编码过程。
2)将RDLDP编码图像中的每个区域直方图的级联作为给定输入图像的最终描述符,从而减少了描述符运行时间,提高了效率。
3)RDLDP算子实现了连接所有区域直方图块,从而形成长度更短的最终描述符,降低了由于过量冗余信息带来的识别误差,最终的识别精确度得到了提升。
提出的降维局部方向模式(RDLDP)分配给每块3×3子区域8位代码,该代码表示图像块的纹理模式。LDP为3×3块中的每个像素计算单个8位码。提出的RDLDP计算该块的单个8位码。
1.1 广义RDLDP模型
针对大小为height×width的图像I。
这里将冗余比率定义为子图中的像素数除以降维图像中的像素数。
(1)
广义RDLDP模型基于两个参数a和b的选择。一般的做法是定义大小为n×n的滤波器,即假设a和b相等。
情况1:a=1
等效于LDP,因为每个像素编码为LDP码,所得LDP编码图像的大小等于输入图像的大小。
情况2:a=2
此种情况为RDLDP,对于大小为2×2的图像,RDLDP将4个像素等效编码为1个RDLDP码,因此RR是4:1。
情况3:a=3
此种情况也为RDLDP,对于大小为3×3的图像,RDLDP将9个像素等效编码为1个RDLDP码,因此RR是9:1。
对于a和b值不等时,RDLDP将子图像的像素编码为满足RR是a×b:1的等效RDLDP码。
RDLDP的主要优点如下:
1)描述符运行很短时间就能有效识别面部;
2)可以用于图像检索和分类问题。
缺点:不适用于平面直方图图像,即具有灰度值的图像,因为相同灰度值的异或会产生零描述符。另外RDLDP也难以扩展到多个尺度。
1.2 图像块RDLDP代码生成与降维
输入图像划分为3×3块,并且每个块与图1所示的Kirsch掩膜进行卷积。中心像素附近的8个相邻像素中的每一个均映射到LDP码。通过异或运算8个LDP码以获得8位RDLDP码。
图1 8个方向的Kirsch掩膜
LDP计算公式如下:
(2)
(3)
异或过程定义如下:
Codej=(((c1⊕c2)⊕c3)...⊕c8)
(4)
式中,ci表示每个像素的LDP码,i=1,...,8。Codej表示第j块的RDLDP码。
两个模式的异或不能保证所得代码中始终存在3个1,得到的RDLDP代码也可能全1或全0。本文将LDP码的约束稍微放宽,即所得代码至多3个1,如果结果代码模式中1的数量超过3,则保留最高有效位中的1,其余设置为0。因此,总共有93种不同模式。LDP和RDLDP工作机制的比较如图2所示。
图2 LDP和RDLDP标记(查询)图像形成的比较
提出方法中,假设大小为240×240的图像I划分为3×3块,对每个块计算RDLDP码。所得RDLDP标记图像的尺寸为40×40。将该图像进一步分成大小为8×8的区域,并且为每个区域生成模式直方图。最终,连接所有区域的直方图块以形成整个图像的最终描述符。由于描述符的长度小于原始描述符,实现了对LDP的降维。
1.3 RDLDP面部特征表示
每个面部由RDLDP直方图表示,由于每个像素都是LDP编码的,因此生成的描述符非常长。虽然它包含边、角和其他纹理信息,一般可理解为数据的过拟合。为了减少这种过拟合长度,将RDLDP编码图像中每个区域直方图的级联作为给定输入图像的最终描述符。
每个图像的RDLDP特征向量存储在数据库中。对于给定的查询图像,计算RDLDP特征向量。本文使用卡方相异性度量比较查询图像特征描述符与数据库中的特征描述符。度量值最低表示已找到匹配。对于长度为L的两个特征向量的卡方相异性度量定义如下:
(5)
式中,wi表示第i区域的权重,L为向量v1和v2的长度。由于93种模式值必须落在0-255的范围内,因此将0-255均分为4个部分,即[0-63],[64-127],[128-191]和[192-255]。这里分配权重1给第一部分[0-63]、分配权重2、3和4到其他部分。对于区域i,权重分配规则如下:检查该区域中出现模式的最大数,根据最大模式属于哪个部分来确定权重。
1.4 分类
分类阶段在人脸识别系统中非常重要,由于k-最近邻分类器[16]简单实用,实时性高,而且不需要严格的参数设定。因此,实用比较广泛。研究表明,最近邻分类器(k=1)的误差概率低于贝叶斯分类器的最小误差概率。因此,人脸特征表示完后,提出的方法计算测试样本特征与每个训练样本特征之间的卡方相异性度量,接着利用k-NN算法完成最终人脸识别。综上,整个方法的流程图如图3所示。
图3 本文算法的流程图
所提出的系统在标准基准数据库上测试:FERET[9]、扩展YALE-B数据库[8]和ORL人脸数据库[2]。
2.1 FERET数据库的结果
FERET数据库每人最多包含一个图像,并且分成5组:Fa、Fb、Fc、dup-1和dup-2。Fa通常用作图库集,它包含1196人的正面图像。Fb有1195个图像,面部表情不同于Fa集。Fc包含不同照明条件下采集的194个图像,dup-1包含在稍后时间采集的722个图像,dup-2作为dup-1的子集。FERET数据库中提取的一些样本图像如图4所示。
图4 FERET数据库获取的示例图像
与LBP、LTP、LPQ、LDP、LDN和LGDN的平均识别率比较如表1所示。可以看出,提出的RDLDP平均识别率最优。
表1 FERET数据库各方法的平均识别率
FERET数据库的4个集合中,dup-1和dup-2数据库最具挑战性,因为这两个子库包含的采集对象是一两年后的拍摄图像。为了进一步增加复杂性,两集合中的图像数少于Fa、Fb和Fc中的图像数。 因此,大多数方法在Fb和Fc中具有较高的识别率,在dup-1和dup-2的识别率则较低。为了从各个子集进行精确比较,对LBP、LDP、LGDN和DLDP在准确度、错误接受率和错误识别率方面进行比对,其结果如图5所示。可以看出,这几个方法中,提出的方法在各个子集中均取得最优结果。
图5 FERET数据库中各方法的比较
现有方法的共同点是每个像素生成代码,然后将标记的图像划分为区域进行直方图分块。提出的RDLDP每个块生成代码,因此,标记图像的维度大为降低。同时,各个直方图块形成的描述符在FERET数据库良好地描述人脸特征,比其他局部描述符方法具有更好的识别率。
2.2 扩展YALE-B数据库
扩展YALE-B数据库中含有28个人类对象的16128幅图像。在64种不同的照明条件下,采集每个对象9个姿势的图像。这些图像分为多个集合:Sub-1、Sub-2、Sub-3、Sub-4和Sub-5, Sub-1用作图库集。不同照明条件下以不同姿势采集的某对象人脸图像如图6所示。
图6 扩展YALE数据库获取的示例图像
在该数据库中,与LBP、LTP、LPQ、LDP、LDN和LGDN的识别率结果如表2所示。LGDN方法的识别率最高,提出的RDLDP方法在性能上最接近LGDN。
表2 扩展Yale数据库各方法的平均识别率
为了从各个子集进行精确比较,对LBP、LDP、LGDN和DLDP在准确度和错误接受率方面进行比对,其结果如图7所示。由于RDLDP的维度降低,提出的RDLDP方法在Sub-2和Sub-3集合中识别率最高。Sub-4集合中,RDLDP和LGDN均达到94%的最大识别率。对于Sub-5集合,RDLDP达到95%的识别率,而LGDN的识别率是94%。
图7 扩展YALE数据库中各方法比较
2.3 ORL数据库上的结果
ORL数据库是一个稍微简单的数据库,它包含了40个不同人类对象在不同照明条件下采集的400张图像。所有图像都具有不同面部表情和不同拍摄角度。不同姿势的人脸图像示例如图8所示。由于数据库比较简单,对比了文献[15]提出的较为复杂的混合方法。ORL数据库的识别率结果如表2所示。由表2可知,结合灰度级共生矩阵(GLCM)+LDP+边缘信息(EDGE)的混合方法最优,其最大识别率达到98.75%。提出的RDLDP识别率达到97.62%,仅次于最优方法GLCM+LDP+EDGE。与最优方法相比,RDLDP使用了较低的图像维度,因此,其运算复杂度明显更低。
图8 ORL数据库获取的示例图像
方法识别率/%LBP83.25LTP85.04LDP81.53LPQ86.87DLDP89.15LGDN96.52RDLDP97.61
提出的RDLDP和其他3种方法的识别率、准确性、错误接受率如图9所示。由图9可知,RDLDP优于LBP、LDP、LGDN和DLDP。
图9 ORL数据库中各方法的比较
2.4 收敛性实验
为确保人脸识别不会出现欠拟现象(即没有很好地捕捉数据特征),必须进行收敛性分析,这里考虑掩膜的尺寸(a)与识别率关系,具体如表4所示。当a值从1增加到3时,识别率也随之增加,当a取值超过3时开始降低。由表4可以看出,各个数据库都表现出相似的特性。这说明了两个问题,即:1)为保持完美的紧凑代码,掩膜尺寸的理想值取3;2)掩膜尺寸的选取不随数据库的变化而变化,具有一般通用性。
表4 不同掩膜的尺寸下的识别率 %
该文引入一种降维LDP的编码方案,可以生成较好的紧凑代码,其效率高于一般局部描述符。实验在标准数据库FERET、扩展YALE-B数据库和ORL数据库上进行。实验结果表明,RDLDP优于其他现有的局部描述符方法,具有更高的识别率和错误识别率。
未来将考虑更多不可控条件下的人脸识别,如低光照条件
下的大偏转角的人脸识别。并考虑采用更加复杂的人脸数据库,如LFW人脸库、YouTube视频人脸数据库。
[1] 陆娇蓝, 陈 军, 杨 著. 基于云计算的嵌入式人脸识别系统建构与研究[J]. 计算机测量与控制, 2016, 24(4): 146-148.
[2] Moeini A, Faez K, Moeini H. Expression-invariant three-dimensional face reconstruction from a single image by facial expression generic elastic models[J]. Journal of Electronic Imaging, 2014, 23(5): 1569-1575.
[3] 苏 煜, 山世光, 陈熙霖,等. 基于全局和局部特征集成的人脸识别[J]. 软件学报, 2010, 21(8): 1849-1862.
[4] 成亚玲, 谭爱平, 张 敏. 混合多距离图像的线性判别分析人脸识别算法[J]. 系统仿真学报, 2016, 28(9): 2254-2259.
[5] 杨福生, 洪 波. 独立分量分析的原理与应用[M]. 北京:清华大学出版社, 2006.
[6] 宋克臣, 颜云辉, 陈文辉,等. 局部二值模式方法研究与展望[J]. 自动化学报, 2013, 39(6): 730-744.
[7] 朱长水, 丁 勇, 袁宝华,等. 融合LBP和LPQ的人脸识别[J]. 南京师大学报(自然科学版), 2015, 36(1): 104-107.
[8] Rivera A R, Castillo J R, Chae O O. Local Directional Number Pattern for Face Analysis: Face and Expression Recognition[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013, 22(5): 1740-1752.
[9] Ren J, Jiang X, Yuan J. Relaxed local ternary pattern for face recognition[A]. IEEE International Conference on Image Processing[C]. IEEE, 2013: 3680-3684.
[10] Rivera A R, Rojas J, Chae O. Local Gaussian Directional Pattern for face recognition[A]. International Conference on Pattern Recognition[C]. IEEE, 2012: 1000-1003.
[11] 梁胜杰, 张志华, 崔立林,等. 基于主成分分析与核独立成分分析的降维方法[J]. 系统工程与电子技术, 2011, 33(9): 2144-2148.
[12] Yi D, Lei Z, Li S Z. Towards Pose Robust Face Recognition[A]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C]. 2013: 3539-3545.
[13] 魏 莉, 蒋建国, 齐美彬,等. 偏振编码方式的LDP人脸识别算法[J]. 中国图象图形学报, 2016, 21(6): 756-763.
[14] 李照奎, 丁立新, 王 岩,等. 基于差值局部方向模式的人脸特征表示[J]. 软件学报, 2015, 26(11): 2912-2929.
[15] Kar A, Bhattacharjee D, Basu D K, et al. An adaptive block based integrated LDP, GLCM, and Morphological features for Face Recognition [J]. Computer Science, 2013, 37(12): 2019-2028.
[16] 陈 实, 黄芝平, 刘纯武,等. 基于可视化图形特征的入侵检测方法[J]. 计算机测量与控制, 2016, 24(8): 49-51.
FaceRecognitionMethodUsingReduced-dimensionLDPUsingXORandCodingConstraints
Li Rong
(Internet of Things Engineering College, Taihu University of Wuxi, Wuxi 214064, China)
To represent facial features effectively, on the basis of local directional patterns (LDP), a reduced -dimension-local directional pattern (RDLDP) is proposed. Firstly, the constraints of LDP encoding mode is modified to complete the pattern reconstruction, and through the XOR of the LDP code, code of each block is calculated. Then, the encoding image is divided into histograms, and the histograms of all areas are connected to form the final descriptor. Finally, the chi square dissimilarity measure between the eigenvectors is computed, and the k-nearest neighbor classifier is adopted to complete the final face recognition. Three public available standard databases, FERET, extended YALE-B, and ORL are adopted in the experiment. The proposed method can be up to 96.97%, 96.10% and 97.61% respectively in the three data sets.And the effectiveness of the proposed algorithm verified by experimental results. Compared with other advanced methods based on local descriptors, the proposed method is superior in accuracy and error recognition rate.
reduced-dimension-local directional pattern; facial features; face recognition; local descriptors; Chi square dissimilarity
2017-07-05;
2017-08-02。
李 荣(1978-),女,江苏淮安人,硕士,讲师,主要从事图像处理、模式识别方向的研究。
1671-4598(2017)10-0171-05
10.16526/j.cnki.11-4762/tp.2017.10.044
TP391
A