基于模糊神经推理的人脸识别算法研究

2012-08-16 08:26沈荣鑫
关键词:子图识别率人脸

桂 荣,沈荣鑫,詹 泳

(华南师范大学计算机学院,广东广州510631)

1 课题背景

随着多媒体技术的发展,数字图像处理在科学研究、国防、工业生产以及现代化管理决策等各行业都得到了越来越多的应用.以人脸识别为代表的面部感知计算从20世纪80年代末开始逐渐成为热门的研究方向.

在日常生活中,识别一个人最常用的方法是根据其脸部形象[1].由于诸多复杂因素的影响,致使人脸识别性能受到很大限制.目前根据人脸表征方式的不同,通常将人脸正面自动模式识别技术分为三大类:基于几何特征的识别方法、基于代数特征的识别方法和基于连接机制的识别方法.

几何特征方法[2]首先将人脸用一个几何特征向量表示,继而用模式识别中层次聚类的思想设计分类器达到识别目的.近年来,学术界相继提出了各种优秀的特征提取算法,如LI等[3]提出的基于热核的局部二值模式(Heat Kernel Based Local Binary Pattern,HKLBP)人脸表征法,YIN 等[4]提出的基于联合预测模型的人脸识别算法,XIE等[5]提出的局部融合模式识别算法,并以多种传统算法为例进行了融合仿真,LI等[6]提出的一种基于联合局部保护映射机制的人脸识别算法,并通过仿真数据与多种传统算法进行了性能对比.

基于代数特征的人脸识别算法的原理是利用统计特征提取,形成子空间进行模式识别.SIROVICH等[7]首先将K-L变换用于人脸图像的最优表示;随后,TURK等[8]提出了基于主分量分析(Principal Component Analysis,PCA)的特征脸(Eigenfaces)方法,为人脸识别中子空间分析方法(Subspace Analysis)这一经典研究方向开辟了道路,但其不足之处在于:由主分量张成的子空间虽然从最小误差重建意义上是最优的,但是与分类并没有直接的联系.该方法对背景及光照等因素较为敏感.很多学者针对这一问题开展了研究,如 JORSTAD等[9]提出的基于密度对比的人脸识别算法,TAN等[10]提出的低光线条件下的局部特征增强算法,杨占栋等[11]提出的基于半动态外观模型(Semi-active Appearance Model,SAAM)的人脸识别算法等,这些研究均在一定程度上改善了该类算法的技术.

基于连接机制的人脸识别算法将人脸直接用灰度图表征,利用了神经网络强大的非线性拟合能力.这种方法的优势在于保存了人脸图像中的材质信息及细微的形状信息,同时避免了较为复杂的特征提取工作[12].该类算法由于原始灰度图像数据量十分庞大,因此神经元数目通常很多,训练时间很长.另外,神经网络虽然有较强的非线性拟合能力,但当样本数大量增加时,其性能可能会严重下降.

本文以ORL(Olivetti Research Laboratory)数据库为背景,开展了基于模糊神经推理的人脸识别算法研究.其中,将整幅人脸图像输入系统,符合格氏塔心理学中对人类识别能力的解释,如果离线训练样本丰富,在线阶段就可以削弱人脸角度等细节对识别结果的影响.人脸特征采用基于子图分割的SVD特征提取算法,文中针对不同子图分割方式对系统的性能影响进行了详尽的实验分析.仿真结果给出了基于模糊神经推理算法的实验结果以及算法性能分析,并与一系列人脸识别算法进行了比较.实验结果表明,本文提出的人脸识别算法具有良好的识别性能及鲁棒性.

2 人脸数据库的建立

本文选择目前使用最广泛的英国剑桥大学AT&T实验室创建的ORL人脸数据库来设计实验.图1是ORL人脸数据库中的一组人脸图像.

图1 ORL人脸数据库的一组图例Figure 1 A group of sample images from ORL

由于该人脸数据库种类覆盖面广,且个体表情、配饰丰富,因此是人脸识别研究的首选数据库.ORL人脸数据库包括从1992年4月~1994年4月拍摄的一系列人脸图像,由40个人的400幅灰度图像组成,图像尺寸为92×112像素,图像背景为黑色.由于人脸是塑性可变形体,表情的变化、有无戴眼镜、不同的姿态都使拍摄的人脸看起来有所不同,为了反映这些变化,每一个人拍摄10幅图像,其中人脸脸部表情和细节均有变化.

3 模糊神经推理算法的系统建模

对于模糊模型来说模型结构的确定主要包括2个方面:一是输入变量的选择.这包括物理输入量和状态变量的选择.可以依据专家知识、对过程特性的理解和模型的用途来考虑如何选择合适的输入变量.然后参考某种准则,使用自动数据驱动选择程序来比较不同结构的性能,选择较好的模型结构;二是隶属函数的确定、形式及规则数量的选择.这2种结构参数是相互关联的,它们决定了模型的复杂程度及对输入空间的划分方式.

在模糊系统的设计过程中,规则数目的确定非常重要.规则数量过多会令模糊系统变得过于复杂;规则过少会令模糊系统的作用削弱,导致难以达到足够的拟合能力.对于每一个模糊子空间,系统的局部模型可用一个线性方程表达,而系统的总输出则为各局部线性模型输出的加权和.对于一阶“Takagi Sugeno”模型,模糊规则数设为2,那么具体规则集如式(1)所示.

图2是本文基于子图分割和模糊神经推理算法的人脸识别系统流程图.主要步骤包括人脸图像的载入、人脸图像的子图分割、人脸图像的特征提取、模糊神经推理系统的训练和人脸图像的识别.

模糊神经推理系统模型可表现为一个多层前馈网络,同一层节点具有相同类型的输出函数,不同层节点具有不同的输出函数.模糊神经推理系统拓扑结构如图3所示,每维坐标方向上生成的模糊子系统为一阶单输出的Takagi-Sugeno模型.其输入为子图分割特征向量,模糊规则数设为P,输出为一组

图2 基于模糊神经推理的人脸识别系统流程图Figure 2 The flow chart of fuzzy neural inference based face recognition system

图3 模糊神经推理系统的基本拓扑结构示意图Figure 3 Topological structure of fuzzy neural inference system

第1层:输入层,该层由N个节点构成,模糊神经元仅起到传递作用,即:

第2层:该层节点的作用是对输入信号进行模糊化,该层共由T个节点组成,A是与该节点有关的语言变量.也就是说,O2i是输入信号样本的对应模糊集隶属度,它确定了给定输入信号样本满足A的程度,实现了模糊化,A的隶属函数可以是任何合适的参数化隶属函数,这里使用高斯函数:

其中,高斯函数的参数(mi,σi)由系统训练过程得到.由于该层隶属度参数为非线性,且位于模糊规则的“如果”部分,所以该层的参数又称为前件参数.

第3层:实现模糊推理系统前件部分的模糊合成运算,也就是各个输入值的模糊“乘”运算,即:

第4层:实现模糊推理系统后件部分的模糊蕴含运算,节点的传递函数为线性函数,表示模糊推理系统后件部分的线性模型.其输出如下式所示.

其中(qi,1,qi,2,…,qi,N-1,qi,N,qi,N+1)是第 i个节点的输出语言变量参数集,即规则后件参数,由系统训练过程得到.

第5层:解模糊层,计算模糊神经推理系统的总输出:

此种模糊多层前馈网络不但在输入输出端口与具体的模糊系统等效,而且网络内部与模糊系统的模糊化、模糊推理、解模糊相对应,可以用模糊系统的有关概念来解释,因而这种网络内部是透明的.模糊系统的模糊规则及隶属函数参数的修改,在模糊多层前馈网络中转变为局部节点或权值的确定和调整.

本文中模糊神经推理系统的训练采用BP算法,该算法建立在梯度下降算法的基础上,即权值的修正量取误差函数E(W)对W的负梯度.在一个L层的模糊神经网络系统中,设第k层上有nk个节点,且训练样本集中有P组输入、输出数据,定义第p(1≤p≤P)组数据对应的目标函数为均方根误差:

输出节点(L,i)的误差变化率为:

对内部节点(k,i)(1≤k≤L-1),其误差变化率可以根据链式法则由下式推导出:

设α是ANFIS网络的一个待调整的参数,则

其中S代表输出依赖α的节点集,总误差E对α的偏导数为:

为了尽快地减小目标误差,沿着目标误差函数斜率下降的方向调整 α,即 Δα=-η∂E/∂α,η 称为学习速率,可以根据目标误差减小的情况进行调整.

4 算法仿真与性能分析

采用ORL数据库进行实验.该人脸库共包括40人,每人10副图像,共计400副图像.系统可选参数包括子图分割数量、模糊语言变量数及模糊规则数及结构.其中,子图分割数量直接影响图像特征的丰富程度.理论上来说,子图分割数量越大,图像特征量越多,特征越丰富,但同时会导致模糊神经推理系统的输入量维数增多,从而使得系统过于复杂,训练时间急剧上升.

图4 基于二维子图分割的示意图Figure 4 Face image base on two dimension sub-image dividing

表1 基于二维子图分割的系统正确识别率Table 1 The performance of sub-image division based face recognition system

为了深入分析子图分割方式对人脸识别系统的性能影响,本文研究了不同二维子图分割方式的系统性能,如图4所示.二维子图分割的系统性能参数如表1所示.实验发现当子图分割数目过大时,导致神经网络输入维数过多,系统过于复杂,以至于实验机内存溢出.其中,实验机所能承受的神经网络输入最大维数为32.此外,由于模糊神经推理系统复杂度极高,输入达到20维时,训练耗时已达到10 h为单位.综合以上客观原因,本文中二维子图分割数目上限分析至25.

将表1的实验结果进行三次样条插值得到系统性能图(图5).其中,X轴及Y轴非整数部分值为拟合结果,并无实际意义.总的来说,在本文所取子图分割范围内,系统性能一直随子图分割数目增多而提高,在极限处趋于收敛.三维曲面在X=5,Y=5处达到峰值85.5%,该子图分割方式如图4(b)所示.该子图分割很好地保留了诸如眼睛、耳朵、鼻梁、鼻尖以及下颚等诸多局部特征的局部完整性,系统性能达到最佳.

图5 二维子图分割的系统性能拟合图Figure 5 Fitting chartof sub-image division based face recognition system

对比实验采用“特征脸”算法,在同等实验条件下.将训练集图像向量通过K-L变换进行降维,保留k个特征值最大的特征向量组成低维线性向量空间,即特征子空间.将测试集的人脸图像向特征子空间进行投影,并求得投影结果与每个训练集投影结果的欧氏距离.若此距离小于阈值,则认为人脸匹配成功.

以X=5,Y=5进行子图分割,实验结果正确识别人脸图像共计171副,平均正确识别率85.5%.在同一实验背景下,经典“特征脸”算法的正确识别人脸图像为156副,平均正确识别率为78%.基于模糊神经推理算法与经典“特征脸”算法的性能曲线对比如图6所示.对第14及第17组样本,“特征脸”算法正确识别率为0%,而模糊神经推理算法有了一定的改善,识别率分别为60%及20%.模糊神经推理算法正确识别率低于“特征脸”算法的样本只有第3、第5以及第40组,共计3组,可以认为模糊神经推理算法的正确识别率较好.

图6 ANFIS与Eigenface算法的性能曲线对比Figure 6 The comparison on performance curve between the ANFISand Eigenface

如表2所示,二者的系统测试耗时相对近似,200张人脸图片的测试时间分别为3.58 s和8.46 s,平均每张图片测试时间分别为0.02 s和0.04 s.考虑到系统训练过程在离线阶段完成,实际工程应用中主要涉及的性能指标是在线测试耗时,因此模糊神经推理算法离线训练阶段耗时比较大的问题对实际系统使用影响不大.

表2 2种人脸识别算法的在线阶段系统耗时对比表Table 2 The online time consuming of two face recognition algorithm /s

将实验条件改为:取ORL人脸库每组前5副图像用于训练,所有的400幅图像作为测试集,以X=5,Y=5进行子图分割,实验结果正确识别人脸图像共计371副,识别率为92.8%.与同等实验条件下特征脸算法(Eigenface)、局部二值模式算法(LBP)、基于热核的局部二值模式算法(HKLBP)、基于半动态外观模型的人脸识别算法(SAAM)进行结果比较[3,10],如表3 所示.本文算法的识别率稍优于 LBP的 92.3% 与 SAAM 的 90.6%,低 于 HKLBP 的99.5%.本文算法效果与最新研究成果仍存在一定差距,但是本文的算法作为一种新的人脸识别技术方案,在改进系统第二层中的隶属函数和神经网络学习算法等方面有进一步改进的可能性.

表3 本文算法与其他一些算法的识别精度对比Table 3 The accuracy comparison of several face recognition algorithms %

观察本实验采用的ORL人脸库可知,其中同一个人的面部图像包含了各种细节差别,例如笑与不笑、眼睛的睁闭、是否佩戴眼镜、表情姿态、拍摄角度等.因此本文的识别算法对表情差异、图像拍摄角度等方面具有一定的容错性.

实验结果验证了本文的理论分析,即模糊逻辑算法区别于布尔逻辑之处在于其不确定性,其将输入离散为多维隶属度,并在输出时按加权和判决的思想十分符合人脑的整个人脸识别过程.此外,神经网络与模糊逻辑具有很好的技术互补性.因此,基于模糊神经推理算法的人脸识别系统,具有较好的技术优势.

5 结论

近年来,人脸识别逐渐成为模式识别领域中的研究热点之一,同时也是一项具有应用前景的技术.本文提出了一种基于模糊神经推理算法的人脸识别系统,通过对ORL人脸数据库中的400副人脸图像进行实验,论证了基于模糊神经推理算法的人脸识别系统的有效性和实用性.

[1]邓志才,麦瑞玲,伍成柏.计算机与个人识别技术[J].华南师范大学学报:自然科学版,1997(2):25-31.

[2]GOLDSTEIN A J,HANNON L D,LESK A B.Identification of human faces[J].Proceeding of the IEEE,1971,59(5):748-760.

[3]LIX,HU W M,ZHANG Z F.Heat kernel based local binary pattern for face representation[J].IEEE Signal Processing Letters,2010,17(3):308-311.

[4]YIN Q,TANG X OU,SUN J.An associate-predict model for face recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:497-504.

[5]XIE S F,SHAN SG,CHEN X L,et al.Fusing local patterns of gabormagnitude and phase for face recognition[J].IEEE Trans on Image Processing,2010,19(5):1349-1361.

[6]LIB,CHANGH,SHAN SG,etal.Low-resolution face recognition via coupled locality preserving mappings[J].IEEE Signal Processing Letters,2009,16(11):20-23.

[7]SIROVICH L,KIRBY M.Low-dimensional procedure for the characterization of human faces[J].Journal of the Optical Society of America A,1987,4(3):519-524.

[8]TURK M,PENTLAND A.Eigenfaces for recognition[J].Cognitive Neuroscience,1991,3(1):71-86.

[9]JORSTAD A,JACOBS D,TROUVE A.A deformation and lighting insenstive metric for face recognition based on dense correspondences[C]∥IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2011:2353-2360.

[10]TAN X,TRIGGSB.Enhanced local texture feature sets for face recognition under difficult lighting conditions[J].Lecture Notes in Computer Science,2007,19(6):1635-1650.

[11]杨占栋,解梅.基于半动态外观模型的人脸识别[J].计算机工程,2011,37(24):150-151.

[12]LAWRENCE S,GILES C L,TSOI A C,et al.Face recognition:a convolutional neural network approach[J].IEEE Transactionson Neural Networks,1997,8(1):98-113.

猜你喜欢
子图识别率人脸
有特点的人脸
一起学画人脸
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
临界完全图Ramsey数
三国漫——人脸解锁
提升高速公路MTC二次抓拍车牌识别率方案研究
基于频繁子图挖掘的数据服务Mashup推荐
高速公路机电日常维护中车牌识别率分析系统的应用
长得象人脸的十种动物