王斯藤,唐旭晟,陈丹
(福州大学 a. 机械工程及自动化学院, b. 电气工程与自动化学院,福建 福州 350116)
融合特征的神经网络在三维人脸识别中的应用
王斯藤a,唐旭晟a,陈丹b
(福州大学 a. 机械工程及自动化学院, b. 电气工程与自动化学院,福建 福州 350116)
摘要:针对三维人脸特征表示问题,提出了一种三维人脸轮廓曲线特征与二维Gabor小波特征相融合的人脸特征表示新方法。基于这种新的融合特征,利用模糊自适应共振神经网络(Fuzzy ARTMAP)进行有监督的学习训练,并构建三维人脸识别分类器实现人脸识别。利用模糊自适应共振神经网络分类器的增量学习能力,可以很好地解决随着训练模型增加导致识别系统识别率降低的问题。所提出的方法在FRGC v2.0三维人脸数据库上,对人脸表情变化进行了实验。结果表明具有一定的鲁棒性,识别率高,且随着新增人脸数量的增长可以提高准确率。
关键词:三维人脸识别;模糊神经网络;多特征融合;Gabor小波特征;三维曲线特征
Using Fuzzy ARTMAP with Multi-Features in 3D Face Recognition
WANG Sitenga,TANG Xushenga,CHEN Danb
(a. College of Mechanical Engineering and Automation,
b. College of Electrical Engineering and Automation, Fuzhou University, Fuzhou 350116, China)
Abstract:This paper presents a new representation of 3D face recognition features, includeing the 3D face curve features and 2D Gabor wavelet features. Based on the new multi-features, Fuzzy ARTMAP is used to train the network with supervised learning, and create a 3D face recognition classifier to distinguish human faces. The algorithm can be used to keep a high recognition rate with the incremental number of models. The experiment test on FRGC v2.0 database shows that the performance of multi-features fusion is perfect on robustness in changing expressions, and Fuzzy ARTMAP is used to keep a high recognition rate in the increasing number of human faces.
Keywords:3D face recognition; Fuzzy ARTMAP; multi-features fusion; gabor wavelet; three-dimensional curve
0引言
人脸识别主要用于门禁、安保等领域。与其他人体生物特征识别技术(指纹,虹膜等)相比,人脸识别具有自然、友好、对用户干扰少、易被用户接受等优势。而具有更广阔的应用前景。经过研究人员多年的不懈努力,基于图像的二维人脸识别技术在一定约束条件下已经取得了较好的识别结果。然而,研究实验表明:二维人脸识别在光照、姿态,表情,遮挡以及年龄老化等条件下,表现出许多局限性[1]。这主要是因为二维图像其本质是三维物体在二维平面上的投影,是三维信息在二维空间中的简约。
近年来,随着三维数据采集技术的日益成熟,三维人脸识别日趋成为人脸识别研究领域的热点。
三维人脸数据由激光扫描或三维重建而成,所体现出来的点云或深度图像,具有人脸复杂的曲线和曲率特征,因此在信息量上比二维图像丰富[2]。此外,采集获得的脸部三维形状数据可看作是不随光照、视图的变化而变化,且化妆等附属物对三维数据影响不明显,因而三维人脸识别被认为具有光照不变,姿态不变的特性[3]。
文中提出了一种新的三维人脸深度图像融合特征,即三维人脸深度数据的Gabor小波特征[4]和人脸曲线轮廓特征相融合,采用模糊神经网络(Fuzzy ARTMAP)对所提取的融合特征进行分类识别。
Fuzzy ARTMAP是自适应共振理论(ART)的进化版,具有增量学习和监督模式,可以提高分类的准确度,具有更高的性能和广泛的实用性。整个算法的框架流程图如图1所示。在FRGC v2.0三维人脸数据库上测试实验表明:该算法具有较高的识别率,所提取的特征对人脸表情变化具有一定的鲁棒性,且随着新增人脸数量的增长,可以保证较高的准确率。
图1 三维人脸识别算法框架流程图
1三维人脸深度图像融合特征提取
1.1新的人脸深度数据局部曲线特征提取
在人脸识别的过程中,特征的提取直接影响到识别的结果。用于三维人脸识别的特征有很多种,比较常见的是基于人脸表面几何信息和基于邻域信息。文献[5-6]采用等间隔提取面部轮廓曲线,但提取的轮廓线易受年龄的增长和人的胖瘦变化而发生变化,从而影响实际应用中的识别率。文献[7]采用等深度轮廓线作为特征,该算法要求人脸要绝对正面,对预处理算法要求很高,并且不能有表情变化和任何遮挡,不利于实际中操作和应用。文献[8]采用标准化特征采样点,特征采样点是事先经过手工标定的,这对数据的要求也过高,很难实际操作。
针对以上问题,提出一种新的局部轮廓线特征提取的方法。该方法的基本思想:不同人之间的鼻尖、颧骨和额头的深度特征差异显著,而这些区域又属于刚性区域,随年龄的增长变化最小。选取这些区域的局部轮廓曲线作为识别特征,既具有区分性同时又能极大降低人脸老化造成的影响,并且不易被眼镜和口罩等遮挡物影响。具体方法如下:
1) 三维人脸数据经过姿态校正,人脸切割及人脸归一化预处理后得到200×182的人脸归一化深度图,如图2中(a)所示。
2) 建立深度图坐标系:正方向为水平向右为x轴,人脸长度方向竖直向上为y轴,人脸深度方向为z轴,如图2中(b)所示。
3) 取图中深度值中最大的点为鼻尖点,过鼻尖点P作yoz平面的平行面T,平面T与深度图的交线作为中分轮廓线;过鼻尖点P作xoz平面的平行面U,平面U与深度图的交线作为水平轮廓线,如图2(b)所示。图3列出了两个不同人的中分轮廓线和水平轮廓线。
4) 分别以平面T和平面U为基准,向左右两边等间隔(间隔5个像素)各作两个平行面,这10个平面与深度图相交,得到5条竖直轮廓线和5条水平轮廓线,总共10条轮廓线,如图2中(b)所示。
Rk=[Cj,Lw]j,w=1,2,3,4,5
图2 三维人脸图像提取曲线特征示意图
图3 中分轮廓线和水平轮廓线
图4列出了不同人脸深度图提取出的1910维人脸局部曲线特征向量,图4中(a)(b)同一个人的不同深度图的局部曲线特征向量,(c)(d)为另一个人的不同深度图局部曲线特征向量。从图4中可以观察出,同一个人的不同深度图的局部曲线特征向量具有相似性,不同人的深度图的局部曲线特征向量具有显著的可分性。
图4 五条竖直轮廓线与五条水平轮廓线融合图(a)(b)表示同一男性的两张不同图像,(c)(d)表示同一女性的两张不同图像
1.2基于整体深度数据的Gabor小波特征提取
a) 二维Gabor小波滤波变换
Gabor小波滤波在二维人脸识别中已经得到广泛的应用[9],文中也采用Gabor小波变换[10]对三维人脸深度数据进行多方向、多尺度特征提取。二维Gabor小波滤波器的定义为:
(1)
其中:z=(x,y)为行矢量,‖·‖表示求2范数,σ=2π,kmax=π/2,kμ,ν的定义为:
kμ,ν=kνeiΦμ
(2)
这里按文献[9]取5个不同中心强度频率v={0,1,2,3,4}以及8个不同的方向μ={0,1,2,3,4,5,6,7}。
b) 三维人脸图像的Gabor小波特征提取
Gabor小波变换可通过深度数据矩阵I与Gabor核函数进行卷积实现:
Jkμ,ν,x0=∫ψkμ,ν(x0-x)I(x)d2x=(ψkμ,ν*I)(x0)
(3)
卷积过程产生由实部和虚部两个分量构成的复数响应。对三维人脸识别,保留卷积后产生的复数响应的幅值。对于一幅200×182大小的深度图,将得到200×182×40=1456000维的Gabor特征向量。这么高维的数据将对后续的分类处理和计算能力要求较高,容易造成维数灾难。为了避免维数灾难,必须进行降维操作。降维方法如下:
1) 先将原始深度图等间隔(5个像素)稀疏采样得到40×36大小的子深度图像;
2) 40×36大小的子深度图像经Gabor滤波器卷积得到40个40×36大小的Gabor幅值特征图像;
3) 将40个40×36大小的Gabor幅值特征图像双线性插值为11×10大小的Gabor特征子图像,将所有40个Gabor特征子图像(每个11×10=110维)幅值级联,就得到了4400个维度的输入图像I的Gabor 特征表示RI。
RI={Jp(x,y)|(x,y)∈I}
(4)
图5展示了Gabor滤波器5个不同的中心频率和8个不同方向与人脸深度图卷积的结果。
图5 三维人脸识别算法框架流程图
1.3多特征融合
三维人脸深度数据不仅具有二维人脸的整体特征,而且又有不同维度上的曲线特征。采用特征融合方法,将1.1和1.2节所述的Gabor小波滤波后的整体特征向量RK与人脸曲线特征RI串联起来,作为最终的人脸特征输入向量,如式(5)所示:
R=[RkRI]
(5)
这样一张人脸深度图像就可以得到一个6310维的融合特征行向量。
2FuzzyARTMAP分类器有监督增量学习算法
目前运用在人脸识别领域中的分类器有支持向量机(SVM)[11]、隐马尔可夫模型(HMM)[12]、人工神经网络分类器(ANN)[13-14]等。在三维人脸识别中所采用的是神经网络中模糊自适应共振理论(Fuzzy ARTMAP[15-16]),该算法克服了可塑性-稳定性两难的问题,可以在不断变化的条件下训练新的样本,并且不会削弱之前已经训练的样本信息。Fuzzy ARTMAP综合了模糊集理论和自适应共振理论,具备很多优越的性能。目前的ART模型已经成百上千,有监督式和无监督式等。模糊ARTMAP摒弃了ARTMAP的集合观点,采用隶属的函数方法来表达输入特性,融入模糊集理论,能处理二进制值和连续值,且具有监督式的增量学习能力,可以提高分类的准确度,具有更高的性能和广泛的实用性[17]。
Fuzzy ARTMAP的原理如下:
一个Fuzzy ARTMAP系统包括一对自适应共振模型(ARTa和ARTb)以及一个内部映射域Fab,如图6所示。在Fuzzy ARTMAP训练学习时,ARTa接受输入向量,进行自适应学习,对输入向量进行自动分类。ARTb接受正确的预测分类向量,进行非监督学习,输出导师信号。每一个Fuzzy ART模型为三层结构,至下而上分别为F0层、F1层和F2层,F0层的节点表示输入向量。ARTa的F1层的节点接受F0至下而上的输入以及F2层至上而下的输入,F2层的节点表示有效的分类编号。F0层和F1层的节点数与输入向量相关,F2层的节点数是任意的,且根据激活的状态发生变化。
权向量:联系每个F2层分类节点的是一个自适应权向量(也称作LTM跟踪),包括了ART-1网络的至下而上和至上而下的权向量。
参数:Fuzzy ARTMAP动力学由选择参数α>0所决定;学习速率参数β∈[0,1];警戒值ρ∈[0,1]。
图6 Fuzzy ARTMAP结构
在ARTa和ARTb中,为了防止类别增加,输入模式a在传递给F2层前,需要在F1层进行补码编码。补码形式为I=(a,ac)=(a1,a2,1-a1,1-a2),F2层是一个胜者为王竞争层,由一个类别选择函数Tj来衡量输入向量I与自适应权重(第j个节点的权值wj)间的匹配程度:对每个输入向量I和F2层的节点j,选择函数Tj如式(6):
(6)
TJ=max{Tj:j=1...N}
(7)
(8)
警戒值ρ的取值范围是[0,1]。权重向量由式(8)来计算。如果式(8)条件满足,则x和I的差别不超过警戒值,获胜神经元与输入I的类别发生共振。与获胜神经元相关的权值按照式(9)计算,使其与输入模式更相似。
(9)
(10)
(11)
xab=
(12)
综上所述,Fuzzy ARTMAP的算法概括如下:
1) 初始化网络,包括连接权以及相关参数。
由表8感官评价的极差分析可以看出,各因素对姜汁保健果冻风味口感影响的主次因素为姜汁添加量(A) >柠檬酸添加量(B) >β-环状糊精添加量(C),说明姜汁添加量是影响姜汁果冻风味口感的主要因素,其次是柠檬酸添加量,再其次是β-环状糊精添加量。并得出姜汁保健果冻感官品质最佳的组合为A2B2C3。
2) 为ARTb提供一个分类目标向量,确定ARTb中的获胜神经元,并进行非监督式学习。
3) 为ARTa提供与分类目标向量相对应的输入模式矩阵,确定ARTa中的获胜神经元。
4) 确定映射域输出向量xab并与ARTb的输出向量进行匹配。
5) 若两向量匹配,映射域权向量和ARTa权向量都进行学习,转至7)。
6) 若两向量不匹配,则执行匹配跟踪,转3)。
7) 若检测到有未学习的模式,则返回2),否则结束。
3实验
3.1测试数据库
人脸数据库FRGC v2.0[18]中的三维人脸深度图像的分辨率大小为640×480像素,其z轴上有30万个扫描点的深度数据。该数据库包括466个人,共4007个三维人脸模型,分别在2003年至2004年春秋两个不同时间采集。采集三维数据时,也同时采集了二维纹理图像。从中选取100个人的各4张图片,共400张三维图像构成实验的数据库。这些图像允许10°以内的偏转,每个人的人脸数据包括正常的表情以及头发等遮挡,图像采集于不同时间段。部分测试图像示例如图7。
图7 测试数据库图像示例
3.2测试数据库
a) 双眼检测和坐标定位
该数据库的深度图像还配合着一张纹理彩色图像,即二维照片。采用文献[19]中二维人眼定位方法,可自动定位出两个瞳孔中心的位置坐标x1、y1和x2、y2。
b) 人脸姿态矫正与切割
根据检测出的双眼的坐标即可对z轴进行旋转,使y1=y2,从而得到正的人脸,如图8(b)(c)所示。为了进一步消除头发,脖子,背景等非人脸本质因素的影响,采用人脸图像切割的方式对图像进行几何归一化。由定位出的双眼瞳孔中心坐标为基准,如图9(a)所示的方式对人脸进行切割。令双眼间距为D,剪裁参数h、r、n分别为0.5、0.5、1.7,所有的图像均归一化成分辨率为200×182的图像。
图8 人脸姿态纠正与切割
图9 试验中使用 的三维人脸图像切割方法
3.3特征提取
根据1.1,1.2,1.3所述的方法分别提取了曲线特征、Gabor小波特征和融合特征,将这3种特征作为Fuzzy ARTMAP神经网络输入向量。
3.4FuzzyARTMAP神经网络分类器训练与识别
进行分类训练和识别实验时,按如下方式生成训练集和测试集:从每个人4个模型中随机选取3个作为训练样本,剩下的1个作为测试样本。总共进行了50次不重复随机测试实验,取这50次实验的平均识别率作为算法的最终识别率。
训练时Fuzzy ARTMAP分类器的参数设定如下:警戒值ρa取0.8,训练次数100,学习速率β取1.0。
3.5测试结果与分析
按上述的实验规程,采用曲线特征、Gabor小波特征和融合特征这3种特征分别进行了测试,测试结果如表1所示。从表1可以看出;1) 与局部曲线特征的平均识别率87.5%相比,Gabor特征的识别率提高到了95.6%,这说明Gabor能更准确且稳定地描述人脸特征。2) 文中提出的融合特征的识别率提高到了97.5%,这从一个侧面说明了融合特征的有效性。
表1 各种特征算法识别率的比较
参考文献表2列出了本方法与其他一些中的三维人脸识别实验结果比较。表2中各种算法的实验环境如下:文献[20]的特征点距离法是在人工标定特征点的Bosphorus 3D人脸数据库上进行实验;文献[21]的THD(topographic high-order derivatives)法是以空间微模型特征在FRGCv2 3D人脸数据库上进行实验;文献[22]的CPD(coherent point drift)方法是基于混合高斯曲率特征,通过计算标志点之间的距离来进行识别,从FRGC V2.0库中选取了80人构建测试数据库;文献[23]采用改进LBP算子和稀疏表示方法通过稀疏表示分类器来实现分类识别,在法国EURECOM KFD人脸数据库上测试;文献[24]的曲率降维法是以人脸深度图像的曲率和纹理作为特征,利用PCA+LDA降维后,通过支持向量机(SVM)进行分类识别,在SHREC数据库上测试。
由于采用的数据库并不完全相同,即使采用同样的FRGCv2.0数据库由于选择不同图像,其测试结果也不尽相同。通过对比,所采用的测试库中的人数规模,面部表情,面部装扮及背景的复杂度等方面均与这些文献所采用的测试库难度相当。从表2中可以看出,文中的融合曲线特征与Gabor特征方法具有更高的识别率。这也从另一个侧面说明本算法的有效性。
表2 其他算法与本算法识别率的比较
为了验证Fuzzy ARTMAP分类算法的增量性和鲁棒性,在三维人脸样本库中,分别按每次增加10人的方式分别进行了10组识别测试,其结果如图10所示。由图10可以观察得知:随着人数的增加,提出的基于融合特征的Fuzzy ARTMAP分类算法的测试结果具有较好稳定性。这是因为,Fuzzy ARTMAP分类算法能在不破坏原有训练集的情况下新增训练集,实现增量学习。因此,利用Fuzzy ARTMAP智能分类算法,有望在更多大型公共环境下对新增加的人脸样本有更快的适应性和准确性。
图10 单特征与融合特征在不同训练人数下的识别率
4结语
提出了一种Gabor小波滤波和人脸三维深度图像曲线特征相融合的方法,运用有监督增量学习能力的模糊自适应神经网络(Fuzzy ARTMAP)进行人脸深度图像的分类和识别。本算法的优势在于不仅能保证较高的识别率(大约97.5%),而且能在不破坏原有训练集的情况下新增训练集,实现增量学习。仿真实验表明:该算法具有较高的识别率,所提取的特征对人脸表情变化具有一定的鲁棒性,且随着新增人脸数量的增长,可以提高准确率。
[1] 王跃明, 潘纲, 吴朝晖. 三维人脸识别研究综述[J]. 计算机辅助设计与图形学学报, 2008, 20(7): 819-829.
[2] Fadaifard H, Wolberg G, Haralick R M. Multiscale 3D feature extraction and matching with an application to 3D face recognition[J]. Graphical Models, 2013, 75(4): 157-176.
[3] Hiremath P S, Hiremath M. Depth and Intensity Gabor Features Based 3D Face Recognition Using Symbolic LDA and AdaBoost[J]. Image, Graphics and Signal Processing, 2014,(1): 32-39.
[4] Liu D H, Lam K M, Shen L S. Optimal sampling of Gabor features for face recognition[J]. Pattern Recognition Letters, 2004, 25(2): 267-276.
[5] Ter Haar F B, Veltkamp R C. SHREC'08 entry: 3D face recognition using facial contour curves[C]//Shape Modeling and Applications, 2008. SMI 2008. IEEE International Conference on. IEEE, 2008: 259-260.
[6] 邹红艳,达飞鹏.基于轮廓线局部描述符的三维人脸识别[J]. 计算机应用研究, 2013, 30(5): 1561-1563.
[7] 刘晓宁,董卫军,周明全,等. 基于轮廓线的三维人脸识别的改进算法[J]. 计算机工程, 2008, 33(11): 46-48.
[8] 莫建文, 李雁, 首照宇, 等. 改进的三维人脸识别方法[J]. 计算机工程与设计, 2012, 33(11): 4328-4332.
[9] 惠斌,唐旭晟,罗海波,等. 基于gabor小波sdf匹配滤波器的人脸识别[J]. 信息与控制, 2008, 37(5):633-636.
[10] 孔华锋, 鲁宏伟, 冯悦. 基于二维 Gabor 小波特征的三维人脸识别算法[J]. 计算机工程, 2008, 34(17): 200-201.
[11] Lee K, Chung Y, Byun H. SVM-based face verification with feature set of small size[J]. Electronics Letters, 2002, 38(15): 787-789.
[12] Othman H, Aboulnasr T. A separable low complexity 2D HMM with application to face recognition[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2003, 25(10): 1229-1238.
[13] Nazeer S A, Omar N, Khalid M. Face recognition system using artificial neural networks approach[C]//Signal Processing, Communications and Networking,2007.ICSCN'07. International Conference on. IEEE, 2007: 420-425.
[14] Gu M, Zhou J Z, Li J Z. Online face recognition algorithm based on fuzzy ART[C]//Machine Learning and Cybernetics, 2008 International Conference on. IEEE, 2008,(1): 556-560.
[15] Carpenter G A, Grossberg S, Reynolds J H. ARTMAP: Supervised real-time learning and classification of nonstationary data by a self-organizing neural network[J]. Neural networks, 1991, 4(5): 565-588.
[16] Carpenter G A, Grossberg S, Markuzon N, et al. Fuzzy ARTMAP: A neural network architecture for incremental supervised learning of analog multidimensional maps[J]. Neural Networks, IEEE Transactions on, 1992, 3(5): 698-713.
[17] 钟金宏, 杨善林. FUZZY ARTMAP 神经网络综述[J]. 计算机科学, 2001, 28(5): 89-92.
[18] Phillips P J, Flynn P J, Scruggs T, et al. Overview of the face recognition grand challenge[C]//Computer vision and pattern recognition, 2005. CVPR 2005. IEEE computer society conference on. IEEE, 2005,(1): 947-954.
[19] 唐旭晟, 欧宗瑛, 苏铁明, 等. 复杂背景下人眼的快速定位[J]. 计算机辅助设计与图形学学报, 2006, 18(10): 1535-1540.
[20] 莫建文, 李雁, 首照宇, 等. 改进的三维人脸识别方法[J]. 计算机工程与设计, 2012, 33(11): 4328-4332.
[21] Cheraghian A, Hajati F, Mian A S, et al. 3D FACE RECOGNITION USING TOPOGRAPHIC HIGH-ORDER DERIVATIVES[C]. Proc. of the The International Conference on Image Processing (ICIP), Sydney, 2013.
[22] 常俊彦,达飞鹏,蔡亮,基于测地距离的三维人脸识别[C]. 重庆:2010年全国模式识别学术会议(CCPR2010), 2010.
[23] 陶丽君, 张希婧. 基于改进 LBP 算子和稀疏表示的三维人脸识别研究[J]. 现代计算机 (普及版), 2013,(5): 23-26.
[24] Tonchev K, Manolova A, Paliy I. Comparative analysis of 3D face recognition algorithms using range image and curvature-based representations[C]// Intelligent Data Acquisition and Advanced Computing Systems (IDAACS), 2013 IEEE 7th International Conference on. IEEE, 2013,(1): 394-398.
收稿日期:2014-01-14
中图分类号:TP391.4;TP183
文献标志码:A
文章编号:1671-5276(2015)04-0126-06
作者简介:王斯藤(1988-),男,福建宁德人,硕士研究生,研究方向为图像处理。
基金项目:福建省自然科学基金资助(2013J01226)