孙金娜 原明亭
摘要: 针对人脸特征点定位的精确性对人脸识别系统精确性的影响,本文在受约束的局部模型(constrained local models,CLM)基础上,主要研究人脸特征点定位算法——受约束的局部神经域模型(constrained local neural fields,CLNF)算法。考虑每个patch模型(特征点检测器)的可靠性,CLNF结合局部神经域(local neural field,LNF)的patch模型,在拟合过程中,由原来的正则化特征点均值偏移(regularised landmark mean shift,RLMS)改为采用不均匀的正则化特征点均值偏移方法进行人脸拟合,同时,在人脸数据集MultiPIE上进行实验,并对比分析两种模型。分析结果表明,CLNF定位算法在平均用时、成功率及误差率方面都具有明显优势,证明CLNF的LNF patch模型在人脸特征点拟合的精确性相对于CLM有明显提高。该技术拟合速度更快,拟合准确率更高,能够使人脸识别技术更加精确,具有更大的优势。该研究具有广泛的应用前景。
关键词: 特征点定位; 受约束的局部神经域模型; patch模型; 受约束的局部模型; 局部神经域
中图分类号: TP391.41文献标识码: A
现代社会中,随着科学技术网络技术飞速发展,信息安全问题受到越来越多的威胁与挑战[1]。对个人身份进行鉴别能够有效保护个人信息安全,而生物特征(人脸、人手)识别技术在身份鉴别工作中具有更高的可靠性和安全性,其中人脸识别技术,即通过计算机对摄像头采集的人脸图像进行身份验证和识别[2]。人脸识别技术在社会安全金融、教育、医疗及众多企事业单位等领域都有广泛应用,这也对人脸识别算法提出了更高的要求。人脸识别技术的一大技术核心即为精确定位人脸特征点[3],这也是该技术的一大难点。近年来,国内外的一些研究者对该技术进行了研究,T.F.Cootes等人[4]基于几何形状信息的方法改进了Snake模型,后来又陆续提出了主动形状模型(active shape model,ASM)和主动外观模型(active appearance model,AAM)[56];D.Cristinacce等人[78]提出的CLM算法,是对人脸识别算法的不断改进;山世光[9]研究了人脸特征点定位的理论价值和现实意义。基于此,本文对人脸特征点的实时性和精确性进行研究,在CLM算法的基础上,进一步对先进的CLNF算法进行研究。通过训练样本,并根据特征建立模型[10],将其与图像或视频进行对比,找出具有相同特征的区域,进行特征点定位。实验结果表明,结构化模型在人脸检测、头部姿态估计[11]和特征点定位方面具有更高的效率。该研究对人脸识别更加精确,具有更大的优势。
1人脸特征检测
人脸特征检测是指检测图像中某些面部特征点的位置。例如,检测鼻尖、眼角和嘴唇的轮廓。人脸特征点定位分为基于模型和非模型的两大类定位方法。目前,已经提出了一些解决该问题的方法。
CLNF算法是对CLM算法的创新,且使用了和CLM相同的框架[12]。CLM算法主要由点分布模型(point distribution model,PDM)[13]、patch模型和使用的拟合方法3部分组成。PDM是基于非刚性形状和刚体全局变换参数的人脸特征点定位模型。每一个特征点的邻域块使用patch模型建模。CLM算法中有多种拟合策略,其最常用的是正则化特征点平均偏移(regularised landmark mean shift,RLMS)[14]。训练模型时,刚性和非刚性参数的p估计均使用拟合方法进行估计,即
P*=argminP[R(p)+∑ni=1Di(Xi;L)](1)
式中,R(p)表示形變约束;D表示匹配代价,即拟合之后的特征点代替原来特征点位置的代价,新特征点的位置与平均形状之间的差值就是这个位置的代价,这样就对特征点构成了位置和形状的两种约束,第i个特征点的位置Xi=xi,yi,ziT由参数P通过PDM控制,所以第i个特征点的位置为
Xi=sR2DXi+Φiq+t(2)
式中,Xi=xi,yi,ziT是第i个特征的平均值;Φi是主成分矩阵;q是控制非刚性形状参数的m维向量。刚性形状参数可以使用6个标量参数化:缩放量s,平移量t=tx,tyT,旋转量w=wx,wy,wzT。旋转参数w控制旋转矩阵R2D(3×3的旋转矩阵R的前两行)。整个形状可用p=s,t,w,q来描述。
2CLNF算法
本节介绍了约束局部神经域(CLNF)特征点检测模型。它包括一个结合LNF[15]的新型patch模型,能够学习像素的值与特征点之间对齐概率的非线性和空间关系。CLNF还使用了一种考虑到patch可靠性的非均匀正则化特征点均值平移拟合方法。
1)LNF patch模型。LNF是可以捕获像素的值和输出响应之间复杂的非线性关系的神经网络层,LNF patch模型的图形模型如图1所示。图1中,实线表示顶点特征(fk),虚线表示边缘特征(gk或lk)。输入向量xi通过组合神经层(Θ)和顶点权重α的顶点特征连接到相关输出向量yi。输出进一步与边缘特征gk(相似性)或lk(稀疏度)。LNF patch模型是一个连续的输出模型。它将条件神经域(conditional neural fields,CNF)[16]的非线性与连续条件随机场(continuous conditional random fields,CCRF)[17]的灵活性和连续输出相结合。此外,LNF patch模型可以通过学习相似性和距离远近的稀疏约束来捕获像素(相邻和较长距离)之间的关系,CLNF patch模型如图2所示,可以看出每个特征点的兴趣区域是不一样的。
2)模型定义。LNF是一种无向图形模型,可以根据连续x(支持区域中的像素强度值)对连续值向量y
(patch排列的概率)的条件概率进行建模。用于特定的观察集模型符合条件概率分布,即
Py|X=expΨ∫∞-∞expΨdy(3)
式中,X=x1,x2,…,xn是一组观察到的输入变量,Y=y1,y2,…,yn是一组输出变量,∫∞-∞expΨdy是归一化函数,使之成为有效的概率分布(通过使其和为1)。期望的结果:xi∈Rm是patch模型支持区域中的矢量化像素强度(例如,对于11×11的支持区域,m=121),yi∈R,n是评估patch模型的可能区域。
3)势函数。势函数的定义为
Ψ=∑i∑k1k=1αkfkyi,X,θk+∑i,j∑k2k=1βkgkyi,yi+∑i,j∑k3k=1γklkyi,yi(4)
式中,fk为顶点特征;gk和lk为边缘特征。3种类型势函数分别为
fkyi,X,θk=-yi-hθk,xi2, hθ,X=11+e-θTX(5)
gkyi,yj=-12Sgki,jyi-yj2(6)
lkyi,yj=-12Slki,jyi+yj2(7)
式中,fk为顶点特征,表示通过单层神经网络从输入xi到输出yi的映射;θk是特定神经元k的权重向量;顶点特征fk的相应αk表示第k个神经元(卷积核)的可靠性;边缘特征gk表示观察yi和yj之间的相似性。
在LNF patch模型中,gk使连接节点变得平滑,这也受邻域度量Sgk的影响,因此能够控制平滑的程度。对于LNF patch模型,只有当两个节点i和j是网格中的直接(水平/垂直)相邻时,定义Sg1才返回1(否则返回0);当i和j是网格中的对角线相邻时,定义Sg2返回1(否则返回0);边缘特征lk表示观察yi和yj之间的稀疏约束。例如,如果yi和yj都很高,模型就会受到约束,但如果它们都为零,则不会受到约束。这将出现只有yi或yj是高的时候会受到约束,但是当yi和yj都是高的时候受到约束会更大。这是由邻域度量Slk控制,可以定义执行稀疏性的区域。根据先验经验定义邻域Sl,只有当两个节点i和j分开在4和6个边缘之间(其中边缘从LNF patch模型的网格布局中计数)时才返回1。
4)训练。主要介绍如何估计模型参数α,β,γ,Θ,这里要注意的是所有参数都是联合优化的。其中,α=α1,α2,…,αk1;Θ=θ1,θ2,…,θk1;β=β1,β2,…,βk2;γ=γ1,γ2,…γk3被学习并用于测试期间的推断。
给出M个块xq,yqMq=1作为训练数据,其中每个xq=xq1,xq2,…,xqn是一个输入序列(特征点可能區域中的像素值),每个yq=yq1,yq2,…,yqn是一个实值输出序列。
训练中,要选择使训练序列上LNF的条件对数似然最大化的α,β,γ和Θ值,即
Lα,β,γ,Θ=∑Mq=1logPyq|x(q)(8)
,,,=argmaxα,β,γ,ΘLα,β,γ,Θ(9)
这有助于式(8)偏微分方程的推导,将式(7)转化为多元高斯形式,即
Py|X=12πn2∑12exp-12y-μT∑-1y-μ, ∑-1=2A+B+C(10)
式中,A为对角矩阵,表示α项(顶点特征)对协方差矩阵的贡献;B和C为对称矩阵,表示β和γ项(边缘特征)的贡献。其中
Ai,j=∑k1k=1αk, i=j0, i≠j, Bi,j=(∑k2k=1βk∑nr=1S(gk)i,r)-(∑k2k=1βkS(gk)i,j), i=j-∑k2k=1βkS(gk)i,j, i≠j(11)
Ci,j=(∑k2k=1γk∑nr=1S(lk)i,r)-(∑k2k=1γkS(lk)i,j), i=j-∑k2k=1γkS(lk)i,j, i≠j(12)
此外,定义向量d描述分布中的线性项,定义μ是CCNF分布中的高斯形式的平均值,即
d=2αThΘX, μ=∑d(13)
式中,X为一个矩阵,第i列的元素为xi;Θ是连接神经网络的权重;hM是M的每个元素上激活函数的应用,因此hΘX表示xi处每个神经层的响应;d为顶点特征的贡献之一;∑为控制边缘特征对输出的影响;μ为分布的期望值,是使Py|x最大化的y的值。
为保证配分函数是可积分的,约束αk>0,βk>0,γk>0,其中Θ不受约束。为训练LNF patch模型,需要定义输出变量yi。给定在z=u,vT处具有正确特征点的图像,可将其在zi处的概率建模为yi=Nzi;z,σ(实验发现,最佳结果是用σ=1),然后在各个角度对图像取样,以获取培训样本。
3拟合过程的优化
CLM和CLNF算法都是为了实现人脸特征点精确的目标定位[18],主要包括以下两个方面:
1)利用训练好的patch模型,在每个特征点的可能区域进行详尽的搜索。
2)对PDM参数进行优化,使检测时获得的特征点响应图能够取得最小值。
但CLM依赖于初始参数估计,假设有一个初始估计P0,想要找到一个参数ΔP来更新当前的形状参数,使其接近P*=P0+ΔP(其中P*为最优解)[19],迭代拟合目标为
argminΔPRP0+ΔP+∑ni=1Dixi;L(14)
采用正则化特征点均值偏移(regularised landmark mean shift,RLMS)[15]方法,找到其最小二乘解为
argminΔP‖P0+ΔP‖2Λ-1+‖JΔP0-v‖2(15)
式中,J是在P处评估的参数向量P的特征点位置的雅可比矩阵。高斯分布的前一条记录pP∝Nq;0,Λ用于非刚性形状和刚体形状参数的均匀分布;v=v1,…,vnT是patch均值偏移的响应,使用高斯核密度估计器的近似响应图的表达式为
vi=∑yi∈ΨiπyiNxci;yi,ρI∑zi∈ΨiπziNxci;zi,ρI-xci(16)
均值偏移向量计算取决于xci和由经验确定的当前估计参数ρ。得到更新后的形状参数为
ΔP=-JTJ+rΛ-1-1rΛ-1p-JTv(17)
计算更新,迭代计算更新,直到收敛。但CLM存在的问题是每个patch模型的可信度均等,但具体到每个特征点却不是这样,其中某些特征响应图是嘈杂的。为解决此问题,CLNF在拟合时采用不均匀的RLMS,尽量减少目标函数
argminΔP‖P0+ΔP‖2Λ-1+‖JΔP-v‖2w(18)
式中,W是对角化权重矩阵,对均值偏移进行加权。具有Tikhonov正则化的非线性最小二乘法,导致以下更新规则,即
ΔP=-JTWJ+rΛ-1rΛ-1P-JTWv(19)
为了构建W,计算每个patch模型关于训练数据的交叉验证的相关性分数,使W=wdiagc1,…,cn;c1,…,cn,其中ci是第i个patch模型在交叉测试的相关系数,w由实验确定。对角线上的第i个和第i+n个元素代表了第i个patch模型的可信度。针对每个比例和视图,分别计算patch模型的可靠性矩阵W。
4实验结果
通过实验验证CLNF能很好的定位特征点,CLNF特征点定位图如图3所示。为突出CLNF相对于CLM及其他特征点定位算法的优越性,在人脸数据集MultiPIE[20]上进行实验,MultiPIE人脸数据库中包括337个人的不同姿态、表情、光照的人脸图像,共750 k+人脸图像。其中,选择200个人的脸部正面图像进行实验,对比验证CLNF相对于CLM在特征点拟合性能上的优势。CLM和CLNF拟合曲线如图4所示。
图4中,横坐标表示形状均方根误差及拟合图像中特征点位置相对于准确特征点位置之间距离的均方根误差;纵坐标表示不同人脸图像在不同环境干扰下的图像比例。由图4可以看出,CLNF特征点拟合性能相对于CLM有明显提高。
定位比较结果如表1所示。由表1可以看出,CLNF定位算法在平均用时、成功率及误差率方面都具有明显优势。需要说明的是,在对比图中,AAM算法的平均用时相对CLNF和CLM的差距较大,这是因为AAM算法在人脸定位时应用了全脸的纹理特征,因此在拟合过程中需要相对更长的时间来拟合到准确的特征点。
5结束语
本文通过引入势函数,确定LNF patch模型区域,针对每个特征点的比例和视图分别计算出不同的可信度,使patch模型具有更高的可信度。本文所主要阐述的CLNF算法,在patch模型匹配特征点及特征点位置拟合过程中,相对于传统的CLM等其他算法,拟合速度更快,拟合准确率更高,能够使人脸识别技术更加精确,具有更大的优势。但本文研究的内容仍具有一定的提升空间,比如当人脸在光照、噪声、背景等环境因素较为恶劣的情况下,CLNF算法虽然能在特征点定位方面保持一定的精确性,但对特征点的搜索和特征点拟合的过程耗时较长,拟合速度需进一步提升,这也是将要进一步研究的课题。
参考文献:
[1]Asthana A, Zafeiriou S, Cheng S, et al. Robust Discriminative Response Map Fitting with Constrained Local Models[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 34443451.
[2]Gross R, Matthews I, Cohn J, et al. MultiPIE[J]. IEEE International Conference on Antomatic Face & Gesture Recognition, 2010, 28(5): 18.
[3]苏楠, 吴冰, 徐伟, 等. 人脸识别综合技术的发展[J]. 信息安全研究, 2016, 2(1): 3339.
[4]杜春华. 人脸特征点定位及识别的研究[D]. 上海: 上海交通大学, 2008.
[5]Cootes T F, Taylor C J. Active Shape ModelsSmart Snakes[C]∥Proceedings of British Machine Vision Conference. Leeds, UK: Springer London, 1992: 266275.
[6]林维训, 潘纲, 吴朝晖, 等. 脸部特征定位方法[J]. 中國图象图形学报, 2003(8): 849859.
[7]Cootes T F, Edwards G J, Taylor C J. Active Appearance Models[J]. European Conference on Computer vision, 1998, 23(6): 484498.
[8]Tzimiropoulos G, AlabortIMedina J, Zafeiriou S, et al. Generic Active Appearance Models Revisited[J]. Springer, 2012, 7726: 650663.
[9]Cristinacce D, Cootes T F. Feature Detection and Tracking with Constrained Local Models[C]∥British Machine Vision Conference. Edinburgh, UK: DBLP, 2006, 41: 929938.
[10]Wang Y, Lucey S, Cohn J F. Enforcing Convexity for Improved Alignment with Constrained Local Models[C]∥IEEE Conference on Computer Vision & Pattern Recognition. Porc IEEE Comput Soc Conf Comput Vis Pattern Recognit, 2008: 18.
[11]山世光. 人臉识别中若干关键问题的研究[D]. 北京: 中国科学院研究生院计算技术研究所, 2004.
[12]宗智勇, 恽如伟, 刘丹. 三维人脸建模中特征点标定的简化应用研究[C]∥2011数码游戏化学习国际学术会议. 北京: 北京大学, 2011.
[13]Czupryski B, Strupczewski A. High Accuracy Head Pose Tracking Survey[J]. Springer International Publishing, 2014: 407420.
[14]Morency L, Baltrusaitis T, Robinson P. 3D Constrained Local Model for Rigid and NonRigid Facial Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2012, 157(10): 26102617.
[15]Surhone L M, Tennoe M T, Henssonow S F. Point Distribution Model[J]. Betascript Publishing, 2010.
[16]Saragih J M, Lucey S, Cohn J F. Deformable Model Fitting by Regularized Landmark MeanShift[J]. International Journal of Computer Vision, 2011, 91(2): 200215.
[17]Baltrusaitis T, Robinson P, Morency L P. Constrained Local Neural Fields for Robust Facial Landmark Detection in the Wild[C]∥IEEE International Conference on Computer Vision Workshops. NSW, Australia: IEEE, 2014: 354361.
[18]Peng J, Bo L, Xu J. Conditional Neural Fields[C]∥International Conference on Neural Information Processing Systems. British Columbia, Canada: ACM, 2009: 14191427.
[19]Qin T, Liu T Y, Zhang X D, et al. Global Ranking Using Continuous Conditional Random Fields[C]∥Conference on Neural Information Processing Systems. British Columbia, Canada: DBLP, 2008: 12811288.
[20]Wang Y, Lucey S, Cohn J F. Enforcing Convexity for Improved Alignment with Constrained Local Models[C]∥Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008, 2008: 18.