田 苗,郝晓丽
(太原理工大学 计算机科学与技术学院,山西 太原 030024)
在人脸表情识别系统中,表情的特征提取和分类是整个识别系统的关键[1-3]。机器学习专家Hinton提出了深度学习的概念[4,5]后,其已成功应用到图像、语音、文本识别等各领域。研究表明了深度学习在学习和抽象图像特征方面的天然优势[6-8],但应用于表情的特征提取与识别时,仍存在局部结构特征表征不足等问题。
鉴于面部包含了丰富的纹理特征信息,并且纹理特征具有位移、角度、旋转不变性的优点,本文拟将局部纹理特征引入DBN模型。近年来纹理特征的相关算法及改进研究成果很多:Guo等提出完全局部二值模式(CLBP)[9],以及基于Fisher准则的局部二值模式(FCL-CLBP)[10],均对纹理特征进行了优化;针对Gabor小波有Liu等提出的Gabor多方向特征融合规则[11],和Zhong等提出的基于局部Gabor特征的特征值提取法[12]等,均只部分解决了局部细微特征提取不足等问题,仍对图片和噪音和强光不具备太强的鲁棒性。本文基于韦伯特征(weber local descriptor,WLD)提出了双值韦伯特征(BWLD),能筛选出更有鉴别力和鲁棒性的纹理特征。
本文将局部纹理特征引入到深度置信网络中,首先借助双值韦伯局部描述子实现表情图像的初次特征提;再次,将得到的初级特征引入深度置信网络,做二次特征提取及分类,实现了二者的融合。经实验验证,该算法在识别率和鲁棒性上表现出了良好的性能。
韦伯局部描述子WLD是基于心理学Weber定律而提出的,该特征被陈杰等应用于描述图像方面,在提取图像纹理方面非常有效,在抑制噪音和光照方面也具有很好的鲁棒性,实验结果也表明其具有很高的区分度,同时在对噪声和光照变化的人脸检测中取得了较好的效果。本文针对传统的WLD在局部纹理表征的局限性方面,提出了一种双值韦伯局部描述子(binary weber local descriptor,BWLD),其特征通过新的梯度方向计算方法能更加有效地提取局部细节纹理信息,从而提高识别对噪音和光照的鲁棒性。
陈杰等受Weber定律启发,提出的韦伯局部描述子(WLD),使用邻接强度差与当前像素强度比值作为图像局部特征[13]。WLD特征由两部分组成:差分激励(differen-tial excitation)ξ,韦伯公式的比值,是邻接像素变化与当前中心像素的比值,可以反映图像中人眼可辨别的变化部分,用来描述图像的显著变化,如式(1)所示;梯度方向(orientation)θ,中心像素的特征提取方向,反映了像素在垂直和水平的空间方向上的灰度变化,用来描述局部特征在在空间结构分布上的方向信息,如式(2)所示。韦伯特征的ξ和θ计算过程如图1所示,其中xc是中心像素,Xs包含Xc及其8个邻接像素
(1)
(2)
图1 WLD计算
由式(3)可知,原始WLD的方向算子仅仅使用了中心像素8个领接像素中的一半,仅反映了其纹理信息在空间分布上的水平方向和垂直方向上的梯度变化,无法深入反应其在空间分布上的其它灰度变化,即无法精确表征纹理信息更为本质的特征。例如在计算图2中的3种不同纹理模式的WLD特征时,按照传统WLD的计算方法,它们的ΔI都为0,即ξ=0,意味着,无法从差励方面对它们进行区分,同时计算得到它们θ=0。这就表明对于传统WLD,这3个纹理模式是无法区分的。这是因为韦伯特征中,计算梯度方向时,只考虑到了中心像素的4个邻接像素,这导致了传统方法在提取韦伯特征时,由于对一些强鉴别力的细节特征信息不具有精确表征能力,因此对噪音等的抗干扰能力弱。鉴于此,本文提出了新的WLD梯度方向计算方法,如式(3)所示。在此公式中,改进的WLD在计算方向算子时,中心像素的8个邻接像素均使用了两次,消除了邻接像素在使用频率上的不同对方向梯度产生的误差,所以也基于此称改进的韦伯局部特征为双值韦伯特征(BWLD)。本文采用改进的BWLD方法,使用了中心像素的8个领接像素,准确反映了纹理特征的方向信息,强有效地抑制了噪音的影响。
图2 局部纹理图示例
BWLD梯度方向计算如图3所示,公式则如下
(3)
图3 BWLD梯度方向计算
从实验结果来看,BWLD的梯度方向算子比传统WLD具有更丰富的局部纹理信息,实验对比如图4所示,我们可以更加清晰看到图中人脸的轮廓,且图像中包含了更丰富的图像细节信息。
图4 传统WLD和BWLD方向算子实验结果对比
深度置信网络(deepbeliefnet,DBN)是由多个限制玻尔兹曼机(restrictedBoltzmannmachine,RBM)层堆叠组成的多层神经网络模型,是一种概率生成模型,每一层的输出作为下一层的输入,从而获得更高级的抽象特征[4]。这种机制能减少处理数据量,更为充分储存和利用有用的信息。与传统神经网络相比,DBN通过逐层训练的方式有效避免了对所有层同时训练的时间复杂度问题,同时对于
每层的限制玻尔兹曼机(RBM)内部的输入进行逐一重构,其权值偏置也会不断调优。这一贪心算法模式,大大提高了无监督学习的效率。
典型的DBN模型如图5所示,这些网络结构分为可视层和隐层,层与层间存在连接,但每层内的单元与单元间是相互独立的。假设DBN有l个隐藏层,则可视单层v和l个隐藏层hk的联合分布可用式(4)表示
(4)
其中,v=h0表示DBN的可视单元,hk(k=1,2,…,l)是第k层隐藏单元,P(hk|hk+1)是指第k层隐藏层获得可视单元值的条件分布,满足
P(hik|hk+1)=∏iP(hik|hk+1)
(5)
在第k层中,隐藏单元被激活的概率为
(6)
图5 DBN网络模型
一般来说图像检索方法中基于局部特征方法要优于基于全局特征,但仅用局部特征表示图像,又会丢失其全局结构信息,由于BWLD在提取局部纹理时的有效性,使得它得到广泛的应用,同样也有效应用于人脸表情识别的特征提取,但是它同样无法有效表示其整体结构信息。而对深度学习来说,它具有很好的学习功能,但深度置信网络(DBN)忽略了图像的二维结构,难以学习到面部图像的局部特征,所以当人脸表情图像以向量形式的输入,它虽然能学习到图像的高级抽象特征,但对于人脸表情的局部结构信息特征有不足之处,因此,将BWLD和DBN相结合,即将人脸表情图像提取到的BWLD纹理特征作为DBN的输入,既能结合两者之间的优势,弥补两者之间的不足,更能减少深度学习在学习、训练过程中计算量低的问题,同时由于BWLD纹理特征具有灰度不变性和旋转不变性等优点,所以其作为DBN的输入时,其特征兼具局部性和全局性。本文的人脸表情识别流程如图6所示。
图6 人脸表情识别流程
为了验证本文所提出的改进WLD结合深度置信网络算法的表情识别率,并进一步该评估算法的性能,实验设置与已有的监督算法进行对比,实验样本使用了JAFFE数据库作为样本。JAFFE数据库中有总计213幅图片,分辨率为256×256,包含10个日本女性,每人做7种表情,分别是sad,happy,angry,disgust,surprise,fear,neutral。每种表情2-4幅图像,部分原始图像如图7(a)所示,所有图像经过归一化处理后,图像大小为64×64,部分预处理后的图像如图7(b)所示,我们将处理后全部图像中其中9个个体数据作为训练集,剩余一人的数据作为测试集。
图7 JAFFE部分人脸表情
步骤1 提取面部表情数据库中图像并进行面部定位、裁剪、归一化等预处理;
步骤2 对DBN模型进行预训练:初始化参数,通过采用自上而下逐层无监督的贪婪学习算法,更新序列权值参数;
步骤3 对预处理后的图像分为训练样本集和测试数据样本集,并分别进行BWLD特征提取;
步骤4 对DBN模型进行微调:根据输入数据和重构数据的损失函数,利用BP算法重新调整网络的参数;
步骤5 判断初始样本向量值和最优权值的重构向量值得差值是否小于预定值,是则进行步骤6,否则返回步骤4;
步骤6 将测试数据样本输入DBN网络模型进行分类,并输出结果。
为了测试本改进的BWLD特征提取方法对识别结果的影响,实验首先单独使用DBN对人脸表情进行识别,再将DBN与WLD结合进行实验,然后融合改进的BWLD与DBN对人脸表情进行识别,由于DBN本身并无识别功能,所以在DBN顶层设置BP神经网络,用于微调整个网络,DBN参数中,隐藏节点数为1时,隐藏层数为别为1、2、3。隐藏层数为1时,隐藏层的节点数分别为50、100、300、500,实验结果分别见表1、表2。
表1 DBN、DBN+WLD与DBN+BWLD
表2 DBN、DBN+WLD与DBN+BWLD
由表1和表2 的实验结果可以看到,当隐藏层数是1时,以及隐藏节点数为300时,识别效果最好,事实上,DBN的学习能力非常好,尤其是隐藏层时和隐藏节点数越多时,学习效果越强,但是由于JAFFE数据总样本比较小,所以当隐藏层为1时,正确率最高。
将本文的所提出的方法的实验结果与人脸表情识别常用的改进局部二值模式(LDP)、Gabor变换、PCA的特征提取法,以及支持向量机(support vector machine,SVM)、K邻近算法(K-nearest neighbor,KNN)识别方法相比较,其中DBN的参数设置为,隐藏层为1层,隐藏节点数为300,其中JAFFE数据库中第6个个体作为测试样本,其余9人作为训练样本,实验结果见表3。
表3 不同算法在JAFFE数据库正确识别率
本文采用先对表情图像进行改进韦伯特征提取,再将其引入到深度置信网络进行二次学习和识别的表情识别算法。实验结果显示,双值韦伯特征相比传统韦伯特征在纹理细节处更具表征能力,也对噪音和光照的鲁棒性,有助于提高表情的识别率。将双值韦伯特征引入到深度置信网络中的算法,通过结合两种特征提取的互补优势,改善了韦伯局部和深度学习分别在图像特征提取时的缺陷,同时双值韦伯特征作为深度置信网络的输入减少其对冗余信息的学习和联系,使得深度学习的学习速度也得到显提高。最终在BP分类器下得到了良好的分类效果。但是在现实生活中,这种方法在表情识别的速率仍有不足,这将是我们以后继续努力的方向。
[1]Jiang B,JIAKe-bin.A local discriminative component analysis algorithm for facial expression recognition[J].Acta Electronica Sinica,2014,42(1):155-159.
[2]Lenz I,Lee H,Saxena A.Deep learning for detecting robotic grasps[J].International Journal of Robotics Research,2013,34(4-5):705-724.
[3]Zhu Z,Luo P,Wang X,et al.Deep learning identity-preserving face space[C]//IEEE International Conference on Computer Vision.IEEE,2013:113-120.
[4]SUN Zhijun,XUE Lei, XU Yangming,et al.Overview of deep learning[J].Application Research of Computers,2012,29(8):2806-2810(in Chinese).[孙志军,薛磊,许阳明,等.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810.]
[5]Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.
[6]Liu Ping,Han Shizhong,Meng Zibo,et al.Facial expression recognition via a boosted deep belief network[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:1805-1812.
[7]Jung H,Lee S,Park S,et al.Development of deep learning-based facial expression recognition system[C]//The Workshop on Frontiers of Computer Vision.IEEE,2015:1-4.
[8]Gan Q,Wu C,Wang S,et al.Posed and spontaneous facial expression differentiation using deep Boltzmann machines[C]//International Conference on Affective Computing and Intelligent Interaction,2015:643-648.
[9]Guo Z,Zhang L,Zhang D.A completed modeling of local binary pattern operator for texture classification[J].IEEE Transactions on Image Processing,2010,19(6):1657.
[10]Guo Y,Zhao G,Pietik,et al.Discriminative features for texture description[J].Pattern Recognition,2012,45(10):3834-3843.
[11]LIU Shuaishi,TIAN Yantao,WAN Chuan.Facial expression recognition method based on Gabor multi-orientation features fusion and block histogram[J].Acta Automatica Sinica,2011,37(12):1455-1463(in Chinese).[刘帅师,田彦涛,万川.基于Gabor多方向特征融合与分块直方图的人脸表情识别方法[J].自动化学报,2011,37(12):1455-1463.]
[12]ZHONG Sizhi.Research on facial expression recognition[D].Shanghai:East China Normal University,2015(in Chinese).[钟思志.人脸面部表情识别算法研究[D].上海:华东师范大学,2015.]
[13]JIN Chao.Study of facial expression recognition method based on weber local descriptor[D].Hefei:Hefei University of Technology,2015(in Chinese).[金超.基于韦伯局部特征的人脸表情识别方法研究[D].合肥:合肥工业大学,2015.]