基于双值韦伯算子的深度置信网络表情识别算法

2018-01-29 02:18郝晓丽

中北大学学报(自然科学版) 2017年6期

郝晓丽，田苗

(太原理工大学计算机科学与技术学院，山西太原 030024)

0 引言

面部表情是人机交互和人类情感交流的重要途径. 作为情感识别的基础,面部表情的识别已成为当前人工智能、计算机视觉等领域的研究热点[1-3]. 在面部表情识别系统中，表情特征的提取和分类是整个识别系统的关键. 2006年， Hinton提出了深度学习的概念[4，5]，后续的专家学者又将其成功应用到图像、语音、文本识别等领域. 深度学习在图像特征学习和抽象方面具有天然优势[6-8].其中，将深度置信网络(Deep Belief Net， DBN)应用于表情特征提取与识别时，虽然具有很好的学习功能，但是当图像以像素级向量形式输入而得到的高级抽象特征用于面部表情识别时，仍存在局部结构特征表征不足等问题.

面部包含了丰富的纹理特征信息，并且纹理特征具有位移、角度、旋转不变性的优点，近年来基于纹理特征的改进算法及研究成果有很多. Guo等提出的完全局部二值模式(CLBP)[9]以及基于Fisher准则的局部二值模式(FCL-CLBP)[10]，均对纹理特征进行了优化. Liu等提出的Gabor多方向特征融合规则[11]和Zhong等提出的基于局部Gabor特征的特征值提取法[12]等, 均部分解决了Gabor小波局部细微特征提取不足等问题. 本文基于韦伯特征(Weber Local Descriptor， WLD)[13]具有很强的纹理特征的描述性和区分性，且对噪声和光照变化鲁棒性好等优势，提出双值韦伯描述子(DWLD)，优化了中心像素梯度方向算法，丰富了局部细节纹理信息，筛选出更有鉴别力的纹理特征. 本文拟将局部纹理特征的提取引入DBN模型，构建表情识别新方法. 在该算法中，首先使用DWLD对所输入图像实现初次特征提取，以减少光照、噪音等自然影响和旋转影响；其次在DBN网络中实现二次特征自主提取，以得到高层次的抽象特征. 该算法提高了面部表情识别算法的识别率，增强了算法的鲁棒性，减少了深度学习计算量. 实验结果表明，相比传统WLD特征， DWLD有更好地局部特征表征能力. 将双值韦伯描述子引入深度置信网络进行纹理信息的局部处理时，具有更好的识别效果.

1 基于深度置信网络的表情识别

深度置信网络(Deep Belief Net，DBN)是由多个限制玻尔兹曼机(Restricted Boltzmann Machine，RBM)层堆叠组成的多层神经网络模型[7]，是一种概率生成模型，每一层的输出作为下一层的输入，从而获得更高级的抽象特征. 与传统神经网络相比， DBN通过逐层训练的方式有效避免了对所有层同时训练的时间复杂度问题，同时对于每层RBM内部的输入进行逐一重构，其权值偏置也会不断调优. 这一贪心算法模式大大提高了无监督学习的效率.典型DBN模型如图 1 所示.

图 1 DBN网络模型 Fig.1 DBN network model

这些网络结构分为可视层和隐藏层，层与层间存在连接，但层内的单元间是独立的. 假设DBN有L个隐藏层，则可视单层v和L个隐藏层hk的联合分布可用式(1)表示

p(v,h1,h2,…,hl)=

式中：v=h0表示DBN的可视单元；hk(k=1,2,…,l)是第k层隐藏单元；P(hk|h(k+1))是第k层隐藏层获得可视单元值的条件分布,满足

(2)

在第k层中，隐藏单元被激活的概率为

(3)

深度置信网络的特征学习包括模型中的预训练和微调，对面部表情图像的原始像素特征进行学习，可得到更高层次的抽象特征. 但是当表情图像以像素级图像作为DBN输入时，深度网络对面部表情图像的特征学习和信息提取能力也存在很多缺陷，如 ① 深度置信网络(DBN)忽略了图像的二维结构，难以学习到面部图像的局部特征[14],而面部图像局部结构在面部识别中是非常关键的特征; ② 以像素级的面部特征作为DBN的输入, 学习过程在很大程度上受输入图像质量影响, 若输入图像受到强烈光照影响,网络会因光照等因素影响而学习到不利的特征表达; ③ 对于检测一个给定特征的权值，每个位置都要分别去学习，这无疑加重了运算量.

本文将局部纹理特征引入到深度置信网络中，首先借助其在表情图像的梯度、边缘等纹理细节信息提取及表征上的优势，实现表情图像的初次特征提取；然后，为抽取图像全面性的高级抽象特征，将得到的初级特征引入深度置信网络，做二次特征提取及分类，实现了二者的融合.

2 深度置信网络表情识别算法

韦伯局部描述子(Weber Local Descriptor, WLD)是基于心理学Weber定律[13]而提出的，在提取图像纹理方面非常有效，在抑制噪音和光照方面也具有很好的鲁棒性. 针对传统的WLD在纹理梯度方向无法利用中心像素的所有邻接点全面描述纹理信息的不足，本文提出一种双值韦伯局部描述子(DWLD)，能通过新的梯度方向计算方法更加有效地提取局部纹理信息，从而提高对噪音和光照的鲁棒性.

2.1 韦伯局部特征(WLD)

陈杰等受Weber定律启发，提出韦伯局部描述子(WLD)，它由两部分组成：差分激励(Differential Excitation)ξ，即韦伯公式的比值，用来描述周围像素变化与当前像素的比值，反映图像的显著变化，如式(4)；梯度方向(Orientation)θ，即当前像素的梯度方向，用来描述垂直方向和水平方向像素变化的比值，反映局部窗内灰度变化的空间分布信息，如式(5). 图 2 表示了差分激励和梯度方向的计算过程，图中Xs表示当前像素Xc及其8个相邻像素.

图 2 WLD计算示意图Fig.2 Schematic diagram of WLD

2.2 双值韦伯局部特征

由式(5)可知，原始WLD的梯度方向仅仅使用了中心像素8个领域像素中的4个，即仅反映了其纹理信息在空间分布上水平方向和垂直方向上的梯度变化,不能充分反映在空间分布结构上的灰度变化,即无法准确体现纹理信息的内在变化特征. 如在计算图 3 中， 3种不同纹理模式的WLD特征，按照传统WLD的计算方法，他们的ξ=0，同时由于垂直梯度方向上的灰度值变化为0，即梯度方向计算公式中x5-x1=0, 表明他们的梯度方向也等于0. 这就意味着对于传统WLD，这3个纹理模式是无法被区分的. 这是因为在WLD特征中，梯度方向的计算只考虑了当前像素的4个邻接像素，这导致了传统方法在提取韦伯特征时丢失了一些有鉴别力的细节信息，也意味着容易受到噪声的干扰.

图 3 局部纹理图示例Fig.3 Local texture sample

基于这样的情况，本文对传统WLD的梯度方向进行如式(6)所示的改进，即

(6)

在式(6)中，改进的WLD在计算梯度方向时，中心像素的8个邻接像素均被使用了两次，消除了因邻接像素在使用频率上不同而对方向梯度产生的误差，所以也称改进的韦伯局部特征为双值韦伯特征(DWLD). 本文使用改进的DWLD方法，考虑了所有8个领域像素，能够更好的提取方向信息，也能够有效地抑制噪声. DWLD梯度方向计算示意图如图 4 所示.

图 4 DWLD梯度方向计算示意图Fig.4 Schematic diagram of DWLD gradient direction

DWLD与WLD特征梯度方向实验对比如图 5 所示，从实验结果来看， DWLD的梯度方向比传统WLD具有更丰富的局部纹理信息，我们可以更加清晰地看到图中面部的轮廓,且图像中包含了更丰富的图像细节信息. 各种特征提取与DBN结合的实验结果如图 6 所示.

图 5 传统WLD和DWLD梯度方向实验结果对比图Fig.5 The experimental results contrast figure of gradient direction between WLD and BWLD

图 6 不同的特征提取方法在与DBN结合时的识别率Fig.6 The recognition rate of DBN combine with different feature extractions

2.3 融合双值韦伯特征的深度置信网络表情识别算法

一般来说，图像特征表征方法基于局部特征要优于基于全局特征，但仅用局部特征表示图像会丢失其全局结构信息. 作为一种全局特征提取算法，深度学习具有很好的学习功能，但当面部表情图像以向量形式输入时，它虽然能学习到图像的高级抽象特征，但对于面部表情的局部结构信息特征提取仍有不足之处.

深度置信网络表情识别算法将面部表情图像提取到的WLD纹理特征作为DBN的输入，既能结合两者之间的优势，弥补两者之间的不足，又能减少深度学习在学习、训练过程中的计算量，同时由于WLD纹理特征具有灰度不变性和旋转不变性等优点，所以作为DBN输入时，其特征兼具局部性和全局性. 本文的面部表情识别算法实验步骤如下：

1) 提取面部表情数据库中图像并进行面部定位、裁剪、归一化等预处理；

2) 对预处理后的图像进行DWLD特征提取，其中，对图像的DWLD特征提取时，采用3×3像素窗口，半径R为1,中心像素的邻接像素为8. 最后将其分为训练样本集和测试数据样本集；

3) 对DBN模型中第k层RBM进行预训练：初始化参数θ={W,b,c}，将表情图像的DWLD特征输入到网络模型中，获取可视层各节点的值v1k∈{0,1}；

5) 根据步骤4)所求得的隐藏节点的值重构可见节点的值，计算多个可视节点的条件分布概率P(v2ki=1|vik)，并对P(v2t=1|vik)随机采样计算可视节点值v2ki∈{0,1}；

6) 根据步骤5)所求得的可视节点值计算隐藏节点值h2k，并计算隐藏节点的概率分布P(22kj=1|v2k，采用随机采样得到h2kj∈{0,1}；

7) 按照式(7)～(9)更新参数集θ={W,b,c}；

Δwi,j=ε(〈vihj〉data-〈vihj〉recon),(7)

Δbi=ε(〈vi〉data-〈vt〉recon),(8)

Δcj=ε(〈hi〉data-〈hi〉recon).(9)

8) 重复步骤3)到步骤7)，直至符合结束条件，则该层RBM模型参数固定；

9) 重复步骤3)到步骤8)，通过采用自上而下逐层无监督的贪婪学习算法，获得序列权值参数；

10) 采用BP算法，对DBN模型进行微调，根据输入数据和重构数据的损失函数，重新调整网络参数；

11) 判断初始样本向量值和最优权值的重构向量值的差值是否小于预定值，若是，则进行步骤12)，否则返回步骤10)；

12) 将测试数据样本输入DBN网络模型进行分类，并输出结果.

3 实验结果及分析

本文选择JAFFE数据库和Extended Cohn Kanade(CK+)面部库作为实验样本，采用融合双值韦伯特征的深度置信网络识别算法，并与已有的监督算法进行比较，以进一步验证该算法的性能. JAFFE数据库中有总计213幅图片，分辨率为256×256，包含10个日本女学生的各7种表情，其中包含6种基本表情和1种中性表情，每种表情含2～4幅图像. CK+数据库发布于2010年，其包含的表情图片要比JAFFE数据库更多，其中包含了123个人共593个图像序列，本文使用其中327个有表情标签的图像进行交叉验证.

为了测试本文引入的双值韦伯特征对表情识别率的影响，本实验在JAFFE数据库和CK+面部库中分别使用DBN算法、 WLD+DBN算法和DWLD+DBN算法进行识别率比较. 由于DBN本身并无识别功能，所以在DBN顶层设置BP神经网络用于微调整个网络. 使用JAFFE面部库时，经过多次试验发现，当DBN参数中隐藏节点数为 300时，隐藏层数分别为 1， 2， 3，实验结果如表 1 所示. 当隐藏层数为1时，隐藏层的节点数分别为50， 100， 300， 500，实验结果如表 2 所示. 由此可以看出，识别率并非随着隐藏层数的增加而增加，这可能是因为随着深度增加会导致： ① RBM重构误差累加； ② BP算法的累加误差过大[15].

表 1 DBN, DBN+WLD与DBN+DWLD在不同隐藏层数的识别结果

表 2 DBN, DBN+WLD与DBN+DWLD在不用隐藏节点数的识别结果

在WLD+DBN表现最好时，其7种表情的实验结果如表 3 所示.

表 3 DWLD+DBN应用于JAFFE面部库各种表情的正确识别率

从表 3 中可以看出本算法平均识别率是92.66%， 7种表情中，有4种表情的正确识别率在90%以上，中性表情的识别率则将近有100%，识别效果较为理想，而高兴、讨厌和害怕3种表情的平均识别率只有85.19%，这是因为这3种表情在某种程度上容易产生混淆.

使用CK+面部库时，经过多次试验，当DBN参数中隐藏层数设置为1以及隐藏节点数为500时，本文方法的识别效果最好，平均识别率为96.57%，实验结果分别如表 4 所示.

表 4 DWLD+DBN应用于CK+面部库时各种表情的正确识别率

表 5 应用于JAFFE数据库时不同算法训练和识别所消耗的时间表

同时本文在JAFFE数据上对不同算法的时间消耗进行了比较，实验结果如表 6 所示.

表 6 不同算法分别应用于JAFFE数据库和CK+面部库的正确识别率

从表5可以看出，当先对表情数据库中的图像进行韦伯特征初次识别时，在深度置信网络中的训练时间和分类时间都有所减少，其中WLD+DBN消耗的总时间比DBN时间减少13.89%， DWLD+DBN消耗的总时间也比DBN少.

将本文所提出算法与改进面部识别局部二值模式(LDP)、 Gabor小波变换、 PCA的特征提取法以及支持向量机(Support Vector Machine, SVM)、K邻近算法(K-Nearest Neighbor, KNN)识别方法相比较，比较结果如表 6 所示. 从实验结果可以看出，本文所提算法在平均识别率上略有提高. 事实上， DBN的学习能力非常好，且隐藏层和隐藏节点数越多，学习效果越强. 由于JAFFE数据总样本比较少，所以在本实验中，隐藏层数是1，隐藏节点数为300时，正确率最高. 在CK+数据库中，则是隐藏层数是1，隐藏节点数为500时，识别效果最好.

4 结语

本文首先采用改进韦伯特征对表情图像进行特征提取，再将其引入到深度置信网络进行二次表情识别，并利用BP算法进行表情识别. 实验结果显示，改进的韦伯特征在计算图像的梯度方向时，使用了中心像素的8个邻接像素，使得双值韦伯特征相比传统韦伯特征在纹理细节处更具表征能力，有助于提高表情的识别率. 基于双值韦伯特征的深度置信网络，改善了韦伯局部特征在提取面部表情图像整体纹理结构信息时的不足和深度学习对图片局部纹理结构信息的缺陷，结合了局部特征提取和整体特征提取的互补优势，减少了对冗余信息的学习，使学习速度和分类精度均得到一定的提高.

[1] Ying Zilu, Li Jingwen, Zhang Youwei. Facial expression recognition based on SLLE with expression weighted distances[J]. Pattern Recognition & Artificial Intelligence, 2010, 23(2)： 278-283.

[2] Xue Yuli, Mao Xi, Guo Ye, et al. The research advance of facial expression recognition in human computer interaction[J]. Journal of Image & Graphics, 20092009： 14(5)： 764-772．

[3] Jiang B, Jia Kebin. A local discriminative component analysis algorithm for facial expression recognition[J]. Acta Electronica Sinica, 2014, 42(1)： 155-159.

[4] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7)： 1527-1554.

[5] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786)： 504.

[6] Liu Ping, Han Shizhong, Meng Zibo, et al. Facial expression recognition via a boosted deep belief network [C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014： 1805-1812.

[7] Jung H, Lees S, Park S, et al. Development of deep learning for emotion recognition system[C]. Frontiers of Computer Vision(FCV),2015 21st Korea-Japan Joint workshop on. Mokpo： IEEE, 2015： 1-4.

[8] Gan Q, Wu C, Wang S, et al. Posed and spontaneous facial expression differentiation using deep Boltzmann machines[C]. International Conference on Affective Computing and Intelligent Interaction. 2015： 643-648.

[9] Guo Zhenhua, Zhang Lei. A completed modeling of local binary pattern operator for texture classification[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2010, 19(6)： 1657-63.

[10] Guo Yimo. Discriminative features for texture description[J]. Pattern Recognition, 2012, 45(10)： 3834-3843.

[11] LIU Shuaishi. Facial expression recognition method based on gabor multi-orientation features fusion and block histogram[J]. Acta Automatica Sinica, 2011, 37(12)： 1455-1463.

[12] Zhong Sizhi. Research on facial expression recognition[D]. Shanghai： School of Information Science Technology, 2015.

[13] Chen Jie. WLD： A robust local image descriptor[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2010,32(9)： 1705-1720．

[14] Itamar A, Derek R C, Thomas P K. Deep machine learning-A new frontier in artificial intelligence research[research frontier][J]. IEEE Computational Intelligence Magazine, 2010, 5(4)： 13-18.

[15] Pan Guangyuan, Chai Wei, Qiao Junfei. Calculation for depth of deep belief network[J]. Control & Decision, 2015, 30(2)： 256-260.