一种具有噪声鲁棒性的人脸表情识别算法研究

2015-10-20 09:13:10曹雪虹焦良葆

电视技术 2015年3期

王镇，童莹，曹雪虹，，焦良葆

(1.南京邮电大学通信与信息工程学院，江苏南京210003;2.南京工程学院通信工程学院，江苏南京211167)

1 人脸表情识别

人脸面部表情是人类重要的形体语言之一，能够比较准确地反映情感、精神、心理等状态变化。近年来，利用计算机分析理解人脸表情完成相关工作，在人机交互中具有重要应用前景，人脸表情识别技术逐渐成为研究热点。人脸表情识别系统如图1所示，由表情图像预处理、人脸检测与区域分割、表情特征提取和分类4个部分组成［1］。对于一幅高质量图像，特征提取和分类是人脸表情识别系统的两个重要步骤。考虑到分类器识别效果好坏很大程度上取决于特征描述准确性的高低，因此表情特征提取是人脸表情识别系统的重要环节，是提高分类准确率的关键。

图1 人脸表情识别系统流程图

常见的静态图像人脸特征提取方法有主成分分析法(PrincipalComponentAnalysis，PCA)［2］、独立分量分析法(IndependentComponentAnalysis，ICA)［3］、Gabor 小波变换［4］、局部二值模式(LocalBinaryPattern，LBP)［5］和尺度不变特征变换(ScaleInvariantFeatureTransform，SIFT)［6］等。PCA、ICA子空间方法受样本数量、图像空域变化影响较大;LBP 是一种有效的纹理描述子，但编码方式对邻域灰度值变化敏感;Gabor小波变换、SIFT算子运行时间长，特征维数巨大，不具有实时性，因此这些特征提取算法仍有局限性。针对这些不足，Dala N和Triggs B在2005年提出了梯度方向直方图(Histograms of oriented gradients，HOG)［7］算法，它是一种形状描述子，通过计算局部区域的梯度方向并统计个数，得到梯度方向直方图，能够很好地表征图像的边缘信息，具有方向不变性等特点。因此，相比LBP、Gabor、SIFT等算子，本文采用改进HOG算子可以有效提取人脸表情特征，且设置合理参数使特征维数大大降低，具有实时性。

但实际应用中，人脸表情图像获取容易受噪声、光照、遮挡等因素影响，图像质量参差不齐，因此在进行表情特征提取和识别之前，预处理工作又显得尤为重要。本文仅考虑受噪声污染严重的情况，首先对图像进行滤波预处理。目前，图像滤波方法有很多［8］，经典算法有均值滤波、中值滤波、Wiener滤波等，它们在平滑噪声的同时，也模糊了图像的边缘，不能很好重现原始图像中的结构信息。近几年，针对图像滤波中保持重要特征的问题，基于非线性方程的滤波方法得到很大发展，尤其是Perona和Malilik提出的各向异性扩散滤波方法［9］，其在图像灰度平坦区域选择大尺度平滑，在边缘部分选择小尺度平滑，从而实现了抑制噪声的同时较好地保护图像边缘信息的目的，并得到广泛应用。严哲等［10］将地震相干属性值作为断层信息保护因子引入到各向异性扩散滤波中，提出了一种基于各向异性扩散滤波的地震图像增强处理方法;陈金林等［11］提出一种结合各向异性扩散和小波域的数字水印算法，保证水印不可见性的同时，具有较好的鲁棒性;付丽娟等［12］将PM算法与中值滤波相结合，用经过中值滤波平滑后的梯度模值代替原始图像的梯度模值，在提高信噪比的同时保留了图像的细节信息，可以更好地满足医学图像的使用要求。因此，本文将具有人眼视觉特性的各向异性扩散滤波方法应用到人脸表情识别中，对受噪声污染严重的降质图像进行滤波预处理。利用人眼在不同亮度背景下对亮度差的敏感性不同，结合梯度值修正扩散系数，区分处理面部斑点噪声和肌肉皱褶形变所对应的弱边缘、弱细节，尽可能保留原始图像中的表情信息，为后续HOG表情特征的准确提取提供方便。

综上所述，本文从预处理和特征提取两个角度进行改进，提出一种在噪声环境下有效识别人脸表情的方法。首先，设计一种具有人眼视觉特性的各向异性扩散滤波方法，利用人眼在不同亮度背景下对亮度差的敏感性不同修正扩散系数，使其在滤除噪声的同时更好地保留了表情图像的弱小细节信息;其次，采用HOG算子提取表情特征，并且改进梯度算子，设置合理参数，大大降低了特征向量维数，提高了算法的运行效率和识别率。在JAFFE数据库上的实验结果表明，本文算法是一种有效的，具有一定的噪声鲁棒性的人脸表情识别算法。

2 HOG算法原理及其改进

2.1 HOG算法基本原理

梯度方向直方图(Histogram of Oriented Gradients，HOG)，是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，它通过计算和统计图像局部区域的梯度方向直方图来构成特征。

采用HOG算子提取表情特征的具体步骤如下:

1)计算图像每个像素点的梯度幅值和方向，捕获表情轮廓信息，弱化光照的干扰。

2)将检测窗口划分成大小相同的单元格(cell)。

3)统计每个单元格(cell)的梯度方向直方图。

4)将相邻的单元格组合成无重叠的块(block)，统计整个块的梯度方向直方图特征，并对每个块内的直方图进行归一化，减少背景颜色和噪声的影响。

5)最后连接所有块(block)的梯度方向直方图，得到表示整个表情图像的HOG特征。

2.2 HOG算法的改进

在文献［7］中，笔者将每个 cell大小设置为8×8(pixels)，block大小设为2×2(cells)，在0o～180o内分了9个方向区间，用一维中心对称模板［-1 0 1］来计算每个像素点的梯度幅值和方向，计算公式如下

因此，对于一幅大小为128×128的图像，可划分为8×8=64个无重叠block区域，得到特征向量维数等于64×4×9=2 304。考虑到过高的特征维数会对识别率以及运行时间产生影响，分析各个参数的表征效果，得到最佳参数，即cell大小为16×16(pixels)，block大小为4×4(cells)，0°～180°仍然分为9个方向区间，此时特征维数等于4×144=576，特征维度降低了75%，算法运行效率得到明显的提升。

同时，本文采用canny模板代替一维中心对称模板，梯度计算公式如式(3)～式(6)所示，得到梯度幅值图像如图2所示。可以看出，canny算子梯度幅值图像比一维中心对称算子梯度幅值图像面部干扰噪声小，边缘清晰，因此其梯度方向直方图中有效值与干扰值差异度大，特征空间距离分类效果更理想。

图2 不同梯度算子幅值图像

3 各向异性扩散滤波原理及改进

3.1 各向异性扩散滤波原理

平滑滤波是图像处理中一个比较重要的环节，早期一些常见的滤波器，如高斯低通滤波器、维纳滤波器等，在平滑噪声的同时，也模糊了边缘，丢失了图像中的重要结构信息。针对这一不足，众多学者提出了大量的图像滤波算子，其中最著名的是Perona和Malik［9］提出的采用方向性分布系数代替高斯卷积的各向异性扩散滤波方法。

各向异性扩散方程(P-M方程)实质上是偏微分方程形式的热传导方程，其表达式如下

式中:f(x，y，t)为输入图像f(x，y)经过t次迭代后的结果;div(·)是散度算子;c(·)为扩散系数，Perona和Malik提出如下两种形式的扩散系数方程

式中:Δf()是梯度算子;‖Δ f(x，y，t)‖表示 f(x，y，t)的梯度模值;K为梯度阈值。从上面两个方程可以看出，扩散系数c(·)是一个以梯度模值为变量的单调递减函数，在梯度值越大的区域，扩散系数越小，有利于保护图像的边缘信息;在梯度值越小的地方，扩散系数越大，有利于平滑图像中的噪声。

3.2 各向异性扩散滤波的改进

从式(8)～式(9)可以看出，扩散系数仅对梯度模值‖f(x，y，t)‖比较敏感，因此在人脸表情识别应用中，考虑表情变化会引起下巴、额头、鼻梁等非显性区域的肌肉纹理变化，这些变化产生的弱边缘、弱细节也是表情识别的关键因素。但它们的梯度模值较小，扩散系数较大，传统P-M方程对其有平滑作用，导致细节丢失，表情信息不完整。

鉴于此，本文提出了基于人眼视觉信息处理机制的各向异性扩散滤波方法，利于人眼在不同亮度背景下对目标的敏感性不同，修正扩散系数，使其能正确区分噪声和弱小细节信息。

3.2.1 人眼视觉信息处理机制

研究表明，人眼对物体的识别能力与物体亮度和背景亮度有关。假设某一物体所处的背景平均亮度为I，物体本身亮度可看作为I+ΔI，只有当亮度差ΔI大于某个阈值时，人眼才能从背景中将目标分辨出来，此时的ΔI称为刚可分辨亮度差，ΔI与 I之间成一种非线性关系，称为阈值亮度比(TVI)。人眼视网膜上有视杆体和视锥体两种视觉细胞，其中视杆体在暗光环境下特别敏感，视锥体在亮光环境下比较敏感。图3为视杆体和视锥体的阈值亮度比函数曲线［13］。从图中可以看出，当背景很亮或者很暗时，ΔI需要较大值才能使物体可见。

图3 TVI函数曲线

3.2.2 具有人眼视觉特性的各向异性扩散滤波

文中利用人眼在不同的亮度背景下对亮度差的敏感性不同修正扩散系数，提出新的扩散系数方程如下

式中:‖Δ f(x，y，t)‖为梯度模值;ΔI(x，y，t)为刚可分辨亮度差;α为可调系数;K为梯度阈值。其中ΔI(x，y，t)的具体求解步骤如下:

1)以像素点(x，y)为中心，求其3×3邻域的均值fm(x，y，t)。

2)比较 f(x，y，t)和 fm(x，y，t)大小。若 f(x，y，t)＞ fm(x，y，t)，则取3 ×3邻域内所有灰度值小于 fm(x，y，t)的像素均值作为(x，y)处的背景值 Im(x，y，t);反之，则取所有灰度值大于 fm(x，y，t)的像素均值作为(x，y)处的背景值 Im(x，y，t)。

3)计算图像的亮度差

由此可见，利用改进扩散方程可以有效区分边缘、背景、弱小细节和噪声。在边缘变化明显的目标区域，例如眼睛、嘴巴、眉毛等显性特征区域，梯度模值 Δf(x，y，t)较大，亮度差ΔI(x，y，t)也较大，因此扩散系数小，平滑作用显著降低，有利于保护边缘信息;而在平坦背景区域，梯度模值较小，亮度变化也不大，因此平滑作用明显，能够有效滤除噪声;并且，对于弱小细节区域，例如下巴、额头、鼻梁等非显性区域，虽然其梯度值较小，但亮度差较大，可对扩散系数进行修正，适当减弱平滑作用，实现了在滤除噪声同时，也保留图像中的弱小结构信息的目的，有利于后续表情图像的特征提取。

图4是采用传统各向异性扩散方法和文中改进方法对表情图像进行滤波的效果对比图。从图中可以看出，相比原始人脸表情图像(见图4a)，传统各向异性扩散方法(见图4b)和文中改进方法(见图4c)均能有效滤除噪声，但对于弱小细节区域，传统各向异性扩散方法处理效果不理想。例如在原始人脸表情图像的下巴区域(见图4d)，有明显的肌肉纹理变化且包含噪声，传统各向异性扩散方法虽然去除了噪声但也弱化了边缘(见图4e)，而本文方法在有效滤除噪声同时，也较好的保护了细节信息，为准确提取表情特征提供方便(见图4f)。

图4 传统各向异性扩散滤波与人眼视觉下的各向异性扩散滤波效果图

4 实验结果与分析

文中算法是在MATLAB环境下，对JAFFE数据库进行实验仿真。JAFFE数据库是日本ATR媒体信息科学实验室的Lyons博士提供的，包括10位日本女性在愤怒、厌恶、恐惧、高兴、悲伤、惊讶6种情况下自发产生的表情图像，共213幅图像，图像大小为256×256，文中选取其中每人每种表情3幅图像，共180幅图像进行实验仿真。该数据库完全开放，且表情标定标准，现为多数研究人员仿真使用。

在进行实验仿真前，文中对数据库中的图像进行表情区域划分和归一化预处理，将所有图像尺寸归一化为128×128。JAFFE数据库的部分归一化预处理样本表情图像如图5所示。

图5 JAFFE数据库的部分样本表情图像

本文采用文献［14］中Leave-One-Sample-Out和Leave-One-Subject-Out两种样本选择方式进行仿真实验。Leave-One-Sample-Out(L-O-Sap-O)是一种熟悉人脸样本选择方式，选取1幅图像作为测试样本，剩余N-1幅图像作为训练样本，交叉验证N次，其中N为表情数据库中所有样本的数量。采用这种样本选择方式可以最大程度选择所有数据作为测试样本，以确保每幅图像的表情特征都被考虑到，实验结果更具有真实性。Leave-One-Subject-out(L-O-Sub-O)是一种不熟悉人脸样本选择方式，选取同一个人的所有表情作为测试样本，剩余人的所有表情图像作为训练样本，交叉验证M次，其中M为表情数据库中人的个数。这种样本选择方式可以用来评价分析人脸识别时不同表情变化对识别系统的影响。

本文采用中心最近邻分类器进行表情识别，具体步骤参考文献［15］，文中不再详述。实验仿真包含以下3个方面内容:1)改进HOG算子的有效性验证;2)基于人眼视觉信息处理机制的各向异性扩散滤波有效性验证;3)本文算法对噪声的鲁棒性分析。

4.1 改进HOG算子有效性验证

首先，与原始HOG算子［7］比较。设置原始HOG算子的cell大小为8×8(pixels)，block大小为 2×2(cells)，将 0°～180°划分9个方向区间，用一维中心对称模板［-1 0 1］来计算每个像素点的梯度幅值和方向;设置改进HOG算子的cell大小为16×16(pixels)，block大小为 4×4(cells)，0°～180°仍然分为9个方向区间，采用canny模板代替一维中心对称模板计算每个像素点的梯度幅值和方向。在JAFFE数据库上的仿真结果如表1所示。

表1 JAFFE数据库的原始HOG算子与改进HOG算子识别效果比较

从表1可以看出，改进的HOG算子相比原始HOG算子在两种分类模式下，其识别率均有明显提高，L-O-Sub-O模式提高了5.56%，L-O-Sap-O模式提高了5.55%;从算法的运行时间看，改进HOG算法的特征提取时间和分类时间均远远小于原始HOG算法的运行时间。这是由于改进的HOG算法中，将每个cell的尺寸扩大了4倍，得到的特征向量长度会相应降低75%，更有利于特征提取和分类。由此可见，相比于原始HOG算子，改进的HOG算子大大降低了特征维数，减小了冗余信息的干扰，减少了算法运行时间，提高了分类准确性，具有较好的实时性。

其次，与 LBP 算子［5］、Gabor小波变换［4］比较。这里采用LBP(8，1)算子分别对表情图中8×8=64个子块区域进行特征提取，采用文献［4］中的方法对Gabor小波变换结果降维，得到Gabor特征。以JAFFE数据库为例，采用L-O-Sap-O分类模式进行实验仿真，各表情详细识别结果如表2所示。

表2 改进HOG算子与LBP算子、Gabor小波变换的识别效果比较 %

从表2可以看出，在JAFFE数据库下，改进HOG算子相比LBP算子和Gabor小波变换，识别率有近13%的提高。由此可见，文中改进的HOG算子是一种有效的形状描述子，能更准确地描述人脸表情特征。

4.2 具有人眼视觉特性各向异性扩散滤波有效性验证

在JAFFE数据库中进行实验仿真，首先采用原始各向异性扩散滤波和改进各向异性扩散滤波进行去噪预处理，再利用改进HOG算子提取表情特征，分类结果如表3所示。两种滤波器的参数设置如下:原始各向异性扩散滤波的迭代次数为9次，梯度阈值K=5;改进各向异性扩散滤波的迭代次数为3次，梯度阈值K=10，常数系数α=0.8。

表3 JAFFE数据库中原始各向异性扩散滤波与改进各向异性扩散滤波的识别率比较 %

从表中可以看出，因改进各向异性扩散滤波比原始各向异性扩散滤波更能有效区分噪声和细节，使得表情信息尽可能完整，在此基础上利用改进HOG算子提取表情特征和分类，两种分类模式的识别率均有提高。由此可见，文中提出的具有人眼视觉特性的各向异性扩散滤波与改进HOG算子的组合是一种有效的表情识别算法。

4.3 本文算法的噪声鲁棒性能分析

为进一步研究本文算法对噪声的鲁棒性，对JAFFE数据库中的人脸表情图像分别加入方差为0.01的高斯白噪声和噪声密度为0.05的椒盐噪声，分别采用原始各向异性扩散滤波和改进的各向异性扩散滤波方法进行去噪预处理，用文中改进HOG算法进行表情特征提取和分类，实验结果如表4所示。

从表4可以看出，因受高斯白噪声和椒盐噪声的影响，图像质量变差，改进HOG算子的识别率急剧下降，尤其是在L-O-Sap-O分类模式下，识别率下降近23%，这表明HOG算子对噪声的鲁棒性较差。若在特征提取之前，先采用原始各向异性扩散滤波或文中提出的改进各向异性扩散滤波对加入噪声的图像进行滤波预处理，识别率均有明显提高。由此可见，当图像质量较差时，预处理工作将显得尤为重要，并且从识别率上可以看出，改进的各向异性扩散滤波比原始各向异性扩散滤波去噪效果更佳。

表4 不同噪声下原始各项异性扩散滤波与改进的各向异性扩散滤波识别率比较 %

5 结论

本文针对人脸表情识别中预处理和特征提取两个步骤进行改进，提出一种有效的、具有一定噪声鲁棒性的人脸表情识别算法。

首先，提出一种基于人眼视觉信息处理机制的各向异性扩散滤波方法，该方法利用人眼在不同的亮度背景下对亮度差的敏感性不同修正扩散系数。与原始各向异性扩散滤波方法相比，该算法在有效去除噪声的同时，能更好地保留图像的边缘信息和纹理细节信息，保证了表情信息的完整性。

其次，采用能够很好地表征图像边缘信息的HOG算子提取人脸表情特征，并修改梯度算子，合理设置参数，大大降低特征维数，有效消除冗余信息的干扰，提高识别效率，具有实时性。

在JAFFE数据库上的实验仿真结果表明，与传统的LBP算子和Gabor算子相比，文中改进的HOG算子是一种有效的形状描述子，能更准确地描述人脸表情特征。且对于加入了高斯白噪声和椒盐噪声的表情图像，相比于原始各向异性扩散滤波方法，文中提出的具有人眼视觉特性的各向异性扩散滤波有更好的滤波效果，抗噪声性能更强。因此，对于降质图像，本文提出算法可以有效区分噪声和表情信息，且准确提取特征，是一种有效的人脸表情识别算法。

［1］ SONG K T，CHIEN SC.Facial expression recognition based on mixture of basic expressions and intensities［C］//Proc.2012 IEEE International Conference on Systems，Man，and Cybernetics.［S.l.］:IEEE Press，2012:3123-3128.

［2］ ZHAOLihong，YANGCaikun，PAN Feng，et al.Face recognition based on gabor with 2DPCA and PCA［C］//Proc.2012 24th Chines Control and Decision Conference.［S.l.］:IEEE Press，2012:2632-2635.

［3］ BECKMANN C F，SMITH S M.Probabilistic independent component analysis for functional magnetic resonance imaging［J］.IEEE Trans.Med.Imaging，2004(23):137-152

［4］阮锦新.多姿态人脸检测与表情识别关键技术研究［D］.广州:华南理工大学，2010:64-83

［5］ OJALA T，PIETIKAINENM，HARWOODD.A comparative study of texture measures with classification based on feature distributions［J］.Pattern Recognition，1996，29(1):51-59

［6］ GENG Cong，JIANG Xudong.Face recognition using SIFT features［C］//Proc.2009 16th IEEE International Conference on Image Processing.［S.l.］:IEEE Press，2009:3313-3316.

［7］ DALA N，TRIGGS B.Histograms of oriented gradients for human detection［C］//Proc.IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition(CVPR'05).San Diego，CA，USA:IEEE Press，2005:886-893.

［8］李丽萍.图像去噪方法研究［D］.武汉:长江大学，2012.

［9］ PERONA P，MALIK J.Scale space and edge detection using anisotropic diffusion［J］.IEEE Trans.Pattern Analysis and Machine Intelligence，1990，12(7):629-639.

［10］严哲，顾汉明，蔡成国.基于各向异性扩散滤波的地震图像增强处理［J］.石油地球物理学报，2013，48(3):390-394.

［11］陈金林，刘谢进.基于异性扩撒方法的数字图像水印研究［J］.计算机应用与软件，2013，30(7):151-153.

［12］付丽娟，姚宇，付忠良.中值滤波与各向异性扩散相结合的医学图像滤波方法［J］.计算机应用，2014，34(1):145-148.

［13］ FERWERDA J A.Element of early vision for computer graphics［J］.IEEE Computer Graphics and Applications，2001，21(5):22-33.

［14］ MARIOSK，ANASTASIOST，IOANNISP.Salient feature and reliable classifier selection for facial expression classification［J］.Pattern Recognition，2010(43):972-986.

［15］付晓峰.基于二元模式的人脸识别与表情识别研究［D］.杭州:浙江大学，2008.

［16］ DENIZ O，BUENO G，SALIDO J，et al.Face recognition using histograms of oriented gradients［J］.Pattern Recognition Letters，2011(32):1598-1603.

［17］ SONG Fengyi，TAN Xiaoyang，LIU Xue，et al.Eyes closeness detection from still images with multi-scale histograms of principal ori ented gradients［J］.Pattern Recognition，2014，47(9):2825-2838.