贺国庆 王 炜
(1 甘肃政法学院公安技术学院 甘肃 兰州 730070;2 甘肃省证据科学技术研究与应用重点实验室 甘肃 兰州 730070)
人脸及其表情识别技术是智能图像处理中的一个重要分支,是安全防范工程中常用的一种技术,在当前严峻的治安形势下,利用监控图像对画面中的人物进行人脸识别和表情检测不失为一种有效手段,尤其是在公安技术中[1],利用测谎仪对受测者进行测谎时,通过直接物理接触(主要指皮肤接触)方法对受测者采集生理信号时,往往会由于受测者对测谎设备的抵触、紧张等原因增加测谎的失误率,若能以视频图像分析为辅助,将对测谎的有效性具有重要帮助意义。
在一个完整的表情识别系统中,表情特征提取是人脸表情识别过程中一个重要组成部分,表情特征的有效性直接决定着表情识别的准确性,它对整个表情识别系统有着决定性的作用。在表情特征提取方法中,基于静态表情纹理提取法是其中最主要的一种,常用的静态纹理特征提取方法主要有基于小波提取方法[2]和基于局部二元模式(Local Binary Pattern,LBP)提取方法[3-4]。基于小波的方法能以人类视觉方法较好的提取纹理特征,但该方法对内存和时间的要求较高,不利于实时系统的建立;利用LBP方法以及它的改进方法由于其简便性也被常用于表情特征提取。然而不管是基于小波方法还是基于LBP的方法,都存在提取到的特征维数过高的问题,针对此问题,提出一种降维算法,该算法将图像欧式距离(Image Euclidean Distance,IMED)嵌入于LLE(Local Linear Embedding)方法中,得到一种改进的特征提取方法。
对于一个完整的图像识别系统来说,源图像的选择和预处理是必不可少的工作,本文中所用的实验图像均来源于日本女性人脸表情库(JAFFE),该表情库中的人脸图像尺寸大小一致,没有过多背景干扰,已经被多种人脸及表情识别的研究作为源图像,是学术界公认的适合用作于亚洲人脸表情图像识别的实验源图像。为减少由于光照、噪声等因素的影响,在对图像进行特征提取前,对表情图像进行灰度归一化处理,完成归一化处理后利用灰度积分投影[5]的方法得到人脸表情图像。根据灰度积分投影方法原理,若图像不同区域中有较明显的灰度变化,则投影曲线也将会发生跃变,形成波峰或波谷,这对于表情图像中特征点的位置的确定,尤其是眼球的坐标很有帮助。为能获取最佳的包含有表情的人脸,本文中利用二次灰度积分投影的方法实现人脸的精确检测和定位。
第一次灰度投影是对整个含有人脸表情图像进行积分检测,分别对垂直方向和水平方向上进行积分投影,得积分投影曲线如图1~2所示。图中标记的位置分别是原始图像水平方向(脸颊部位)坐标和原始图像垂直部位(眼眼睛部位)坐标,由此根据人脸的五官比例得到较为准确且完整人脸图
对第一次灰度积分投影定位得到的图像再次进行积分投影,得到的积分到投影曲线如图3~4所示。获得鼻梁水平位置的坐标(即得眼部水平方向坐标)及眼睛部位的精确垂直方向的坐标,利用已得出的人脸中轴线和图像中眼睛部位的垂直坐标,再次按照人脸五官比例裁剪即可得到精确的人脸表情图像。
最后进行尺寸的归一化处理,分别得到不同尺寸的表情图像,用以后续实验作对比。图像预处理示意如图5中第二次积分投影确定图像所示。
图1 人脸垂直积分投影
图2 人脸水平积分投影
图3 眼部坐标垂直投影
图4 眼部坐标水平投影
图5 图像预处理裁剪
原始的LBP方法[6]是利用一个算子模板,将算子模板中心的像素的像素值与周围像素的像素值作简单比较,大于等于中心像素值的标记为1,小于中心像素值的标记为0,然后按照顺时针或逆时针得到一组二进制数,这组二进制数即是算子模板中心原像素点的LBP值,对整幅图像中每个像素点都用此模板操作,得到整个图像的LBP码,将由LBP码组成的直方图为本幅图像的LBP特征,如公式(1)所示:
其中,P代表算子模板中与中心点的近邻点的个数,R代表模板中近邻点与中心点的半径,是中心像素点)的近邻点,定义如下:
局部定向模式(Local Directional Pattern,LDP)[7]算法,是对LBP算子的改进,与LBP算法相比,LDP对于光照和噪声具有更好的鲁棒性。以一个固定为3×3的模板算子为例,一共有9个灰度值,利用Kirsch算子对中心像素点周围的8个像素点进行计算,得到每个不同方向上的Kirsch值,记为。然后依次选取k个较大的值作为主要特征值,并将这k个灰度值赋值为1,其它的赋值为0,得到一组二进制数。这个二进制值即为该3×3算子模块中心值的特征值,记为该点的值,如公式(2)所示:
图6 LBP和LDP方法提取到的图谱
在各种分类方法的计算过程中,样本距离的计算常常是必不可少的,对于图像识别来说,最简单的方法莫过于将不同图片按照像素点灰度值进行逐个比较,但这种方法往往会因图像的轻微变动而造成两张相似图片得到较大距离,从而造成误判。基于此考虑WANG L等人提出图像欧式距离[8],该方法与传统方法计算利用公式(3)得到的欧氏距离不同,它在进行图像对比时将图像灰度值所对应的位置考虑进去,利用公式(4)得到图像欧式距离
由IMED方法的原理可见,它能减少由于图像的轻微变形或扰动造成的比较误差,尤其是对于表情图像识别时同一表情表现程度不同而形成的纹理的比较,效果尤为明显。但在进行图片分类识别时,若完全以整个图像的灰度值作为特征分类,即使利用IMED方法,也会出现特征信息量严重冗余,分类方法复杂度指数增加等问题,造成分类错误。基于此,需要有一种降维方法提取出有效的分类特征,而流行降维是一种通过局部线性关系的联合来解释全局非线性结构的非线性降维[9]方法,对于解决人脸识别与表情识别这一类具有较多相似性图片的分类问题有较好的效果。
本文利用LLE[10]方法,它是流形方法的其中一种,其基本思想是:在一个样本空间中,对于其中任意一个样本点来说,都可以用其周围有限个样本点来线性表述,在计算的过程中得到一个能最佳重构原样本的权值向量,从而将样本从高维空间变换到低维空间。
采用LLE方法将表情特征从高维向量空间变换到低维空间,即可得到各种表情的本质几何特征,但考虑人脸的非刚体性等特点,为得到更好的表情特征,实现较好的识别率,将图像欧式距离方法与LLE方法结合。
嵌入图像欧式距离的LLE特征提取方法具体过程描述如下:
(1)获取含有高维表情特征的样本X。利用公式(1)和(2)得到每张表情图像的LBP和LDP图谱,由此得到训练样本集合
(2)将图像欧式距离嵌入到高维表情图谱中。由(5)公式可知, 的计算方法与图像中像素的灰度值无关,只和图像中像素点的坐标位置有关系,即只与图像大小有关系,所以 可以被事先计算好。为提高实际使用中的计算效率,Liwei Wang,Yan Z hang等人提出一种ST(Standardizing Transform)的变化方法,用以计算,从 而避免不必要重复的计算。将分解为与分别是的特征向量和特征值。由此原始图像变为:
则图像欧式距离变为:
由(7)公式中可以看出,高维特征图像经过变换后作为特征提取时,就相当于将IMED方法嵌入了,也就是说不用等到提取特征时再嵌入IMED,从而避免了重复计算,提高计算效率。本步骤实际是对LBP及LDP图像嵌入IMED,为更明显体现视觉效果,对未做基本纹理提取的原图像嵌入IMED,如图7所示。
图7 嵌入IMED前后图像对比
选择JAFFE图库中7种表情,每种30张共210张人脸表情图像,对这些表情图像按照文中的方法进行预处理,分别得到分辨率为64×64,48×48,2×32,16×16大小的图像。对得到的不同分辨率的表情图像分别用LBP、LDP方法提取得到高维表情特征,然后分别再用改进前与改进后的LLE方法对已经提取的高维特征进行降维,最后用最近邻方法分类[11]。基于不同方法和不同分辨率表情识别得到的识别率如图8~11所示。
整体分析图中的识别率曲线,利用LDP提取纹理特征的方法得到的识别效果要好于LBP方法,说明LDP方法在一定程度上优于LBP方法。
图8 16×16分辨率表情识别率曲线
图8中,16×16分辨率图像的表情识别率曲线中,LBP+IMLLE方法得到的效果最好,在不同维数情况下(60~140),识别率较稳定(70%~75%),鲁棒性较强,LDP+IMLLE方法在降维后维数为80左右得到的表情识别率接近于LBP+IMLLE方法。
图9 32×32分辨率表情识别率曲线
图9中,32×32分辨率图像的表情识别率曲线中,LDP+IMLLE方法的效果与使用像素为16×16分辨率的图像相比,有明显提高,使用LBP+IMLLE方法得到的识别效果与于LDP+LLE方法得到的效果相近,但均高于未改进前的方法。
图10 48×48分辨率表情识别率曲线
图10中,48×48分辨率图像表情识别率曲线中,同32×32相比,LDP+IMLLE方法最高识别率高于80%。
图11 64×64分辨率表情识别率曲线
图11中,64×64分辨率图像表情识别率曲线中,与48×48,32×32相比,最高识别率有所下降,但不同维数情况下识别率保持稳定,尤其是LDP+IMLLE方法在维数为60~130情况下基本保持在75%以上,这对不同情况下选取降维后的维数是重要的参考依据。
综上所述,可以看出:
(1)利用LDP方法得到的表情识别效果要好于LBP方法得到的识别效果,这种情况在图9~11中表现的尤为明显,其识别率要高出近8%~10%。
(2)嵌入IMED的LLE降维方法得到更为稳定的识别率,尤其是在图8、9、11中,最为明显在维数为60~130均保持在一个稳定的范围内,这对于多样本降维过程中低维维数的确定提供了一种较大的选择范围,同时也说明嵌入IMED方法的LLE对于人脸表情识别过程中的降维具有更好的效果。
(3)文中提出的嵌入IMED方法的LLE算法在对LBP及LDP图谱做表情识别时好于ZI-LU YING等提出SLLE+LBP的表情识别方法[12]。SLLE+LBP方法得到的最高识别率为71.5%,而本文中无论是基于LBP还是基于LDP图谱的方法得到的识别率均高于此值。
本文所有实验的代码运行均是利用MATLAB2010a软件完成,硬件平台是英特尔酷睿i5处理器(2.9GHz),4G内存的PC机。
本文对表情识别系统中特征提取的降维方法提出了一种改进算法,在原有的局部线性嵌入方法(LLE)的基础上,将图像欧式距离(IMED)嵌入其中。对不同分辨率的表情图像分别提取LBP和LDP特征,利用改进后的降维方法得到低维表情特征,利用低维特征对不同的表情分类。对实验数据进行分析,表明改进后的方法提取到的表情特征更加稳定。该方法可作为微表情识别及表情测谎中的表情特征提取的重要参考。
参考文献:
[1] 肖军.人脸识别技术在追逃工作中的应用现状与展望[J].刑事技术,2016(2):137-141.
[2] 牛连强, 赵子天, 张胜男. 基于Gabor特征融合与LBP直方图的人脸表情特征提取方法[J]. 沈阳工业大学学报,2016(1):63-68.
[3] Ji Y, Idrissi K. Facial Expression Recognition by Automatic Facial Parts Position Detection with Boosted-LBP[C]//IEEE.IEEE International Conference on Signal-Image Technology& Internet-Based Systems (SITIS). Washington DC:IEEE Computer Society,2009:28-35.
[4] 姜锐,许建龙,张爱朋.基于改进LBP的人脸表情识别[J].浙江理工大学学报,2013(4):546-549.
[5] 马艳妮,耿国华,周明全,等.脸部特征点的定位与提取方法[J].计算机工程与应用,2009(18):167-170.
[6] Ojala T,Pietikainen M,Maenpaa T.MultiresolutionGray Scale and Rotation Invariant Texture Analysis with Local Binary Patterns[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002(7):971-987.
[7] Taskeed Jabid,Md Hasanul Kabir,Oksam Chae.Local Directional Pattern (LDP)-A Robust Image Descriptor for Object Recognition[C]//IEEE. IEEE International Conference on Advanced Video and Signal Based Surveillance(AVSS).Washington DC:IEEE Computer Society,2010:482-487.
[8] WANG L,ZHANG Y,FENG J. On the Euclidean distance of image[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005(8):1334-1339.
[9] 马瑞,王家廞,宋亦旭. 基于局部线性嵌入(LLE)非线性降维的多流形学习[J]. 清华大学学报(自然科学版),2008(4):582-585.
[10] Roweis S,Saul L.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000(5500):2323-2326.
[11] 祝磊,朱善安.基于2维保局投影的人脸识别[J].中国图象图形学报,2007(11):2043-2047.
[12] Ying Z L,ZHANG Y W,Li J W. Manifold Learning Approach to Facial Expression Recognition on Local Binary Pattern Features[C]//IEEE.IEEE International Conference on Machine Learning and Cybernetics.Baoding:IEEE,2009:405-410.