韩肖,马祥
(长安大学 信息工程学院,陕西西安 710064)
近年来,表情识别[1-3]成为人脸识别的研究热点之一,而表情更容易因各种噪声污染导致难以被准确识别。因此,研究对噪声具有鲁棒性的表情识别方法具有重要理论意义和研究价值。
人脸表情识别主要由人脸检测、特征提取和表情识别组成[4]。其中,特征提取最为重要,但特征提取过程容易受噪声等条件影响而导致人脸特征信息丢失[5-6]。文献[7]提出了一种基于深度学习和完整局部二值模型的表情特征提取方法,该方法能够提取更深层次的特征。而基于深度学习的表情特征提取方法非常耗时[8],所以基于低秩表示和稀疏表示的特征提取方法[9-12]更受关注。文中利用图像的局部和全局特征,并基于低秩稀疏表示和低维映射约束提出了一种具有鲁棒性的表情特征提取方法。
基于低秩表示的方法通过对样本矩阵施加低秩约束来增强表示系数之间的相关性,从而获得人脸图像的整体结构特征。低秩稀疏表示模型如式(1)所示:
其中,X=[x1,x2,…,xn] 且X∈Rm×n表示训练集,A表示字典矩阵,D=[d1,d2,…,dn],其中,di表示样本xi的权重,‖ ‖∙2,1表示L2,1范数,‖E‖2,1=E表示噪声矩阵,λ、β是平衡参数且λ>0、β>0。
文中提出了一种基于低秩稀疏表示和低维映射约束的表情特征提取方法,引入标签信息将该方法扩展到有监督场景。对低维映射矩阵施加L2,1范数,从而提高该方法对含噪数据和离群数据的鲁棒性。
受低秩稀疏表示方法的启发,文中引入了一个二进制标签矩阵Y=[y1,y2,…,yn]∈Rc×n,其中,c为训练样本的类的数量;yi=[0,0,0,…1,…,0,0,0]T∈Rc,为标签向量。文中方法的模型如式(2)所示:
式中,P表示低秩投影矩阵,Q表示低维映射矩阵,D是重构矩阵,||D1||*和||D2||2,1分别表示重构矩阵的低秩矩阵和稀疏矩阵,||QTX-Y||2,1表示分类误差,E是重构误差矩阵,I是单位矩阵,λ1、λ2、λ3分别是Q、D2和E的平衡参数。通过使用P和Q约束低秩稀疏表示的重构矩阵D,可同时保留数据的全局结构和局部结构。具体来说,利用Q可将原始高维特征空间投影到低维判别空间中,从而获得判别特征QTX。引入标签信息Y,学习产生的判别特征QTX。将PQTXD作为一个整体处理,可使特征提取过程中P、Q、D相互促进,从而提取出更多判别特征。通过添加核范数和稀疏范数,可以避免式(2)出现平凡解。文中使用ADMM 方法求解所提出的算法。将式(2)转换为拉格朗日函数形式:
其中,Y1、Y2和Y3为拉格朗日乘数因子,γ>0是惩罚因子。P、Q、D、D1、D2、E、Y1、Y2、Y3和γ根据式(3)不断迭代更新。当目标函数达到最大迭代次数或收敛时,将获得每个变量的最优解。具体求解过程如下:
1)初始化:Q0=D0=D1,0=D2,0=E0,γ0=0.01,γmax=107,Y1,0=Y2,0=Y3,0=0。
2)更新低秩矩阵D1:
其中,Θ表示奇异值阈值函数。
3)更新低维映射矩阵Q:
其中,E·,j和H3·,j分别是矩阵E和H3的第j列。
6)更新低秩投影矩阵P:
7)更新重构矩阵D:
其中,H4=PQTX,H5=X-E+
8)更新乘数因子Y1、Y2、Y3和惩罚因子γ:
其中,ρ=1.01。
9)利用式(12)进行收敛分析:
其中,ε是收敛阈值且ε=10-6。
通过以上优化过程,训练集和测试集的特征分别表示为式(13)和式(14):
其中,Xt表示测试集图像,Fs和Ft分别表示训练集和测试集的特征集。
文中采用经典的协同表示方法对人脸表情图像进行分类,如式(15)所示:
其中,ωj=(FsTFs+κ∙I)-1FsTFt代表与第j类训练样本相对应的协作系数,式中κ是一个正则化项。
为了验证文中方法的鲁棒性和有效性,在Cohn-Kanade Extend(CK+)、JAFFE 和Labeled Faces on the Wild(LFW)数据集上分别进行实验,并与一些现有方法进行对比。
CK+数据集由327 张人脸表情图像组成,文中从这327 张表情图像中随机选择300 张组成训练集,剩余27 张组成测试集。该数据集中的表情图像经过预处理后的分辨率为48×64。实验中,给预处理后的测试集图像分别添加浓度为10%、20%、30%和40%的椒盐噪声来验证文中方法的鲁棒性。经过预处理及手动添加椒盐噪声后的表情图像如图1 所示,实验结果如表1 所示。
图1 CK+数据集中的表情图像
表1 CK+数据集上的实验结果
由表1 可知,文中方法在大部分情况下优于对比方法,并且随着椒盐噪声浓度的增加,表中所有方法的识别率都会下降。当椒盐噪声的浓度为30%时,文中方法的识别率略低于文献[16]方法,这是因为文献[16]方法可以在一定程度上降低判别信息的损失。该实验结果说明文中方法对噪声具有一定的鲁棒性。
JAFFE 数据集包含了213 张人脸表情图像,文中从这213 张表情图像中随机选取144 张组成实验训练集,剩余69 张组成测试集[17-18]。通过预处理将数据集中的图像分辨率调整为48×64。实验中,给预处理后的测试集图像分别添加均值μ=0、方差σ不同的高斯噪声来验证文中方法的鲁棒性。经过预处理以及手动添加高斯噪声后的表情图像如图2 所示,实验结果如表2 所示。
图2 预处理后JAFFE数据集中的表情图像
表2 JAFFE数据集上的实验结果
由表2 可知,无论是在无噪声还是在添加不同浓度高斯噪声的情况下,文中方法都具有较好的识别性能,这是因为文中方法可以同时保留数据的全局和局部结构,提取更多判别特征,从而提高识别率。
为了验证文中方法在自然场景下的识别性能,在LFW 数据集中随机选择了423 张人脸表情图像作为实验样本集,经过预处理的图像分辨率为100×100。文中从这423 张表情图像中随机选择232 张组成实验训练集,剩余191 张表情图像为测试集。通过给测试集的表情图像添加不同浓度的椒盐噪声和均值μ=0、方差σ不同的高斯噪声的混合噪声来验证文中方法对噪声的鲁棒性。首先,给测试集图像添加浓度为10%和20%的椒盐噪声,然后再给已添加椒盐噪声的表情图像分别添加方差不同的高斯噪声。图3 和图4 为最终处理结果。图5 和图6 为实验结果。
图3 LFW数据集添加噪声后的图像1
图4 LFW数据集添加噪声后的图像2
图5 LFW数据集添加混合噪声的实验结果1
图6 LFW数据集添加混合噪声的实验结果2
由图5 和图6 可以看出,在添加混合噪声的情况下,文中方法仍然具有较好的识别率,甚至远远高于文献[13]方法。总体来说,文中方法对噪声具有良好的鲁棒性。
文中基于低秩稀疏表示和低维映射约束提出了一种具有鲁棒性的人脸表情特征提取方法,在CK+、JAFFE 和LFW 人脸表情数据集上的实验结果证明,当人脸表情图像受到不同种类、不同浓度的噪声污染时,文中方法的识别率仍然具有一定优势,这表明文中方法对噪声的鲁棒性较好。