陈 斌,东一舟,朱晋宁
(南京师范大学 信息化建设管理处,江苏 南京210046)
人脸识别有着极其广阔的应用前景,由于其无侵犯性,操作较为隐蔽,可交互性好[1],近年来对其研究逐渐成为主流焦点。目前针对受控场景下的人脸识别研究已经较为成熟并获得了较好的效果,同时也已经在部分领域推广产品化应用。然而受光照、遮挡、表情、姿态、图像质量等因素影响,非受控场景下的人脸识别技术还处于发展初期,由于其环境条件复杂、训练样本要求高、算法难度大、鲁棒性差、识别率低,目前仍是计算机视觉及模式识别领域中有待深入研究和攻克的难题。自20年前首例将主成分分析法(Principal Component Analysis,PCA)[2]引入人脸识别研究领域以来,随着特征提取技术手段的不断发展,各类经典方法也不断推陈出新,判别分析[3]、稀疏误差字典学习[4]、联合辅助字典学习[5],鉴别稀疏保持[6]等方法持续为人脸识别研究中遇到的问题提供各种解决手段。
当前人脸识别的主要思路是通过对面部有辨识性的特征进行提取并加以训练,进而得到分类器样本进一步完成辨别分类工作。对于非受控场景下图像质量不佳,光照无法保证,遮挡情况严重,姿势变换频繁等因素,其最为核心的要素可以归纳为对两类问题的解决:如何提取人脸主要特征成分的纯净低秩信息与干扰稀疏信息加以表示,以及如何对提取出的高维矩阵进行降维。
为进一步提高非受控场景下的人脸识别率,降低非受控场景下干扰因素的影响,本文提出了以主成分稀疏表示方法对人脸特征进行表征,并采用低秩分解方式减少各种干扰因素对图像造成的影响,降低聚合相关性的方法。本文通过将图像向低秩子空间进行投射并转换为稀疏表示的方式来完成识别,并通过低秩分解将噪声影响减小,从而增加了识别效果的健壮性和鲁棒性。
一般人脸识别包含人脸检测、预处理、特征提取、分类识别和身份确认这5个主要阶段,基本流程如图1所示[7]。人脸识别属于模式识别的范畴,其主体工作思路步骤如下:第一步对样本库的图像进行预加工,提取其关键特征,减少图像信息的数据量,也就是进行图像数据的降维处理,从而获得对应图像的特征向量,以此为基础建立样本向量分类库。第二步对待识别图像重复进行类似操作,继而获得待识别图像的特征向量。第三步使用提取出的待识别图像的特征向量与样本库中特征向量进行匹配,检索有无满足匹配的情况。所谓非受控场景下的人脸识别,指的是在待检测对象自身未知并无刻意干涉的条件下被执行的,通过对其图像进行识别从而完成对其身份进行确认的过程。由于同受控场景下的人脸图像相比非受控场景下的图像质量差,存在不同程度遮挡,姿态角度变化大,光照无法保证等情况,造成非受控场景的人脸识别面临巨大的障碍。
目前针对非受控条件下的人脸识别主要有4类方法:基于图像修复手段的遮挡人脸识别算法;基于局部特征分析手段的遮挡人脸识别算法;基于鲁棒性估计方法的遮挡人脸识别算法;基于稀疏表示方法的遮挡人脸识别算法[8]。第一类方法原理是从未被遮挡区域提取灰度值,进而对邻域遮挡区域进行修复,该方法在小范围遮挡情况下识别率较高,但在较大遮挡情况下识别成功率会大幅衰减。第二类方法原理是对各个区域的特征进行抽取,各自设置不同的权重,但由于加权过程本身具有随机性,所以识别效果较难达到预期。第三类方法原理是利用机器学习方法,以无遮挡区域为基础,对邻域有遮挡区域进行估算,由于其噪声敏感性强,对训练样本要求又非常高,所以应用可行性较差。第四类方法的原理是依据图片的稀疏表示结果对其进行判别和分类,该方法对空间相关性的遮挡识别效果较好,但对于连续性遮挡的识别效果较差。
非受控场景下由于受到光照、遮挡和姿态的影响,人脸识别的效果无法保证,这三者也是导致非受控场景下识别效果差的最主要的3个因素。通常对于这3个影响因素分别进行处理,以期达到集成处理效果。由于人脸图像采集场景受光照条件的影响,即便同一个人,在不同的灯光照射条件下成像效果也会有非常大的差别。对于光照影响的处理方式一般为通过光照补偿预处理提升图像人脸的可识别率,主流的光照补偿预处理方法有以下几种:(1)依托图像再加工技术修正,例如直方图均衡化处理,直方图合规化处理,以及Gamma灰度校正处理[9];(2)依托光照模型修正,例如单尺度或多尺度自商图像光照预处理[10];(3)子空间分析修正。对于遮挡和姿态变化的影响一般采用图像合成重构手段来解决,具体常用方法有Mulit-View集成方法[11]以及3D建模重构的方法[12]。
基本的人脸图像表示方法为通过提取图像的所有像素点,并按照灰度值进行行列级联向量表征。但对于非受控场景下的图片,光照、遮挡和姿态等因素使得其图像的灰度值变化非常大,如果直接进行像素点行列级联表征,将会使得识别准确率迅速衰减,极不稳定。所以通常在非受控场景下一般都是采用捕捉图像的基于频域或者小波域的特征对人脸进行表示,比较重要的有傅里叶变换[13]、离散余弦变换[14]、离散小波变换[15]及Gabor小波变换[16]。人脸识别的最重要基础,是对待检测人脸特征的提取。在非受控条件下进行人脸识别,优秀的特征表征方法应当是能够在外部环境影响和变化较大的背景下,依然能够分辨出待检测个体之间的本质差异,也只有鲁棒性和健壮性都符合要求的表征手段才可能满足非受控场景下多变的需求。
图1 人脸识别主要阶段框架流程图Fig.1 Frame flow chart of the main phase of face recognition
主成分分析是一种统计方法,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫做主成分。稀疏表示即如何通过最小数量的系数集合尽可能更多的描述信号的能量,也可以视为信息的容量。不同类型的信号,其在不同变换模式下系数的分布会不同。由于主成分分析的对象即主成分是数据变量的线性组合,当进一步需要对主成分进行分析和解释时,便无法表示每一个主成分对应的具体特征。主成分稀疏表示方法便是为了解决此问题而演进得出的一个算法。它会把主成分系数稀疏化解,即对大量干扰系数进行辨识,并将其进行置零转化,通过这一处理,主成分的核心部分就被显性表示。
针对图像识别领域,特别对于面向人脸检测识别方向,将由同一个待测对象的多幅图像组成一组列向量:
Ri=[ki,1,ki,2,…,ki,ni]∈Km×ni,
(1)
其中:m代表图片的特征向量维度,k代表训练集样本列矢量集,待检测对象的训练样本的全局矢量集可以按式(2)表示:
R=[R1,R2,…,RT]=[k1,1,k1,2,…,kT,nT]∈Km×M,
(2)
(3)
其中:s为低秩矩阵S的秩数。利用传统主成分分析方法对R分析求解,理论上可以得到最优解,但实际情况比较复杂,矩阵D通常不满足泊松分布,传统主成分分析方法得出的结果就会有较大的偏差。对于待测图像对象,这种偏差或误差可以用稀疏矩阵表示,进而将问题演化为双目标的优化求解:
(4)
但双目标化带来的直接后果将是高维复杂度,求解效率曲线陡降。为解决该问题,需要在低秩质量和稀疏误差这一对关系相异的目标之间设置最优权重,权重参数由λ表示。于是求解过程演化为:
(5)
通过多次迭代演算,逐步收敛得到最优解。稀疏表示的最佳影射矩阵是按照向量的内联紧密度及外联疏散度来衡量的。训练样本集S由n个单独样本构成,样本集中每个样本的列向量表示为si,假设si属于S的第x种类别,该类别中具备的样本体量为tx。可将内联紧密度定义为:
(6)
其中下列两个集合序列:
Sx=[sx,1,sx,2,…,sx,nx]∈Km×nx,
(7)
(8)
为内联稀疏密度,k代表内联方式。内联紧密度标的表示为:
(9)
(10)
其中下列两个集合序列:
Sx=[S1,S2,…,St],
(11)
(12)
为外联稀疏密度。外联疏散度标的表示为:
(13)
对于非受控场景,受光照变化,遮挡频繁,姿态表情多变等因素的影响,干扰成因复杂,数据噪声种类和体量庞大,关键数据丢失严重。而正是由于各类不可控因素对非受控场景造成的影响,使得在这种情况下内联变化的作用力远超过外联,这也将使得识别效果陡降。为提高非受控场景下人脸识别的准确度,提出了非受控场景下主成分稀疏表示与低秩分解算法相结合的方法。首先对待测样本提取主成分,然后把主成分系数稀疏化解,置零转化,获取到样本对象的主成分低秩矩阵以及稀疏误差矩阵,再通过双目标权重设置,迭代演算形成最终结果。
非受控场景下,光照对成像质量的影响特别明显,在非均匀光照情况下,人脸中的关键特征信息难于捕捉提取,大量光影噪声会对主成分辨识过程产生严重干扰。利用低秩分解对待测对象关键特征及稀疏偏差有较强的分离作用,对低秩矩阵进行离散滤波编码,以增强光照情况下的图像识别处理能力。设备成像处理过程较为复杂,光照变化较大时,落在待测对象,特别是人脸对象上关键信息点的像素值会有非常大的跳变。Lambert光照模型是光源照射到物体表面后,向四面八方反射,产生的漫反射效果,它是一种理想的漫反射光照模型。根据该模型的定义,待测对象特征点的像素值可以表示为P(u,v)=R(u,v)×S(u,v),其中R(u,v)为该点的光照向量,S(u,v)为该点的反射向量。一般情况下,光照向量用来表示待测对象点在光照影响下的全局像素信息,而反射向量则用来表示反映了待测对象点关键本质的纹理信息。由于待检测人脸对象的光照向量变化趋缓,且关键特征并存于同级低秩空间,所以可以使用主成分稀疏表示与低秩分解对图像主成分特征和光照影响噪声进行低秩分离。由于在连续光照背景下的多幅面部成像之间进行低秩分量的分解,光照影响会被削弱,所以光照边缘误差也会降低,进而反射向量中面部关键信息会增多。对待检测对象进行低秩分解,形成面部低秩矩阵图像。以Ps作为面部对象P在(u,v)像素点上对应的像素值,由此可以得出:
(14)
式(15)为P(u,v)的低秩阶梯增量:
(15)
式(16)为点位(u,v)的反正切阶梯向位:
(16)
K=[ls1,ls2,…,lsx]为x张待测对象的集合,lp∈Sm(i=1,2,…x)为低秩阶梯增量递进拼接而成的m维向量。低秩分解终极目标就是对下式求最优解:
MinRank(R)+η‖Q‖0,s.t.K=R+Q,
(17)
其中:R为K的低秩光照向量,Q为K的稀疏反射向量。为了将问题线性简化,可以对上面问题进行凸最优化处理,计算过程转换为:
Min‖R‖*+η‖Q‖1,s.t.K=R+Q,
(18)
根据增广拉格朗日乘子法(Augmented Lagrange multiplier,ALM)可以获取上述凸最优化处理范式的目标范式:
MinRank(B),s.t.R=B×K.
(19)
上述计算过程及范式与初始低秩分解最优解范式一致,其中R为K的低秩光照向量,Q为K的稀疏反射向量。按照低秩阶梯增量分解并按照光照向量与光照反射边缘稀疏误差相结合计算处理后,主成分稀疏表示与低秩分解算法表现出了较好的鲁棒性。
同时,在非受控场景下,遮挡和表情变化对成像质量的影响也尤为显著。虽然很多经典算法在人脸识别领域,特别是对脸部关键特征捕捉上,都有着不错的表现。而一旦在非受控开放环境中,存在遮挡和表情变化的场景下,由于受噪声污染的影响,识别效果鲁棒性较差。非受控场景下主成分稀疏表示与低秩分解算法旨在将待检测对象通过算法分解,分离出包含面部关键特征信息的低秩全局数据,以及涵盖遮挡和表情变化等噪声在内的稀疏误差数据。对于非受控条件下存在遮挡和表情变化的场景中,对图像处理最棘手也是最重要的问题,就是对待测高维图像的降维,如何将包含多元复合信息的高维图像数据投射到低维标识空间。主成分分析方法被公认为解决这一问题的最佳途径,然而该方法受噪声影响特别明显,在这种非受控场景中,该算法执行分解后面临的将是NP问题,需要再对其进行核范数转化。对数据集当中的数据按照职能轻重划分为关键数据集与关联数据集,与内联紧密度及外联疏散度似而不同,它们可以分别进行训练,并将分解结果直接用于对低秩子空间的初始化,并建立关键字典和关联字典,从而高效精准的对主成分和干扰信息进行分类提取。
对不同人脸对象以及同一人在不同表情和遮挡程度情况下的分类,其本质上是相同的。在对人脸的关键点,例如双眼,眉毛,鼻子,嘴巴,耳朵之间的欧氏距离的计算和对比,并增加内联相关性作为正则表达式的附加项,将对识别效果产生积极的影响。训练集中的所有图片都需要被向量化处理为N个类别,单类别向量u可以用该类别的成员集合来表示:
(20)
其中:pi为第i列向量,pi∈Sz×1,S为全局向量集,z为行秩。这里假定每个单类pi映射于相同的秩空间,投射关系表示为Ui∈Sz×ki,单类别向量u向ki维的秩空间投射关系表示为Vi∈Ski×z,可以得出:
pi=UiViu,
(21)
设置非控场景噪声项n∈Sz×1,上式演变为:
(22)
其中式(23)是互为稀疏误差关系的组向量,其数值表示了u的具体分类:
[(V1u)I,(V2u)I,…(VNu)I,]I,
(23)
另外,增设了以下排除向量间的面部共性关键点的系数:
(24)
最终的目标范式可以定义为:
(25)
(26)
在训练构建的基础上,进一步整合优化目标范式为:
(27)
(28)
基于该主成分稀疏表示与低秩分解算法作用下,受控场景下存在表情变化和部分遮挡的情况可以得到较好的处理。
通过实验验证非受控场景下主成分稀疏表示与低秩分解算法对人脸识别的准确度。本实验使用的是自构建基础人脸库NNUFD(NNU Gace Dataset)作为实验数据源,实验通过核心机房基础信息系统平台库采集的数据为支撑,实验环境基础配置为:八核4.8 GHz×8CPU,256 GB内存,32TB硬盘,双200 GB/s网卡的机架型服务器。虚拟机操作系统选择了64位的Linux,虚拟机最大并发数为1 024台,开发工具为PhCharm2018.2.5。NNUFD人脸库是根据测试实验对象而遴选的,该实验中库容量为404个人每人一张照片共404张照片,全部以正面光照良好的标准照为样本构成的样本集,并且来源均为同一采集环境,摄像器材、灯光、角度以及拍摄距离等均保持一致。同时,对基准样本人脸库的图片均进行了统一裁剪,保持为180×240的一致像素。
本实验结合课堂教学环境进行人脸识别效果的测评,因为课堂环境属于非受控情况下具备较好排他干扰因素的场景,该环境特点是连续(待测对象大致位置确定)、光线阴影变化来源单一(正常情况下人员位置固定,光照影响情况突变性较小)、遮挡和表情变化情况简单(主要为低头、侧脸、托腮等小范围动作),混合干扰情况少(除了所在位置光照变化以及低头托腮等动作,几乎没有其他遮挡和光线阴影变化因素)。图2为基础人脸库NNUFD的部分示例,对课堂采样照片通过主成分稀疏表示和低秩分解算法分割,并以基础人脸库为样本进行匹配识别,并将未进行低秩分解的情况与低秩分解后的情况进行比较,以说明低秩分解与主成分稀疏表示方式相结合在非受控场景下所产生影响的重要性。表1给出了低秩分解前后5组实验中识别率数据的比对。
图2 基础人脸库NNUFD示例Fig.2 Example of base face library NNUFD
图3 非受控场景下通过主成分稀疏表示与低秩分解算法的识别结果Fig.3 Recognition results of principal component sparse representation and low rank decomposition algorithm in uncontrolled scence
图3为教室授课非受控场景下通过主成分稀疏表示与低秩分解算法的识别结果,将识别到并与基础人脸库NNUFD匹配的人脸进行框选,并将身份识别号(学号)显性标识。分别针对是否叠加低秩分解和各类干扰因素设置了5组实验,从实验结果来看,在非受控场景下通过主成分稀疏表示叠加低秩分解的识别效果对光照变化影响的鲁棒性较强,对遮挡情况受到的影响相对明显。从不同实验场景结果来看,光照阴影因素对该算法的识别效果干扰非常小,一旦存在遮挡,特别是严重遮挡情况,致使图像呈部分不完整呈现时,识别效果陡降。从图像中人脸位置角度比较,前排较近人脸和后排较远人脸的识别率比较而言,该算法也具备较好的稳定性,识别效果没有明显的变化。表2给出了5组实验中存在干扰和非存在干扰情况下,光照、遮挡和位置改变情况对实验识别率所造成的影响。
表1 主成分稀疏表示与低秩分解叠加前后实验效果比对
Tab.1 Comparison of the effect of the principal component sparse representation combine the low-rank decomposition superposition
实验组序号是否进行低秩分解已进行低秩分解识别率/%未进行低秩分解识别率/%实验组191.179.3实验组290.579.5实验组390.983.1实验组490.976.9实验组592.481.3
实验在多种场景下进行了测试,测试结果显示,总体识别正确率最高达到92.4%,而未结合低秩分解方法的情况下,总体识别正确率最高只能达到83.1%。由此可见,主成分稀疏表示结合低秩分解的人脸识别算法在非受控场景下达到了较好的效果。
除了对教室授课非受控环境进行了验证,同时也对开放型非受控场景进行了实验,主要通过校园监控,机房监控,宿舍闸机监控等调取的图片进行了对比分析。所得到的实验结果与教室实验环境相比,识别正确率有一定的降低,这主要不取决于监控对象在照片中成像的进深,而是受到各种遮挡情况影响的概率较大所致。
表2 干扰因素对主成分稀疏表示与低秩分解叠加的影响Tab.2 Influence of interference factors on principal component sparse representation combine the low-rank decomposition superposition
本文使用基于主成分稀疏表示结合低秩分解的算法对非受控场景下的图片进行人脸识别,基于场景图片分解结果与基础人脸库进行比较得到匹配结果。实验结果显示,该方法可以有效的检测到非受控场景下的人脸,同时总体识别正确率最高可以达到92.4%。该算法针对遮挡情况较严重的场景下识别正确率较低,作为应用型识别算法而言,普适场景下混合复杂模式的识别效果才是最终目的,这也是下一步该算法研究改进的方向。