李利民,刘明辉
(中国电子科学研究院,北京 100041)
工程与应用
基于机器学习算法的人脸识别鲁棒性研究
李利民,刘明辉
(中国电子科学研究院,北京 100041)
在现代公安警务工作中,人脸识别是智能化目标人物排查、线索追踪的重要支撑技术。在实际应用中,公安布控人脸图像采集通常处于非合作场景。在环境因素的作用下,采集的图像相比于标准库中人脸图像往往发生噪声叠加、曝光异常以及运动模糊等降质褪化。因此,人脸识别算法的鲁棒性应当成为其有效性的重要判断依据之一。鉴于上述考虑,本文研究了几种典型机器学习算法在不同图像降质因素作用下的人脸识别性能,进一步分析了上述算法的鲁棒性。
人脸识别;鲁棒性;反向传播神经网络;径向基神经网络;广义回归神经网络
近年来,在我国“平安城市”建设的持续发展进程中,公共安防布控的图像及视频采集数据呈爆炸性增长趋势。在这样的背景下,基于海量数据的智能化人物身份识别是支撑社会安全风险防控的重要关键技术,对现代公安警务工作中目标人物排查、线索发现跟踪具有显著的实际意义[1-2]。作为数字图像处理的代表性技术之一,人脸识别是一种利用计算机分析人脸图像,根据图像内在特征识别人物身份的技术。在日常生活中,人脸特征不仅传达着丰富细腻的情感及心理信息,且具有独一无二的生物学特征。由于人脸图像采集具有非接触性、非侵犯性,相对于其他生物特征具有更高的采集效率,因此在学术界及工业界得到了广泛关注。
人脸识别技术的广泛潜在市场价值,促使国内外众多研究机构、科研院所投入大量的人力、物力持续攻关。国外较为著名的研究机构主要包括美国麻省理工大学的人工智能实验室、美国斯坦福大学的视觉实验室、美国加州大学伯克利分校的计算机视觉实验室、法国国家信息与自动化研究所、英国萨里大学的视觉信息与信号处理研究所、瑞士人工智能感知研究所等。国内的相关的研究机构主要有清华大学智能图文信息处理实验室、上海交通大学计算机视觉实验室、中科院自动化研究所和中科院计算研究所等。
完整的人脸识别流程通常依次执行人脸检测、图像分割、图像预处理、特征提取、人脸匹配。其中,人脸检测主要用于检测目标场景中是否存在人脸图像,并进行定位;进而,通过图像分割将相应的人脸区域分离;对于部分人脸图像,尤其是非合作人脸识别过程中的采集样本,图像通常需要进行去噪、灰度平衡等预处理,使待识别图像尽可能接近于数据库样本图像;特征提取目的在于对图像进行具有鉴别性的数学描述,在保证图像类内距离尽量小的前提下,提升类间距离类间距离,同时降低图像表征维数;人脸匹配是指将待识别人脸特征与人脸库进行比对,或将该特征输入训练好的机器学习模型,从而给出人脸识别结果。在人脸识别计算流程中,对人脸特征进行显性描述进而进行识别往往十分困难,而考虑到部分经典机器学习算法中,神经元的连接机制具有强大的非线性拟合能力,可以有效的隐性表征人脸特征。因此,近年来随着人工智能领域不断取得突破,基于机器学习的人脸识别算法受到了广泛关注[3-7]。
然而在实际应用中,人脸图像采集时常处于非合作场景,最典型即为公安布控。此时,在环境因素的作用下,采集的图像相比于标准库中人脸图像往往发生降质,导致识别准确率发生不同程度的下降。常见降质形式包括噪声叠加、曝光异常以及运动模糊等[8-10]。在特征提取及图像识别前,采用图像预处理可以在一定程度上改善图像的降质问题,但由于逆处理过程中无法获知图像降质的准确模型及参数,因此并不能使图像准确还原。鉴于上述原因,本文研究了基于几种典型机器学习算法在不同图像降质因素作用下的人脸识别性能,进一步分析了集中算法在不同场景下的鲁棒性。需要指出的是,对于椒盐噪声叠加类降质图像,可以采用中值滤波进行普适处理。对于曝光异常以及运动模糊两类降质图像,还原效果显著依赖于相关参数,甚至可能“矫枉过正”。考虑到上述原因,由于本文研究重点聚焦于机器学习算法本身性能,因此对于曝光异常以及运动模糊两类降质图像未进行预处理。
机器学习通常指依赖于连接机制,具有大规模并行处理和分布式的信息存储功能,依靠大量节点的连接以及这种连接所引起的节点的不同兴奋状态来以任意精度逼近任意有限间断点函数的人工神经网络结构。本文研究了反向传播神经网络、径向基神经网络、广义回归神经网络三种经典机器学习算法在几种典型图像降质条件下的人脸识别性能,其基本拓扑结构均为人工神经网络,如图1所示。
图1 人工神经网络系统的基本拓扑结构示意图
1.1 反向传播神经网络算法
反向传播神经网络(BPNN, Back Propagation Neural Nerwork)的特点是信号前向传播,误差反向传递。在前向传递过程中,信号由输入层经隐藏层处理并送至输出层,其中每层神经元的状态只影响下一层神经元状态。如果输出层输出值不满足预设训练中止条件,则转入反向传播过程,根据误差调整网络权值及偏置值,该迭代过程使BPNN输出不断逼近期望输出。隐藏层中每个神经元满足式(1)中关系。
(1)
BPNN训练可以采用梯度下降算法实现,神经元参数更新计算如式(2)所示。
(2)
1.2 径向基神经网络算法
径向基函数可以实现多维空间插值,对非线性连续函数具有一致逼近性能。相比于BPNN,径向基神经网络(RBFNN, Radial Basis Function Neu- ral Network)的隐藏层神经元传递函数是对中心点径向对称且衰减的非负非线性函数。RBFNN的核心思想是用径向基函数构成隐藏层空间,将输入状态矢量由低维空间变换到高维空间,使得在低维空间内线性不可分的数据在高为维空间内仍具有线性可分性,神经元满足式(3)中关系。
(3)
上式中,xp表示第p个输入样本,P表示样本总数;θ表示隐藏层节点聚类中心,ω表示隐藏层到输出层的连接权值,h表示隐藏层神经元数,y表示神经网络输出值,d表示样本的期望输出值。
1.3 广义回归神经网络算法
广义回归神经网络(GRNN, Generalized Re- gression Neural Network)具有极强的非线性映射能力,适用于解决非线性拟合问题。相比于RBFNN,GRNN在逼近能力和学习速度上更具优势,且在训练样本数量较少或训练样本数据不稳定时具有明显的性能优势, 神经元满足式(4)。
(4)
从输出结果来看,yj为所有样本观测值的加权平均,每个观测值的权重值为对应样本Xi与X的欧氏距离平方的指数,即pi。当光滑因子σ趋于无穷大时,输出结果近似于所有样本的平均观测值。反之,当σ趋近于0时,输出结果与训练样本非常接近。此时,若训练样本不完备,则测试输出结果误差将非常大,即GRNN的泛化能力较差。
图像成像过程中,产生降质的因素繁多,典型如光学系统相差、成像过程发生相对运动、各种外界因素的干扰及噪声等。上述因素均会导致图像发生不同样式、不同程度的降质,进而人脸识别的准确率。文主要分析了三种典型降质因素,即:椒盐噪声、曝光异常以及运动模糊。
2.1 椒盐噪声
实验研究表明,摄像机拍摄图像过程中,图像传感器、传输信道、解码处理等部件或因素将引入椒盐噪声,在图像上呈现黑白杂点,进而影响后续图像处理。设图像I(x,y)为N位图,椒盐噪声密度为dsp,满足dsp∈[0,1],则叠加椒盐噪声后的图像g(x,y)可以表示如式(5)所示。
(5)
2.2 曝光异常
曝光指图像的物理生成过程中,允许进入镜头照在图像传感器上的光量,通常可以由光圈、快门以及图像传感器的感光度组合控制。理想情况下,曝光度应控制在合理的范围,使照片亮度适中,对比度强。然而,由于人脸识别图像采集场景多变,尤其对于非合作采集条件下的公安布控等场景,往往存在曝光过度或曝光不足等问题,导致图像曝光异常部分细节丢失,进而影响人脸识别准确率。
研究表明,同态滤波方法利用光照反射模型,把频率过滤和灰度变换结合,可以在不损失图像细节的前提下调解图像的光照条件。考虑到同态滤波具有上述特点,因此本文将其用作曝光异常的图像仿真方法。设原始图像为I(x,y),首先对其取对数并做傅里叶变换,提取高频及低频分量:
Z(u,v)=F(z(x,y))=F(ln(I(x,y)))
(6)
之后,采用频域滤波函数对图像进行增强处理,本文采用高斯型高通滤波器作为滤波函数,处理如式(7)所示。其中M,N分别表示图像的行、列像素数,D0为截止频率,c为锐化系数,Rh为高频增益,Rl为低频增益。
(7)
最后,对频域图像做傅里叶反变换并取指数,计算过程如式(8)所示。
g(x,y)=es(x,y)=eF-1(S(u,v))
(8)
2.3 运动模糊
在照片曝光期间,相机与被摄物体之间发生相对运动造成的图像模糊称为运动模糊。受运动模糊影响的图像往往在视觉上表现为图像像素整体沿某一方向具有拖影效果。当像素位移量偏大时,将严重影响图像质量,从而降低人脸识别准确率。考虑到变速或非直线运动在一定条件下可以被分解为分段匀速直线运动,因此匀速直线运动造成的运动模糊具有普适的研究意义。从物理场景上看,图像发生运动模糊的原因是被摄图像经过一定距离延迟后再进行叠加。将静止条件下的图像表示为I(x,y),设快门打开期间,图像传感器与被摄物体保持水平匀速直线运动,则图像褪化模型可以表示为式(9)。
(9)
其中,L表示图像发生整体位移的像素长度近似值。
3.1 人脸图像分割及特征提取
在人脸图像特征提取之前,为了实现对原始图像降维以降低机器学习系统复杂度,本文首先对原始图像进行了子图分割。考虑到子图分割方式应充分将人脸的各个显著特征区域区分开,并尽量不破坏其局部整体性,即令子图中尽量独立整体保留头发、额头、眼睛、鼻子、嘴巴、耳朵以及胡须等特征区域。在此基础上,子图分割数量直接影响图像特征的丰富程度。理论上来说,子图分割数量越大,图像特征量越多,特征越丰富,但同时会导致机器学习系统输入量维数增多,从而使得系统过于复杂,训练时间急剧上升。综合上述分析,经过多组仿真性能比较,本文采用5×5的二维子图分割方式对原始图像进行区域分割,如图2所示。
图2 子图分割示意图
作为一种有效的代数特征,奇异值分解在数据的压缩、信号的处理和模式的识别等多方面都有十分广泛的应用,考虑到其具有比例不变性、旋转不变性等特征,意味着对图像进行旋转、同比灰度调整等操作不会改变其特征值,因此非常适用于人脸图像特征提取。本文中人脸识别算法均首先将待识别图像进行5×5二维子图分割,随后对每幅子图进行奇异值分解,然后选择变换后的最大系数代表该子图的特征,并且进行归一化处理,最后将这些归一化后的子图特征系数组合起来,作为整幅人脸图像的特征向量。如果图像矩阵A∈Rm×n,则有正交矩阵U,V,满足式(10)。
(10)
3.2 仿真结果及性能分析
本文采用剑桥大学ORL人脸数据库,研究分析了基于SVD特征提取的主成分分析(PCA, Principal Component Analysis)[7]、BPNN、RBFNN、GRNN四种算法的人脸识别性能。在分析不同机器学习算法非线性拟合能力的同时,为了兼顾考量算法的泛化性能,对每个人物随机取5副人脸图像用作训练,剩余5副图像用作测试。仿真中,加入了椒盐噪声、曝光异常以及运动模糊三类典型人脸图像降质因素,其中曝光异常按曝光不足及曝光过量两类情况分别考虑。用作测试的一组图例如图3所示,降质参数的定义在本文第三节有所阐述。
图3 仿真中不同降质条件下的一组图例
仿真结果如图4至图7所示。为了深入分析仿真结果依赖于图像降质参数的变化关系,图中同时给出了仿真结果的拟合曲线,拟合算法采用有理数逼近拟合,分子分母均采用5次多项式。
图4 椒盐噪声作用下不同算法的人脸识别性能
图5 曝光不足条件下不同算法的人脸识别性能
图6 曝光过量条件下不同算法的人脸识别性能
图7 运动模糊条件下不同算法的人脸识别性能
根据图4中仿真结果可见,当椒盐噪声密度小于30%时,PCA算法与SVD-RBFNN算法性能接近,正确识别率约90%,且明显优于另外两种算法。当椒盐噪声密度达到40%时,随着噪声继续增加,四种算法的人脸识别正确率均开始呈不同程度的下降趋势。当噪声密度达到80%以上时,四种人脸识别算法均基本失效。总体来看,PCA算法的抗椒盐噪声性能明显优于其他算法。从图5、图6中仿真结果可以看出,人脸识别受曝光量影响较为严重。随着图像曝光量逐渐偏离正常值,PCA算法性能下降最快,SVD-RBFNN算法性能变化平缓,其鲁棒性明显优于其他三种算法。根据图7中仿真结果,随着运动模糊逐渐增强,SVD-RBFNN算法性能下降趋势最明显。当运动模糊像素增至40时,由图3可以看出,人眼已经很难分辨识别图像中人物。此时,根据图7中仿真结果,PCA及SVD-GRNN算法的识别率仍在60%以上。随着运动模糊像素继续增多,PCA算法与SVD-GRNN算法性能逐渐接近。总体来看,PCA算法的抗运动模糊性能最佳。
综上所述,在不同降质褪化场景下,PCA、SVD-RBFNN总体表现鲁棒性较好。深入分析其原因,BPNN非线性拟合能力相对较弱,因此各项抗图像褪化性能相对较差。此外,由于GRNN的非线性拟合能力非常强,往往存在过拟合问题,导致其泛化性能较差。考虑到本文对每组人脸图像非完备集进行训练,因此GRNN算法的测试样本输出结果可能发生较大误差。
本文采用ORL人脸库,通过仿真研究了基于SVD特征提取的PCA、BPNN、RBFNN、GRNN四种典型机器学习算法在不同图像降质因素作用下的人脸识别性能,进一步分析了上述算法在不同图像褪化场景下的鲁棒性。从仿真结果来看,对于椒盐噪声及运动模糊影响的人脸图像,PCA算法鲁棒性较好,但该算法性能显著依赖于图像曝光条件影响。相比之下,当图像曝光条件不佳时,采用RBFNN作为人脸识别算法具有相对较好的鲁棒性。
[1] 李建明. 智慧城市发展综述[J]. 中国电子科学研究院学报, 2014(3): 221-233.
[2] 刘成龙, 李志学, 杨畅. 浅谈人脸识别技术在平安城市中的应用[J]. 电子技术与软件工程, 2016(10): 90-90.
[3] Mageshkumar C, Thiyagarajan R, Natarajan S P, et al. Gabor features and LDA based face recognition with ANN classifier[C]// Emerging Trends in Electrical and Computer Technology (ICETECT), 2011 International Conference on. IEEE, 2011:831-836.
[4] Ch’Ng S I, Seng K P, Ang L M. Adaptive momentum Levenberg-Marquardt RBF for face recognition[C]// IEEE International Conference on Circuits and Systems. 2012:126-131.
[5] Banerjee P K, Datta A K. Generalized regression neural network trained preprocessing of frequency domain correlation filter for improved face recognition and its optical implementation[J]. Optics & Laser Technology, 2013, 45(1):217-227.
[6] Sharma R, Patterh M S. A new pose invariant face recognition system using PCA and ANFIS[J]. Optik-International Journal for Light and Electron Optics, 2015, 126(23):3483-3487.
[7] Yang J, Zhang D, Frangi A F, et al. Two-dimensional PCA: a new approach to appearance-based face representation and recognition.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2004, 26(1): 131-137.
[8] Zhang P, Li F. A New Adaptive Weighted Mean Filter for Removing Salt-and-Pepper Noise[J]. IEEE Signal Processing Letters, 2014, 21(10): 1280-1283.
[9] Im J, Fujii H, Yamashita A, et al. Compensation of over and under exposure image using multiple light switching[C]// Ieee/sice International Symposium on System Integration. IEEE, 2014: 147-152.
[10]Punnappurath A, Rajagopalan A N, Taheri S, et al. Face recognition across non-uniform motion blur, illumination, and pose.[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2015, 24(7): 2067-2082.
Research on the Robustness of Face Recognition Based on Machine Learning Algorithms
LI Li-min, LIU Ming-hui
(China Academy of Electronics and Information Technology,Beijing 100041,China)
Face recognition is an important technology for supporting intelligent target character investigation and clue tracking in in modern police affairs. Under the influence of environmental factors, such as noise superposition, exposure abnormity and motion blur, degeneration usually occur to sampled images comparing with the standard face image. Therefore, the robustness of face recognition algorithm is one of the important criteria for its effectiveness. For the above consideration, this paper investigates the performance of several typical machine learning algorithms under different image degeneration factors, and further analyses the robustness of the aforementioned algorithms.
face recognition; robustness; back-propagation neural network; radial basis function neural network; generalized regression neural network
10.3969/j.issn.1673-5692.2016.02.022
2017-01-01
2017-04-01
TP181
A
1673-5692(2017)02-219-06
李利民(1985—),男,黑龙江人,博士,主要研究方向为网络安全、图像处理、军事通信、通信仿真;
Email:atpcat@163.com
刘明辉(1979—),男,河南人,高级工程师,主要研究方向为综合电子信息系统总体设计与系统集成。