陈文云
百色学院信息工程学院 广西 百色 533000
人脸识别技术是指利用计算手段,使计算机具有像人一样能通过人脸图像辨识人的能力。人脸识别技术是属于计算机视觉范畴,但其实现核心技术不限于计算机视觉技术,是多学科交叉融合技术,主要运用包括模式识别、图像处理、计算机图形学、神经网络以及心理学等科学知识和技术[1]。
人脸识别技术最初溯源于20世纪50年代的心理学研究工作中的表情、情绪和手势的研究[2]。布莱索于20世纪60年代首次在美国国防部的资助下运用计算机进行人脸识别工作[3],并提出了一些业界几十年来一直难以攻克的一些难题,如光照影响、头部转动角度、脸部表情以及年龄对人脸识别的影响等。这一时期人脸识别主要是通过检测和测量人脸特有的一些面部特征,如耳朵大小、眉毛形状、眼睛大小、眼间距、鼻子长度等,通过模式分类技术来识别人脸[4]。20世纪70年代科研工作者开始运用几何参数来描述人脸,然后运用模式识别技术来识别人脸,1973年基于该技术的特征自动提取并识别的人脸识别系统Kenade面世[5]。20世纪80年代许多新技术运用于人脸识别,如模式匹配算法为适应表情变化产生了可变模式匹配算法[6];BP算法出现推动神经网络技术重新焕发生机,并运用于人脸识别[7];运用主元分析(PCA)机器学习算法来识别人脸,从而通过降低人脸数据的维度产生特征脸,一定程度上降低计算复杂度[8]。20世纪90年代特征脸技术得到广泛运用,并基于该技术产生第一个人脸识别工业应用[9],同时派生出独立成分分析(ICA)、线性判别分析(LDA)等相关人脸识别技术。
人脸识别系统通常是以图片或视频作为输入,输出为在输入中出现的一个或多个人的名字。该系统通常由3部分组成:人脸检测、特征提取以及人脸识别,如图1所示。人脸检测负责查看输入图片或视频中是否有人脸,以及每一个人脸的位置区域,人脸检测的本质就是二分类问题;特征提取模块负责从检测到的人脸区域提取人脸识别模块所需的各种特征信息,不同识别算法所需要的特征信息各不相同;最终由人脸识别模块完成人脸识别任务,其本质是多分类问题。
图1 人脸识别系统
组成人脸识别系统的各部分之间没有严格的界限,由于识别算法、实现方法的不同或应用场景的不同,各部分可能会同时并行进行,也可能级联处理。
人脸检测是在图中检测人脸存在与否,并确定其具体位置区域,可看作为简化版人脸识别,即两分类人脸识别,故与识别算法具有某种相似性,常应用于目标定位与跟踪。如果输入图片只包含一个标准化的人脸,如公安、安检以及刷脸支付等受控环境的人脸检索、识别系统,人脸检测环节就可以省略,直接可进行特征提取或人脸识别。理想情况下,用于人脸检测的照片是其正面照片。现实应用大多是在不受控环境进行的,很多因素都会影响人脸检测的性能和准确性,进而影响人脸识别,其中包括:由于物体移动或拍摄角度的影响,导致人脸特征在拍摄的照片中体现不完整;人脸特征之间的遮挡,如戴眼镜、留胡须、戴帽子等;面部表情会导致人脸特征的变化;不同的照片拍摄环境以及拍摄工具都会导致图像的差异。
人脸检测算法大致由以下部分组成:预处理,包括数据降维、人脸特征抽取等,人脸判断以及位置检测,有时也包括人脸跟踪,如图2所示。
图2 人脸检测算法
人脸检测算法种类繁多,分类方法也多种多样。根据应用场景的不同,可分为:受控环境下的边界检测算法[10],彩色照片可用肤色模型[11],视频中的运动检测(眨眼、张嘴等)模型[12];根据检测算法的不同,可将人脸识别分为:基于知识的算法、基于不变特征算法、模板匹配算法和基于模型的算法。
特征提取是指通过高效的手段找出人脸图片中有助于辨别出其身份的有用信息的过程,通常包含降维、抽取特征以及特征选择子过程。特征提取有助于避免维数灾难,提高人脸识别的效率和对内存的依赖。
特征提取算法很多,主要包括主元分析(PCA)、线性判别分析(LDA)、独立成分分析(ICA)、神经网络分析、ASM、AAM、小波变换、离散余弦变换等。
特征选择是在抽取的特征中选择一个能使分类误差最小的特征子集。特征选择算法有很多,如穷举法ES、分支定界法BB、顺序前进选择法SFS、顺序后退选择法SBS等。寻找最小误差子集的过程是一个NP难问题,故业界通常寻找一个在特征维度和计算复杂度约束下可接受的算法,而非最优算法。
人脸识别算法大致可以分为3类:基于规则算法、基于模型算法和基于机器学习算法。无论是哪一种算法,都是通过在一个或多个分类器来实现对人脸的分类,单个分类器的分类标准多种多样,大致可以基于相似度、概率和决策边界等几种,复杂任务有时需要通过多个好而不同的分类器进行集成完成。
正如前面所讲,人脸识别由人脸检测、特征提取和人脸分类模块组成。它们之间没有严格界限,可能相互交叉,这主要取决于其所在的人脸识别算法和实现方法。
人脸识别算法的分类,根据不同的分类标准而不同。根据用于分类的信息本身不同可分为几何参数法和统计参数法[13];根据用于识别的信息量多少可分为局部判别法和整体判别法;根据表示脸的方法不同分为外观法和模型法。当下最为流行的人脸识别算法主要分为3类:模板匹配法、统计法和神经网络法。
模板匹配法在人脸识别算法中得到广泛运用,它使用像素点、样本、纹理或模型为模式,匹配算法计算测试样例的对应特征与模式之间的差别来找到最佳匹配,从而完成识别任务。在模式匹配过程中的差别可以是特征之间的相关性,也可以是特征之间欧氏距离。
模式匹配可以基于二维图片,也可以基于三维实体。二维图片是目前人脸识别的主要方法,但是它对图片的拍摄角度和光照很敏感,目前较为有效的方法是利用弹性约束图算法得以缓解。三维模式匹配是通过形状和纹理在匹配样本与模式之间进行匹配,形状、纹理信息与样本的姿势和光照无关,因而可以很好地规避该弱点,但三维模式匹配的主要缺点是三维信息需要在控制条件下进行三维扫描获得,成为其广泛应用的主要障碍。
基于模式匹配的典型人脸识别算法是主动外观模型(AAM)。该模型是一种有监督的学习算法,它是通过对人脸的特征形状和纹理先进行PCA主元成分分析,提取其主分量作为形状和纹理特征,然后对形状和纹理在主分量上进行正交分解,从而得到人脸的外观模型;在训练阶段通过学习每个人的多张图片的形状点和纹理信息,最终得到其形状和纹理特征;人脸分割和匹配阶段,就是在测试图片中寻找给定模型的形状和纹理特征,并加以分割。该算法能够较好地将人脸形状和纹理信息进行组合形成新的特征,具有不错的人脸分割和识别效果。
人脸图像可以看作由各像素点的亮度值构成的高维数据,如果直接利用原始像素进行计算,不仅增加数据存储空间,增加建模、运算复杂度,而且浪费大量计算资源。
统计法将高维图像中的人脸看成低维空间的流形,通过使用适当的统计工具来提取和分析图像中蕴含的人脸流形。首先需要在原始图像空间定义嵌入人脸流形低维空间,再将不同人脸映射到嵌入人脸空间中可分的不同区域,最后通过已知的人脸识别算法在低维空间对人脸进行识别。
构造嵌入人脸空间的方法很多,常见方法有主成分析(PCA)[13]、离散余弦变换(DCT)[14]、线性判别分析(LDA)[15]、局部保留投影(LPP)[16]、Gabor小波[17]、独立成分分析(ICA)等。
随着BP算法的发明,神经网络技术开始复苏并在图像处理和识别中显示强大的威力,人脸识别中运用神经网络也逐渐流行并取得良好效果[18]。神经网络技术不仅在监督学习中对有标签人脸数据进行训练学习,也可以运用无监督学习技术对人脸进行特征提取,利用监督学习技术对人脸特征进行选择以降低分类误差[19]。卷积神经网络是典型基于监督学习的图像识别算法,编解码器神经网络是常用的无监督神经网络。
传统的人脸技术主要用于静止图片的识别和处理,现在受控环境下基本达到可应用的水平,非受控环境的人脸识别仍然有一些技术障碍等待攻克。近年来随着物联网和大数据技术的出现及快速发展,如何从海量的视频数据中检索特定人脸,并对特定人脸的跟踪,对人脸识别技术提出了新的挑战,如何利用视频中的时空信息,对人脸进行检测、识别和跟踪称为当下科研工作者的主要努力方向。