基于人脸图像的二阶段性别分类算法

2021-03-11 06:20:54杨晨旭蔡克参张红云苗夺谦
计算机与生活 2021年3期
关键词:阴影人脸分类器

杨晨旭,蔡克参,张红云,苗夺谦

同济大学 计算机科学与技术系,上海201804

人脸是人类个体身份最重要的生物特征之一,包括了性别、年龄、种族、表情等重要特征。其中,人脸图像的性别识别在各种基于计算机视觉的应用中起着重要的作用,例如人机交互、监控安全、网络社交。人脸性别分类就是对于输入图像进行识别,其目标是通过人脸图像特征判断出性别。

最早的性别分类方法是基于简单的神经网络方法,神经网络分为基于人脸图像的像素值的分类和基于人脸几何特征的分类。前者通过神经网络自动获取面部特征,将人脸图像进行训练和测试,神经网络的输出就是分类的概率值。后者通过手工精心设计特征,然后再输入到神经网络。

后来,性别分类方法往往和特征提取算法相结合。常见的人脸图像特征包括哈尔特征(Haar-like features,Haar)[1]、局部二值模式(local binary pattern,LBP)[2]、尺度不变特征变换(scale-invariant feature transform,SIFT)[3]、韦伯局部描述特征(Weber local descriptor,WLD)[4]等,然后将人脸特征向量输入到传统的分类器或神经网络中进行性别研究。传统的分类器主要有贝叶斯分类器[5]、支持向量机(support vector machine,SVM)[6-7]、K最近邻(K-nearest neighbor,KNN)[8]、逻辑回归(logistic regression,LR)[9]等。但是它们无法处理大规模的图像数据,需要足够大的存储空间和运行时间。随着大数据时代的来临,神经网络模型解决了这个问题,它适用于处理大规模的图像数据,有着高效的分类效率。然而,它也存在模型可解释性差、易丢失细节信息等问题,并且由于光照、姿势、表情等因素的影响,大量的图像数据中往往存在一些不确定的脸部图像,导致人脸性别难以分辨,分类准确率低。

因此,本文提出了一种基于阴影集的二级分类模型。该模型在基于卷积神经网络VGG16的一阶段分类的基础上,引入了阴影集理论,通过人脸图像的特点,将第一阶段的分类结果划分为接收域、拒绝域和不确定域。最后,用LR算法对不确定的脸部图像集进行二阶段分类。

1 相关工作

人脸性别分类技术是人脸图像研究的重点,由于角度、光照、遮挡和较低分辨率等原因造成的不确定图片是影响分类性能的重要原因。人脸性别分类系统性能的提升,主要取决于两方面:人脸图像的特征提取和模型结构及参数的优化。这一部分分别介绍人脸性别分类图像的特征提取和人脸性别分类模型优化的相关工作。

1.1 人脸性别分类图像特征提取

主成分分析(principal component analysis,PCA)和线性判别分析(linear discriminant analysis,LDA)是性别识别技术中最常用的特征提取方法。PCA通过使用一组相互正交的基函数来捕捉最大方差的方向,有助于减少性别识别技术中的噪声量。LDA 能获取主体的判别特征,使信息类别之间的差异最大化[10]。局部保持投影(locality preserving projections,LPP)是最流行的降维技术之一。文献[11]针对存在噪音的同一类样本数据可能不会分布在相近区域的问题,提出了一种改进的局部保持投影降维方法(lowrank preserving projections,LRPP),通过范数的稀疏约束及低秩约束,在保持数据全局结构的同时,减少了噪声对数据的干扰。文献[12]针对使用l2范数作为度量,对数据中的噪声很敏感的问题,提出了一种新的低秩邻域保持投影(2-D neighborhood preserving projection,LR-2DNPP)方法,将输入数据划分为编码低秩特征的分量部分和确保噪声稀疏的误差部分,获得噪声较少的数据,提高了特征提取的鉴别能力。文献[13]提出了一种邻域保持嵌入的方法来整体编码信息,通过一种新的特征嵌入方法,解决数据的类结构被噪声等破坏的问题。文献[14]提出了多层感知器分类器,该分类器使用通过PCA 创建的面部空间的特征向量系数,在人脸图像的部分数据集上实现了高准确率的性别分类结果。文献[15]提出了一种梯度人脸的方法来提取不同光照下的人脸识别光照不敏感特征,对不同的光照均有良好的鲁棒性,提高了不同光照条件下人脸性别识别的准确率。文献[16]通过各种面部特征及背景信息的提取,分析了各类特征对性别分类的影响,并提出了一种适用于存在遮挡的面部图像性别分类系统。

1.2 阴影集的研究

阴影集被提出以来,被广泛运用于数据分类和图像处理中。在数据处理中,王丹等[17]提出了基于阴影集的离群点检测和聚类算法,提出的离群因子考虑了数据点偏离数据模式的程度和数据点本身归类的不确定性,使得在模糊集阴影化过程中更加关注核的准确性,该算法具有较好的检测效果。周玉等[18]提出了基于阴影集数据选择的可拓神经网络的性能改进方法,根据网络特点能够自动地获取训练数据中的核数据和边界数据,不仅节约了训练时间,同时网络的泛化能力和分类识别精度也有所提高。苏小红等[19]提出了一种基于阴影集的SVM的样本选择方法,能够去除样本中的奇异数据和干扰数据,在训练样本中含有噪声时,可以有效地提高分类器的分类性能和分类精度。

在图像处理中,Mitra 等[20]将阴影聚类算法用来处理遥感图像分割问题,通过设计适用于遥感图像的分割算法,该方法能够定量地减少遥感图像中像素的交叠区域和边界之间的不确定性,从而克服由于分辨率差和光照差等恶劣环境造成的分割难题。张红云等[21]提出了一种基于阴影集的图像检索算法,在基于显著性检测的图像检索算法的基础上,利用阴影集理论,将图像分割为显著性区域、非显著性区域和阴影区域,并利用阴影区域和突出区域作为检索的有用信息。对于有明显突出区域的图像,该算法不增加冗余区域,表现出了显著的健壮性。

1.3 人脸性别分类优化模型

人脸性别分类近年来取得了很大的进展,现有的性别分类方法主要可分为两类:传统的基于特征的方法和基于深层卷积神经网络的方法。传统的基于特征的方法从图像中提取手工设计的特征,然后利用特征和分类模型来完成性别分类任务。Goel等[22]提出了一种构建性别分类特征向量的新技术,将数据从原始空间映射到非线性特征空间,采用基于核的PCA 技巧去除无关特征,针对获得的特征用SVM将图像分为男性或女性,减少图像的过度拟合问题。Kekre等[23]提出了一种适用于小样本训练数据的性别分类算法,即使每人一张图像进行训练,也具有很好的精度,用PCA进行特征向量生成,并与使用不同相似性准则的最近邻分类进行比较,结果表明,该方法显著提高了总体分类精度。使用深度神经网络模型的优点是其自动从图像中提取特征并给出输出,不需要使用特征描述符从图像中手动提取特征,以便进行进一步的识别任务或分类任务[24]。Ng等[25]研究了一种在有限标记训练数据的行人性别分类中训练卷积神经网络的方法,利用KNN 学习行人图像上的滤波器来初始化网络的第一层,与随机权值初始化相比,这种方法比仅仅通过无监督学习初始化第一层滤波器在性别分类中的泛化能力更好。Lapuschkin 等[26]研究了面部特征实际用于预测的不同影响,以及这些特征与图像预处理、模型初始化和结构选择的关系,提出了一种以黑盒方式应用的深度神经网络模型,结合简单的预处理步骤,在识别人脸图像上没有提供任何相关信息,也能达到很好的性别识别效果。Tian 等[9]开发了一个16 层轻量级的深度神经网络模型,在提高效率的同时保持了高精度。通过Fisher 线性判别分析发现直接丢弃具有高类内方差和低类间方差的最后一个卷积层神经元的高去相关操作安全且有效,在特定人脸数据集上能实现与具有完全连接层的原始网络同等甚至更高的精度。

综上,对不确定人脸图片性别进行分类仍然面临许多挑战。针对这一问题,本文提出了一种基于阴影集的二级人脸性别分类模型,在基于深度卷积神经网络模型一阶段分类的基础上引入了阴影集理论,对一阶段分类结果进行划分,针对容易混淆的不确定区域的图像对象的特点,进行二阶段分类,以提高不确定图像性别分类的准确率。

2 结合阴影集的二次模型人脸性别图像分类

本文针对基于卷积神经网络的分类算法无法解决不确定性数据的问题,引入了阴影集理论,对图像进行二次分类。传统的图像分类方法将图像分类为正域(属于某类别)和负域(不属于某类别),相当于一个二划分。而本文提出的算法,考虑到部分图像存在不确定是否属于某类别的情况,容易造成分类错误的问题,结合阴影集理论,提出了一种新的二次模型的图像分类方法,将图像划分为三部分:正域、负域、不确定区域。

该模型根据图像数据的特点,利用阴影集将图像分类结果划分为正域、负域、不确定区域,对应阴影集的接收域、拒绝域、不确定域。对图像的正域和不确定区域分别提取特征,采用合适的算法进行图像分类,分类方法分别采用卷积神经网络方法和逻辑回归算法。

2.1 阴影集理论

Pedrycz 提出的阴影集的概念[27],是通过一个三值逻辑映射保留对象的不确定信息。阴影集的主要思想就是把整个集合分为三个区域:接收域、拒绝域和不确定域。如图1 所示。接受域表示可以肯定某件事物,拒绝域反之,不确定域表示信息不足无法明确做出接受还是拒绝的判断,采用延迟决策,因此可以规避分类信息不足但却盲目决策造成的风险。假设X是一个集合,阴影集将这个集合映射到一个三值空间{0,1,[0,1]},0 表示元素x不属于集合X,1 表示元素x属于集合X,[0,1]表示x可能属于也可能不属于集合X,集合X则形成了阴影。

Fig.1 Shadowed sets图1 阴影集

定义1假设阴影集的隶属函数为f(x),则满足式(1):

阴影集理论通常用于处理不确定性问题,自1998 年被提出以来,阴影集作为一种新的模糊集表示和处理方法出现,在管理科学、模糊集理论[28]和知识粒化[29]等许多理论领域得到了广泛的应用。Cattaneo 等提出了一种定义模糊集与阴影集之间关系的代数方法[30]。Pedrycz等将阴影集应用于模糊聚类以提高聚类效果[31-32]。周玉等将阴影集的数据选择方法应用到神经网络中,以提高其性能[33]。

2.2 基于阴影集的二级模型图像分类算法

VGG16 的网络结构如图2 所示,由13 个卷积层(由Conv x_x表示)、5个池化层(分别由pool表示)、3个完全连接层(由Fc xx 表示)组成。其中卷积层和全连通层都有权系数,又称为权层,是VGG16 中16的来源。本文使用具有较小卷积核(3×3)的多个卷积层代替具有较大卷积核的卷积层,可以减少网络的参数,提高网络的拟合和表达能力,相当于具有更多的非线性映射。

与VGG 原来的网络结构相比,二级模型分类算法增加了隶属度判别函数和第二级分类模型,如图3所示。完成性别分类的算法流程如下:(1)利用整个训练集数据分别训练VGG和第二分类器。(2)利用训练后的VGG对测试集数据进行分类。(3)将VGG的分类结果,根据隶属度函数划分为三部分,将隶属度差值大的分类结果直接划分为正域或负域,否则,将不确定性的分类结果划分为阴影区域。(4)使用第二个分类器再分类阴影区域中的目标数据。(5)将VGG和第二分类器的分类结果进行融合,得到最终的分类结果。

2.2.1 隶属度函数

神经网络模型的分类器不仅提供了预测标签,还提供了预测标签的隶属度值。隶属度值用来表示当前样本数据在分类器中分类的概率。

Fig.2 VGG network model图2 VGG网络模型

Fig.3 Two-level classification model图3 二级分类模型

在神经网络模型中,图像二分类的输出层是一个具有两个神经元的softmax层,可以用c1和c2来表示输出层的两个隶属度值。隶属度值c1和c2可视为当前样本对应于两种类型标签的概率。概率越高,模型就越倾向于将当前对象划分为这个标签。理论上,一个完美的分类使得正确分类的隶属度值为1,而错误分类的隶属度值为0。然而,设计一个完美的隶属函数几乎是不可能的。因此,神经网络模型通常使用概率较高的类别作为模型输出的预测标记。然而,当两个概率值相差细微时,导致图像分类结果存在不确定性。因此,在二分类的神经网络模型上,可以设计一个直观的隶属度计算函数:

本文采用式(2)作为隶属度计算函数,是直观合理的。M(c1,c2)的值越大,表明神经网络分类器对当前数据对象的分类就越可靠。因此M(c1,c2)的值的选择也是一个关键。

2.2.2 基于阴影集的二级分类器

对于第一级分类器中不确定的数据,本文采用第二级分类器对不确定区域中的数据对象进行重新分类,第二级分类器的选择是提高模型分类效果的关键步骤。在分类器相互独立的前提下,本文选择采用sklearn模块封装的LR、KNN作为第二个分类器的替代模型,来测试模型的分类性能。

第二个分类器的目的是对阴影区域中的不确定数据进行重新分类。本文使用D表示VGG 和第二分类器在分类结果上的差异,定义为D=,其中N是测试集中的示例数,Nd是VGG和第二分类器给出不同预测标签的示例数。D值越高,第二分类器的分类效果越好。

为了更准确地表示分类效果,本文提出了一个函数用于计算正确率Pall:VGG 测试集的总数为Nori,不确定数据的概率为α,其中α作为阴影集的阈值之一,α的大小会影响最终的准确率。将剩余测试集的精度记录为P1,并将不确定的数据部分用于第二分类器的训练和测试,测试结果为P2:

3 实验验证

3.1 数据集

LFW 数据集:该数据集包含来自5 749 个人的13 000张图片,提供了正面和非面部图像。

Adience 数据集:该数据集包含大约26 000 幅图像,来自不同国家、种族和年龄组的人的正面和非正面面部图像。

3.2 评审分类准确率

在LFW数据集和Adience数据集上,本文采用以VGG为代表的卷积神经网络和手动提取特征的传统方法(KNN、LR)来评估阴影区域的准确率。首先,在VGG进行第一级分类时,根据2.2.1小节的隶属度计算函数得到二分类的初步结果,根据不同数据集的特点,取不同阈值α,按照(+0.5,-0.5)的区间大小,得到阴影区域上不确定的数据,用三种分类方法计算准确率。可以从图4中看到,在具有不确定性的图像集上,准确率始终都是LR最高,VGG和KNN随后。

Fig.4 Comparison of classification accuracy of shadow areas at different threshold α图4 不同阈值α 对阴影区域的分类准确率比较

由于VGG对不确定的图像数据的分类精度远低于VGG 对普通图像数据的分类精度,采用两层模型来提高该部分的分类性能。在第二级分类器的选择上,由于神经网络模型(如RNN、BRNN)的模型结构和分类过程与VGG 相似,且不确定的图像集数量相对较少,当神经网络模型作为第二级分类器时,分类精度不好。而非神经网络模型(如KNN、LR)的模型结构和其分类过程有很大不同。因此,采用非神经网络模型作为第二级分类器模型。比较图4 所示的结果,本文选择LR作为第二级分类器。

因此,本文提出的两级模型结合了神经网络模型VGG 和传统方法LR,在数据集上都达到了比VGG更高的精度,准确率的计算公式在2.2.2小节给出,最终的分类准确率如表1所示。

Table 1 Comparison of accuracy of VGG and two-level model on datasets表1 VGG和二级模型在数据集上的准确率比较

在LFW 数据集中,原VGG 模型分类准确率达91.42%,和LR结合后的准确率达92.83%;在Adience数据集上,原VGG 模型分类准确率是84.50%,和LR结合后的准确率达到了93.65%,从而证实了二次模型提出的合理性。图4表明,不同阈值α下,LR对阴影部分分类的准确率高于VGG,但是整体二级模型对全部数据集分类的总准确率和阈值α不相关(表1),也证明式(2)是可行的,数据集中的具有不确定性的图像数量是一定的。和不确定性图像集的准确率相同,总准确率始终都是VGG+LR>VGG,而VGG+KNN 和VGG 在不同数据集上的准确率不同。因此在选择第二级分类器时,要根据数据集的特点进行选择,本文选用LR。

本文的二级模型和以下方法进行对比:

在LFW数据集上,张婷等[34]在传统卷积神经网络的基础上,提出一个跨连卷积神经网络(cross-connected convolutional neural network,CCNN)模型。该模型是一个9层的网络结构,包含输入层、6个由卷积层和池化层交错构成的隐含层、全连接层和输出层,其中允许第二个池化层跨过两个层直接与全连接层相连接。Tian等[35]在卷积神经网络基础上进行修剪,结合支持向量机和贝叶斯分类,比原卷积神经网络精度更高。石学超等[36]基于多层特征融合与可调监督函数机制,提出一种卷积神经网络模型,将多个浅层中间卷积层特征输出与最后卷积层特征输出相结合,同时考虑了深层卷积的整体语义信息和浅层卷积的细节局部纹理信息。Bhattacharyya等[2]提出了一种从正面面部图像识别性别的新方法,由Asthana 等[37]提出的Chehra模型获得的面部界标点将正面人脸图像划分为多个不同的区域,并从每个区域中提取特征,然后基于支持向量机的分类器计算每个面部区域的概率分数。Gonzalez-Sosa 等[38]基于深度学习对人脸进行软生物识别,使用手动估算和自动估算技术进行验证,性能得到提高。Gajjar 等[39]提出2B3C 方法用于检测人脸,增加检测到的人脸的边缘从而进行人脸剪裁,证明了该方法的有效性。

在Adience 数据集上,Gajjar 提出的方法在验证LFW 数据集的同时也对Adience 数据集进行了验证。陈济楠等[40]提出一种改进CNN 的检测模型,使用级联卷积核降低参数数量防止过拟合,采用跨连卷积层方法融合不同尺度图像特征,获得更好的识别性能。Mittal[41]提出一个结合迁移学习的卷积神经网络模型,通过对图像数据集上的预训练和对卷积神经网络的微调,得到了改进。Afifi等[42]将面部特征与整体特征相结合,使用组合特征来训练深度卷积神经网络,然后训练基于AdaBoost 的融合得分来推断最终的性别类别。并且提出了一个新的人脸数据集,该数据集加剧了被遮挡的人脸和光照变化的挑战。Zhou 等[43]结合面部特征和性别特征,提出了使用卷积神经网络的面部和性别识别系统,在人脸识别模块中和性别识别模块中,使用不同的公开数据集训练CNN,提升了最佳识别准确度。周玉阳等[44]提出了轻量级网络,使用相关参数作为预训练参数,再进行训练调优最终得到实际模型参数,使得性别分类模型训练快,消耗资源更少。

如表2所示,本文提出的二级模型在Adience数据集和LFW数据集上的准确率达到93.65%和92.83%。因为Adience数据集的图片数量较多,更加符合卷积神经网络的训练方式,所以正确率相比于LFW 数据集较高。实验结果表明,利用本文提出的模型可以得到较好的实验结果。

Table 2 Experimental results on LFW dataset and Adience dataset表2 在LFW数据集和Adience数据集上的实验结果

3.3 算法时间复杂度分析

本文提出的算法模型包含两部分:基于深度学习方法VGG16 的第一阶段分类和基于传统方法LR的第二阶段分类。算法的时间复杂度主要体现在第二阶段,假设N为实验样本数,传统方法LR的时间复杂度为O(N)。在时间开销上,本文采用的模型训练所需时间和计算量上都大大减少,在Adience数据集上和其他模型的实验对比如表3 所示。需要指出的是,训练耗时严重依赖于硬件性能,本实验所用GPU显卡为V100,32 GB显存。

Table 3 Comparison of training time of this method with other literatures表3 本文方法和文献的训练耗时比较

本文提出的二级模型是神经网络模型VGG和传统方法LR的结合,通过阴影集理论得到不确定的图像数据,针对不确定的图像数据进行再分类。模型在相同基准数据集上相比VGG能达到更低的时间复杂度和更高的精度,表明该结合机制是有效的。此外,本文的二级模型也受到VGG 和LR 的限制,如果VGG和LR不能取得很好的效果,本文模型也不能很好地实现。

4 结束语

本文探讨了一种新的二级分类方法,将VGG 和LR 结合起来,基于阴影集将带有不确定性特征的样本数据分离出来,从而有效地对性别样本进行分类。本文模型对未来的人脸识别、面部疾病检测、改善图像体验、社交媒体图片等研究奠定了基础。后面的工作是在人脸部分遮挡、图像分辨率低时,进一步提高分类识别准确率,结合人脸年龄、人类表情分类,更好地研究人脸识别和分类技术。

猜你喜欢
阴影人脸分类器
有特点的人脸
你来了,草就没有了阴影
文苑(2020年11期)2020-11-19 11:45:11
中国诗歌(2019年6期)2019-11-15 00:26:47
三国漫——人脸解锁
动漫星空(2018年9期)2018-10-26 01:17:14
BP-GA光照分类器在车道线识别中的应用
电子测试(2018年1期)2018-04-18 11:52:35
让光“驱走”阴影
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
阴影魔怪
马面部与人脸相似度惊人