基于深度学习的人脸美丽预测模型及其应用

2018-05-16 07:50姜开永甘俊英谭海英

五邑大学学报（自然科学版） 2018年1期

姜开永，甘俊英，谭海英

基于深度学习的人脸美丽预测模型及其应用

姜开永，甘俊英，谭海英

（五邑大学信息工程学院，广东江门 529020）

为了进一步提高人脸美丽预测精度，本文构建了一个多尺度图像输入的人脸美丽预测深度卷积神经网络模型（Deep Convolution Neural Network，DCNN），以增强对人脸图像空间结构特征的提取能力. 采用深度可分离卷积层代替普通卷积层、Max-Feature-Max（MFM）激活函数代替修正线性单元（Rectified Linear Unit，ReLU）激活函数，可减少网络训练参数并提取具有竞争性的网络特征. 基于大规模亚洲女性人脸美丽数据库（Large Scale Asian Female Beauty Database，LSAFBD）的实验结果表明，本文所构建的人脸美丽预测模型取得了59.75%的正确分类率，优于现有DCNN模型的分类结果.

深度学习；人脸美丽预测；深度可分离卷积层；图像多尺度

随着深度学习在图像识别领域取得突破性进展，深度卷积神经网络（Deep Convolution Neural Network，DCNN）在机器视觉分类，如图像分类、目标识别和人脸识别等方面产生了大量的研究成果[1-5]，为了取得更高的正确分类率和网络泛化能力，用于训练DCNN模型的数据库规模也在不断扩大，诸如CASIA-Webface[6]、CelebFaces+[2]、MS-Celeb-1M[7]等人脸数据库. 人脸数据库规模的扩大，需要加深卷积神经网络(Convolution Neural Network，CNN)模型的层数、模型参数等来获得更好的拟合结果. 由于构造人脸数据库的图像来自网络，其成像质量存在很大差异，图像标签也存在辨识模糊和错误的情况，这些都增加了DCNN模型的训练难度，影响了其泛化能力.

目前，人脸美丽预测[8-12]研究逐渐从受限图像过渡到非受限图像，从小规模人脸数据库过渡到大规模人脸数据库. 但是，与创建人脸识别数据库相比，创建人脸美丽数据库需要增加对人脸图像美的评价过程，由于对人脸美的认识缺乏统一标准，评价的结果自始至终都存在着不确定性，评定的分数存在较大的模糊性和不确定性. 由于人脸美丽数据库存在的这种问题，直接使用现有DCNN模型进行训练，并不能取得很好的正确分类率和泛化效果，而将图像多尺度化作为DCNN模型的输入，可以有效改善模型性能.

为此，本文构建了一个提取图像多尺度特征的DCNN模型用于人脸美丽预测. 将多尺度人脸图像输入到DCNN模型中，使模型具备提取人脸图像多尺度特征的能力，获得更具完备的图像空间结构特征，从而改善人脸美丽预测性能.

1 DCNN模型结构

本文构建的DCNN模型修改了普通卷积层的默认分组数目，即根据卷积层的特征图数目设置分组数值，将卷积的连接操作限制在一个子集内，以实现任何一张特征图的输出都与指定的输入特征图进行连接，接着使用1×1卷积核[14]进行升维或降维处理. 采用这种卷积层结构，可以大幅度减少网络参数，并能加速网络运行和拟合. 如图1所示，模型由多尺度化层、深度可分离卷积层和全连接层等构成，输入图像经多尺度化处理后，分别作为第1个和第2个深度可分离卷积层的输入.

图1 多尺度图像的卷积神经网络

1.1 图像多尺度

卷积神经网络通过卷积层、池化层堆叠的方式构造深层网络提取图像更抽象的特征，在图像分类和人脸识别中取得了非常显著的成果，其在LFW和WebFace等人脸数据库上的分类正确率不断提高. 但是，在人脸美丽预测领域，由于人脸美的概念比较模糊，评价比较主观，仅依靠单尺度图像上提取的特征不能完全表征人脸美，因此，需要从图像的多尺度上提取特征，构造更完备的空间结构特征，以增强人脸美的分类准确性. 本文仿照图像金字塔的下采样过程对输入图像进行分割，即每进行一次下采样，图像尺寸减小一半. 如图2所示，0表示输入网络裁剪之后的图像，其尺寸为128×128；1表示进行一次下样后的图像，其尺寸为64×64；2表示再次进行下采样后的图像，其尺寸为32×32.

图2 图像多尺度化示意图

1.2 Max-Feature-Max激活层

目前，线性纠正单元（Rectified Linear Units，ReLU）激活层被广泛应用于DCNN中，该激活层具有分段线性特点，易于网络训练，而且能够快速实现网络收敛. 在定义域小于0的范围，ReLU激活函数的输出为0，该激活函数稀释掉了大量的有用信息；在定义域大于0的范围，ReLU激活函数等同于线性激活函数，无法对特征进行非线性映射. 因此，本文采用Max-Feature-Max激活函数替代ReLU构建深度卷积神经网络[14]，由于MFM激活函数是基于Maxout激活层[15]改进得到的，它具备了Maxout激活函数的竞争机制，因此能够得到更加紧凑的图像特征.

1.3 深度可分离卷积

2 实验数据库及相关设置

2.1 人脸美丽数据库

由于本文构建的DCNN模型层次较深，需要采用更大规模的数据库进行训练. 因此，本文在大规模亚洲女性人脸美丽数据库（Large Scale Asian Female Beauty Database，LSAFBD）上进行实验. 如图3所示，LSAFBD人脸美丽数据库样例图像为120×120的彩色图像，图像下方的数字为类别标签，按照美丽吸引力划分为5个量级，用数字1到5表示，其中，1表示极不具有吸引力，2表示不具有吸引力，3表示普通吸引力，4表示较有吸引力，5表示极有吸引力.

图3 LSAFBD样例图像

LSAFBD图像标签的分布直方图如图4所示，由图可知，标签分布拟合高斯分布，与真实环境的人脸美分布一致.

图4 图像标签分布直方图

2.2 图像预处理

LSAFBD人脸美丽数据库中的图像来自网络，需要裁剪之后才能用于网络训练，因此需要先对其进行人脸检测和关键点检测，结果如图5所示.

图5 检测到的人脸和关键点样例

根据提取到的关键点，估算出人脸水平偏转角度，再通过仿射变换旋转图像，克服姿势偏转. 把两眼与嘴巴中心点固定为48个像素，计算出图像的缩放比例，进行尺度归一化. 进行裁剪和灰度变换后，最终图像尺寸为144×144，如图6所示.

图6 对齐矫正之后的图像

输入到网络的图像被随机裁剪成尺寸为128×128的图像，通过图像多尺度进行图像分割，获得尺寸为64×64和32×32的图像，输入到对应尺度的卷积层中，以提取图像的空间结构特征. 本文采用3种下采样方法进行图像尺度化：1）隔行采样，降低图像尺寸，该方法简单易行，但是会丢掉许多图像纹理信息；2）Strid=2的最大值池化；3）Strid=2的均值池化. 同一张图像采用以上3种下采样方法的结果如图7所示.

图7 3种方法下采样的结果

2.3 DCNN模型配置

本文的DCNN模型是在文献[15] DCNN模型的基础上加入多尺度特征提取功能构建的. 采用深度可分离卷积层替代普通卷积层，保留最后一个全连接层，使用可分离卷积层替代第1个全连接层，并根据网络结构重新调整各卷积层的网络参数，将网络改造成适合人脸美丽预测的卷积神经网络，最终提取到人脸图像的256维特征来表征人脸美. DCNN模型的配置如表1所示.

表1 DCNN模型的配置

表1中，downs1和downs2表示下采样层，用于将Crop后的图像进行下采样，并将下采样后的图像送入对应尺寸的卷积层以提取特征图. 其中，pool1+downs1层特征图的尺寸为64×64×48+64× 64×1（64×64×96来自上一层卷积层，64×64×1来自图像下采样层）. 同理，conv2a+downs2也表示追加下采样图像之后的特征图，尺寸为32×32×96+32×32×1. MFM表示Max-Feature-Max激活层；conv_和conv_b分别为逐通道卷积和逐点卷积层，构成可分离卷积层，用于替代普通卷积层.

2.4 Caffe库超参数设置

表2 训练超参数的设置

3 实验结果和分析

3.1 DCNN模型的识别率

在LSAFBD人脸美丽数据库上，使用已公开的DCNN模型进行人脸美丽预测，预测结果如表3所示.

表3 多种模型在LSAFBD人脸美丽数据库上的测试结果（无图像多尺度）

由表3可知：1）由于人脸美丽的主观性以及判别模式的模糊性，以上5个DCNN模型的判别准确率都不是很高；2）DCNN_S是本文图1去掉图像多尺度化层之后的模型，采用深度可分离卷积层降低了模型参数，牺牲了一定量的分类准确率以换取更快的网络运行速度；3）DeepID2网络取得了最好的分类效果；4）参数量最大的VGG网络和参数量较小的GoogleNet网络都取得了较好的结果，但其在图像分类中并未表现出优异性能.

表4 DCNN_M模型在LSAFBD人脸美丽数据库上的测试结果（图像多尺度）

由表4可知：1）DCNN_M模型的人脸美丽预测正确率高于DCNN_S模型，这表明在DCNN模型中加入多尺度化后，改善了模型的特征提取能力；2）多尺度图像的清晰度与所采用的下采样方式关系密切，Max最大池化和Mean池化类似于图像滤波，图像细节损失少，可得到图像纹理变化较缓和的图像，隔行采样去除了更多的图像细节，图像更加锐利，但图像纹理遭到破坏. 根据网络测试结果可知，图像细节保留的越多，测试正确率越高.

3.2 网络训练正确率和损失曲线

Max最大池化下采样方式DCNN模型的训练正确率和损失曲线如图8所示. 训练网络在迭代30万次后趋于收敛，取得了最高59.75%的测试正确率.

图8 DCNN模型的测试正确率、测试损失和训练损失曲线

由图8可知，随着网络迭代次数增加，测试正确率逐渐增加并趋于稳定；测试损失逐渐减小并趋于稳定；在迭代30万次时，网络逐渐趋于收敛；同时，网络训练损失也在逐渐收缩. 这表明本文所设计的网络在LSAFBD人脸美丽数据库上能够正常运行.

3.3 DCNN模型的网络效率与参数量

DCNN模型网络训练参数量与网络深度和各层网络滤波器数量有关，更深的网络层数和更宽的网络宽度能够提取更加丰富的网络特征，提高网络的特征表征能力. 表5给出了4个DCNN模型的训练参数量的统计值，其中VGG_CNN_S的可训练参数量最大，但网络训练对硬件要求也更高，时间消耗也更长. NIN和GoogleNet的网络参数比VGG小，网络训练时间更短，资源开销也小，网络执行效率更高. 同时，本文所构建的DCNN模型，由于引入了深度可分离卷积层，模型参数运算量最小，网络运行速度最快，不仅在配有显卡的台式机电脑上能够快速运行，移植到智能移动设备上也能快速运行；结合图像多尺度化技术，在降低DCNN模型参数的同时，仍然能够取得较高的分类准确率.

表5 DCNN模型网络训练参数量

4 结论

本文构建了一个深度卷积神经网络用于人脸美丽预测. 首先，采用隔行采样、MAX最大池化和MEAN均值池化3种图像下采样方法对图像进行尺度化分割，分别得到128×128、64×64和32×32等3种尺度的图像；其次，将尺度化分割后的图像与DCNN模型具有相同尺度的特征图进行合并，其中，64×64的图像合并到Pool1层，32×32的图像合并到Pool2层，再进行网络训练，提取图像的多尺度特征. 基于LSAFBD人脸美丽数据库的实验表明，本文所构建的网络能够提高网络的特征提取能力，具有更少的网络参数，能获得比同类DCNN模型更好的人脸美丽预测分类正确率，并且移植到嵌入式设备中也能快速运行.

[1] PARKHI O M, VEDALDI A, ZISSERMAN A. Deep face recognition [C]//British Machine Vision Conference, 2015: 1-12.

[2] SUN Yi, WANG Xiaogang, TANG Xiaoou. Deep learning face representation by joint identification- verification [C]//Proceedings of Advances in Neural Information Processing System, 2014: 1988-1996.

[3] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition [C]//CVPR, 2016: 770-778.

[4] SUN Yi, WANG Xiaogang, TANG Xiaoou. Deep learning face representation from predicting 10, 000 classes [C]// CVPR, 2014: 1891-1898.

[5] SUN Yi，WANG Xiaogang, TANG Xiaoou. Deeply learned face representations are sparse, selective, and robust [C]. arXiv, 2014: 1412-1265.

[6] YI Dong, LEI Zhen, LIAO Shengcai, et al. Learning face representation from scratch [C]//CORR, 2014: 1411-7923.

[7] GUO Yandong, ZHANG L, HU Y, et al. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition [C]// ECCV, 2016: 87-102.

[8] GRAY D, YU K. Predicting facial beauty without landmark [C]. Computer Vision, 2010: 434-447.

[9] XIE Duorui, LIANG Lingyu, JIN Lianwen, et al. SCUT-FBP: a benchmark dataset for facial beauty perception [C]//IEEE International Conference on Systems, 2015: 1821-1826.

[10] XU Jie, JIN Lianwen, LIANG Lingyu, et al. A new humanlike facial attractiveness predictor with cascaded fine-tuning deep learning model [C]//Computer Science, 2015: 45-79.

[11] XU Jie, JIN Lianwen, LIANG Lingyu, et al. Facial attractiveness prediction using psychologically inspired convolutional neural network (PI-CNN) [C]// ICASSP, 2017: 1657-1661.

[12] LIN Min, CHEN Qiang, YAN Shuicheng. Network in network [J]. CORR, 2014: 1312-1321.

[13] GAN Junying, ZHAI Yikui, WANG Bin. Unconstrained facial beauty prediction based on multi-scale K-means [J]. Chinese Journal of Electronics, 2017, 26(3): 548-556.

[14] WU Xiang, HE Ran, SUN Zhenan, et al. A light CNN for deep face representation with noisy labels [J]. Computer Science, 2016: 111-118.

[15]GOODFELLOW I, WARDEFARLEY D, MIRZA M. Maxout networks [J]. Computer Science, 2013: 1319-1327.

[责任编辑：熊玉涛]

A Face Beauty Prediction Model Based on Deep Learning and Its Application

JIANGKai-yong, GANJun-ying, TANHai-ying

(School of Information Engineering, Wuyi University, Jiangmen 529020, China)

In order to improve the accuracy of facial beauty prediction, a DCNN model which can extract multi-ply spatial structure features by taking in multi-scale face images is constructed. The Max-Feature-Max (MFM) activation function is used instead of the modified linear unit (Rectified Linear Unit, ReLU) activation function to reduce the network training parameters and extract competitive network features. Experimental results based on the Large Scale Asian Female Beauty Database (LSAFBD) show that our DCNN model achieves the accuracy of 59.75%, which is superior to the existing DCNN model classification results.

deep convolution neural network;facial beauty prediction;depthwise separable convolutions;multi-scale images

1006-7302（2018）02-0045-08

TP391.4

2017-12-01

国家自然科学基金资助项目（61771347，61072127，61372193，61070167）

姜开永（1984—），男，山东临沂人，在读硕士生，主要从事生物特征识别研究；甘俊英，教授，博士，硕士生导师，通信作者，研究方向为信息处理、人机交互、图像信号处理.