基于GANs和迁移学习的人脸表情生成方法研究

2021-02-07 04:54马志萍
仪器仪表用户 2021年2期
关键词:人脸卷积神经网络

马志萍

(北方工业大学 信息学院,北京 100041)

0 引言

人脸表情的分析、识别、生成等一直是各个领域广泛研究的内容,并同时应用在影视动画、游戏娱乐、学术研究等领域。在如今很多影视剧中使用了AI 换脸技术或手机APP 的出入小区门口的人脸识别技术。

自神经网络发展以来,生成对抗网络是继残差网络之后,成为研究人员关注的新热点,其优秀的生成能力被广泛应用在各个领域之中。其中,利用生成对抗网络进行人脸表情生成的研究也一直是研究的焦点并具有重要的意义。例如,基于课堂教学环境下的学生学习兴趣智能化分析研究目前处于初级阶段。在研究学生在教学环境中的学习兴趣的理论模型中采集信息时,缺乏很多表情信息,可利用表情生成补充缺少的信息。

1 相关研究及本文研究方法

深度学习能够真正发挥其潜力,正是因为已有大量的数据可以使用,而神经网络与传统的机器学习算法的不同之处就在于前者获得的数据越多,其性能表现越好;后者则会在到达一定水平时,数据的增加不会对其性能进行提高。越来越多的研究发现,虽然生成对抗网络在大数据集上具有强大的生成能力,但在有限的数据集上生成效果会下降。

为了提高生成对抗网络在有限样本生成的效果,研究人员提出了迁移学习的方法,利用大数据集对源网络进行训练,将其训练权重迁移至目标网络,用来训练小数据集。一般情况下,两个数据集的特征具有一定相关性。经过迁移后的神经网络,性能确实有一定的提高,但仍会出现过拟合等问题。分析可知,简单的迁移学习不能完全解决小样本生成问题。对此,本文在迁移后的每一层加入了AdaFM 模块,并使用两层Style Block 替换了生成器的后4层,帮助神经网络能够更好地提取针对目标任务的特定特征,以此提高生成效果。

2 数据集构建

本文主要实现人脸表情的生成,因此使用CelebA 人脸数据集进行源网络的预训练。CelebA 数据集共有2020,599张人脸照片,包含10000 名不同身份的人,该数据集是由香港中文大学收集整理,并公开提供各界学者使用,该数据集被广泛使用于深度学习中的视觉训练任务。

人脸表情数据集使用的是Radboud 大学Nijmegen 行为科学研究所整理的RaFD 人脸表情数据集。该数据集共8040 张图片,包含67 个模特。实验室主要采集了8 个最有代表性的表情,即愤怒、厌恶、恐惧、快乐、悲伤、惊奇、蔑视和中立。

3 模型构建

在这部分,将详细介绍本研究中使用的迁移学习方法以及改进后的生成对抗网络结构。

3.1 基于GP-GAN的迁移学习

本文采用的生成对抗网络是Gaussian-Poisson GAN(GP-GAN),它是Mescheder 等人在2018 年提出的第一个基于生成对抗网络的图像融合网络。为了提高图像融合的精度,GP-GAN 将传统的梯度方法和GAN 结合在一起,其网络结构如图1 所示。

在神经网络中,因为较低层的卷积层获取的是更普遍适用的信息(称作通用部分),高层的卷积层提取的是特定于任务/数据的信息(称作特定部分),所以迁移过程中,选择直接迁移生成器的前四层和判别器的前二层(G4D2),并保持权重冻结;使用预训练模型的权重对目标网络的参数进行初始化,然后使用有限的目标数据训练其余卷积层。

表1 国内外常用人脸表情数据库总结Table 1 The summar of common facial expression database at home and abroad

图1 GP-GAN结构示意图Fig.1 Schematic diagram of GP-GAN structure

图2 替换后的特定部分结构Fig.2 Structure of specific part after replacement

3.2 GP-GAN的改进

3.2.1 调整特定部分

即使是对G4D2 进行迁移之后,特定部分包含的参数仍然很多,但是训练样本有限。受到StyleGAN 的启发,采用基于样式的生成器结构(style block)替换特定部分,其结构如图2 所示。

替换后的特定部分的网络结构简单,参数量减小,计算成本低。Style Block 没有采用传统的生成器使用随机输入作为初始输入,而是用一个可学习的W 作为输入,减少了特征纠缠并且能够在无监督的情况下分离特征。它支持新的属性组合生成新的样本,扩大了生成的多样性。

3.2.2 调整通用部分

为了使目标数据集更好地适应迁移的通用部分(即迁移后的G4 部分),引入了AdaFM 模块,其核心计算公式如下:

其中,i ∈{1,2,…,Cout},J ∈{1,2,…,Cin}被用来与输入特征图进行卷积以输出特征图。它的优点是使迁移后的卷积层更好地适应到目标域中。其结构如图3所示。

经过以上改进后,最终的生成器结构图如图4 所示。

4 实验结果

图3 AdaFM结构Fig.3 AdaFM Structure

图4 改进后的GP-GANFig.4 Improved GP-GAN

在本次实验中,为了评估生成性能,采用了Fréchet Inception Distance(FID)作为实验结果的衡量指标。

FID 的公式如下:

FID 是计算了真实图片和生成图片在特征层面的距离,FID 数值越小代表生成效果越好,公式(2)中:

μr——真实图片的特征均值。

μg——生成图片的特征均值。

∑r——真实图片的特征协方差矩阵。

∑g——生成图片的特征协方差矩阵。

迁移前和迁移后的生成结果图如图5 所示。

迁移前和迁移后的FID 数值结果见表2。

图5 表情生成结果Fig.5 Expression generation results

表2 FID分数(迭代500次)Table 2 FID scores (500 iterations)

由FID 值可看出,在相同的迭代次数下,经过迁移后的网络生成的图片更加接近真实图片且性能提升了近50%;由生成结果图也可看出,迁移后的网络生成的人脸五官更加完整且表情更加明显。

5 结论

实验结果显示引入带有监督机制的特征图约束的方法,对传统的迁移学习有一定效果的提升。从生成结果可以看出,即使是在有限样本的情况下,生成对抗网络也能生成效果较好的图片,证明了本文方法的合理性与有效性。

猜你喜欢
人脸卷积神经网络
基于3D-Winograd的快速卷积算法设计及FPGA实现
有特点的人脸
一起学画人脸
神经网络抑制无线通信干扰探究
从滤波器理解卷积
三国漫——人脸解锁
基于傅里叶域卷积表示的目标跟踪算法
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定