基于生成对抗网络的动漫头像生成研究

2021-07-20 11:25彭章龙

软件工程 2021年6期

摘要：在深度学习中，数据是三大核心要素之一。尤其在某些领域，数据的稀有、人工标注造成大量人力的浪费、数据好坏对产出结果的影响，都显现出数据的重要性。鉴于在动漫领域中，人物的制作需要花费大量的人力和时间，所以从动漫头像出发，基于生成对抗网络，结合编码器、残差网络、解码器，经过编码器改变图像的维度，最后利用解码器将提取到的特征数据生成近似于原始图像的数据集。生成对抗网络本身固有的缺点会导致最后的效果并不是很好，于是尝试对生成对抗网络进行深度卷积的改进，再加上WGAN的梯度惩罚思想来优化自编码器基础上的生成对抗网络。

关键词：深度学习;生成对抗网络;数据生成;深度卷积

中图分类号：TP391 文献标识码：A

Abstract： In deep learning， data is one of the three core elements. Especially in some fields， scarcity of data， manpower waste caused by manual labeling， and the impact of data quality on the output results all show the importance of data. As in animation field， production of characters takes a lot of time and manpower， this paper starts from animation profile picture and combines encoder， residual network and decoder based on Generative Adversarial Network. After the encoder changes the dimension of the image， the decoder is used to generate a dataset similar to the original image with extracted feature data. The inherent shortcomings of the Generative Adversarial Network itself will lead to an unideal final effect， so the author tries to improve the Generative Adversarial Network by deep convolution， coupled with the gradient penalty idea of WGAN （Wasserstein Generative Adversarial Network） to optimize the Generative Adversarial Network based on the autoencoder.

Keywords： deep learning; Generative Adversarial Network; data generation; deep convolution

1 引言（Introduction）

生成對抗网络（Generative Adversarial Network，GAN）于2014年被在蒙特利尔读博士的Ian Goodfellow提出，在之后的几年，一直都处于火热研究对象的状态之中[1]，且于2016年席卷AI领域顶会，深度学习三大马车之一的Yann LeCun曾形容它为“20年来深度学习领域最酷的构想”。生成对抗网络被广泛应用于图像生成[2]、图像转换[3]、图像修复[4]，在目标检测[5]、行人识别[6]等方面也有着重要的辅助作用。大量的研究者希望将生成对抗网络应用于各个领域，例如有在医学领域的研究者希望借助生成对抗网络的学习方式及其学习能力来生成药学分子结构和合成新材料的配方。

2 生成对抗网络（Generative adversarial network）

2.1 网络结构与原理展示

生成对抗网络（Generative Adversarial Network， GAN）因为有着极好的生成能力以及效果而得到了广泛的认知，其网络结构如图1所示。

它同时包含了判别式模型和生成式模型。生成式模型是为了产生与来自真实数据相似的数据，让判别式模型误以为是真实数据，而判别式模型是为了极力地判断出其数据并不是真实的数据，将其与真实的数据分别开来。

在判别式模型和生成式模型两者互相对抗学习的情况下，判别式模型的判断会让生成式模型逐渐产生逼近于真实的数据，同时生成式模型在生成近似于真实数据的时候，判别式模型的判别能力也会增强，努力找寻两者数据之间的差距，将两者区别开来。到最后，生成式模型会拥有生成真实数据分布的能力，判别式模型会因为生成式模型能力的增强而增强，对生成样本判断为虚假样本的性能增强。

整个过程与画家成长过程相似，画家不断学习自己的画与名画之间的差距，画出的画更接近名画来干扰鉴画师，而鉴画师也会不断学习鉴别假画与真画之间差距的能力。

生成对抗网络采用博弈论中零和博弈游戏的思想，以期达到纳什均衡点。

生成式模型不断生成数据分布，判别式模型判断数据是否为真实数据，两者相互对抗，到最后两者都学习到最优状态。

编码器部分用来提取数据特征，卷积之后进行实例归一化（Instance Normalization， IN），激活函数用Relu。

ResNet部分用来结合特征，同样使用IN层，将PRelu用作激活函数，保留特征，丢失最小的特征信息，组成新的具有相似信息的特征组合。

解码器部分将经过ResNet部分的特征数据转换成特征图。

4.4 判别式模型

判别式模型与生成式模型形成竞争关系，判别式模型的鉴别能力对生成式模型生成的图片存在质量影响。考虑到在梯度传播过程中，参数在更新的时候梯度会出现消失的情况，在卷积操作之后加入批量归一化的操作处理方式，以此来保证判别式模型的稳定训练，之后再加入Leaky-Relu激活函数（参数化修正线性单元），保证Relu优点的时候，不会出现Dead Relu的问题。

4.5 结果

生成结果图如图4所示。

两个模型的学习率都是0.002。学习率增加，收敛速度也增加的同时会出现生成式模型倒塌，而将学习率降为0.002时，生成式模型倒塌的次数也会下降，相对稳定。

训练时间较长，生成的图像有属于失败的情况，但是对于大多数图像来说属于良好的情况。

5 結论（Conclusion）

本文将已有的自编码器与ResNet在生成对抗网络上进行动漫头像的生成，本着无监督学习在深度学习方向上对智能发展的引导，在自编码器学习特征的过程中加入判别信息，经过惩罚传递判别信息，中间残差网络提高数据特征，以此重构具有相似特征的动漫图像。

在将来如果有更好的条件将弥补本文的不足，使用性能更强的GPU增加网络参数，扩大网络规模，以期生成分辨率更高的图像，解决复杂度以及多样性问题。

参考文献（References）

[1] CRESWELL A， WHITE T， DUMOULIN V， et al. Generative adversarial networks： An overview[J]. IEEE Signal Processing Magazine， 2018， 35（1）：53-65.

[2] HUANG H， YU P S， WANG C H. An introduction to image synthesis with generative adversarial nets[DB/OL]. [2018-03]. https：//arxiv.org/pdf/1803.04469.pdf.

[3] 朱海峰，邵清.基于深度学习的图像风格转换研究[J].软件， 2020，41（3）：102-106，117.

[4] DEMIR U， UNAL G. Patch-based image inpainting with generative adversarial networks[DB/OL]. [2018-03].https：//arxiv.org/pdf/1803.07422.pdf.

[5] PRAKASH C D， KARAM L J. It GAN DO better： GAN-based detection of objects on images with varying quality [DB/OL]. [2019-12]. https：//arxiv.org/pdf/1912.01707.pdf.

[6] GE Y X， LI Z W， ZHAO H Y， et al. Fd-gan： Pose-guided feature distilling gan for robust person re-identification[DB/OL]. [2018-10]. https：//arxiv.org/pdf/1810.02936.pdf.

[7] 张恩琪，顾广华，赵晨，等.生成对抗网络GAN的研究进展[J].计算机应用研究，2021，38（04）：968-974.

[8] LECUN Y， BENGIO Y， HINTON G. Deep learning[J]. Nature， 2015， 521（7553）：436-444.

作者简介：

彭章龙（1995-），男，硕士生.研究领域：图像处理.