于梦珂
摘 要:21世纪以来,在大数据、云计算和物联网等新兴技术不断成熟的大背景下,人工智能得到了第3次井喷式发展。其中,以深度学习为基础的图像处理、语音识别等技术的发展尤为迅猛。而生成式对抗网络是如今深度学习领域中最为前沿也是最令人着迷的领域之一,它自2014年10月被Ian Goodfellow等提出以后,就一直受到人们的广泛关注与追捧。文章从生成式对抗网络的基本原理出发,分析了生成式对抗网络的研究现状及其主要的应用领域,并对生成式对抗网络进行了总结与展望。
关键词:生成式对抗网络;深度学习;神经网络;人工智能
自1956年McCarthy提出“人工智能”一词以来,人工智能的发展几经波折。而最近几年,得益于数据量指数级的增长以及计算机运算力的大幅度提升,人工智能的发展又一次达到了巅峰阶段。虽然人工智能最近几年得到了快速发展,但人们仍然普遍认为,机器离真正的智能还有很大的距离,机器永远不可能替代人类。而自从Ian Goodfellow在2014年10月提出了生成式对抗网络(Generative adversarial networks,GAN)之后,人们的思想就发生了很大的变化。生成式对抗网络GAN主要采用无监督的学习方式,自动从源数据中进行学习,在不需要人工对数据集进行标注的情况下就可以产生令人惊叹的效果,從而使机器真正实现了所谓的“智能”。
首先,本文介绍生成式对抗网络GAN的原理;其次,介绍生成式对抗网络的一系列衍生模型,主要包括条件生成对抗网络CGAN以及基于Wasserstein距离的生成对抗网络WGAN;再次,介绍生成式对抗网络GAN以及其衍生模型的应用。最后,对生成式对抗网络进行了总结与展望。
1 生成式对抗网络原理
生成式对抗网络GAN的根本思想来源于博弈论中的二人零和博弈,其结构包含一个生成器和一个判别器,通过生成器和判别器的相互对抗实现学习。生成器会尽自己最大的努力去生成和源数据分布相同的数据,使得判别器无法区分哪些数据是真实的,哪些数据是生成器生成的。而判别器,会尽可能地准确判断输入的数据中哪些是真实的数据,哪些是生成器生成的数据。为了在这样的二人零和博弈中胜出,生成器会努力提高自己的生成能力,判别器则努力提高自己的判别能力,最终目标就是达到生成器和判别器之间的纳什均衡。生成式对抗网络GAN模型的目标函数如公式(1)所示。
(1)
在公式(1)中,pdata表示真实数据的分布情况,pz表示由生成器生成的数据的分布情况。当训练生成器时,我们希望损失函数V(D,G)越小越好,当训练判别器时,我们希望损失函数V(D,G)越大越好。所以,从根源上来讲,生成式对抗网络就是一个极大、极小问题。
生成式对抗网络的网络结构如图1所示。随机生成的符合某一分布的噪声数据z输入到生成器G中,由生成器生成和真实数据分布一致的数据。然后,把真实的数据x和生成器生成的数据G(z)一并输入到判别器D中,随后,判别器D会尽自己最大的努力判断输入的数据到底是真实的数据,还是生成器生成的数据。最后,根据判别的结果来相应地调整生成器和判别器,直到判别器无法正确判断输入的数据是真实的数据还是生成器生成的数据,模型训练成功,生成器和判别器此时达到纳什均衡。
2 生成式对抗网络的衍生模型
随着人们对生成式对抗网络的研究进入白热化时期,原始GAN的一些问题也越来越受到关注,比如模型崩塌、模型过于自由不可控、模型不收敛等。为了解决这些问题,人们提出了GAN的许多衍生模型。截至目前,GAN的衍生模型已经达到几百种,并且衍生模型的数量仍以很快的速度在不断增长。在此,列举一些常见的GAN衍生模型。
2.1 CGAN
首先,在原始的GAN模型中,生成器的输入是符合某种分布的随机噪声数据,模型的输出是和真实数据分布一致的随机数据,这两个过程都是随机的,生成的过程太过自由,没有办法控制数据的生成过程,这样就不容易得到想要的结果。其次,虽然监督的神经网络在很多领域取得了成功,但是如果预测输出的类别太多,这些模型还是会存在一些问题。最后,截至目前,大部分工作都集中在学习从输入到输出的一对一映射,但现实中有很多问题是一对多的映射。比如在对图像进行标记的时候,一张图片可以有不同的标签,比如一种图片同时有白色的、猫、有尾巴这样不同的标签。那这个就是一对多的映射关系。原始的GAN模型无法解决一对多映射的问题。
基于以上原始GAN模型存在的问题,Mirza[1]在2014年提出了条件生成对抗网络CGAN。在CGAN模型中,作者给生成器和判别器都加了限制条件,这个限制条件可以是标签,也可以是不同模态的数据,然后通过给模型输入数据和标签来构建条件生成对抗网络,这样就能够使CGAN模型快速地达到收敛条件。
2.2 WGAN
在原始的GAN模型中,首先,需要最小化生成数据的分布与真实数据的分布之间的JS散度。但JS距离很多情况下都是常数,梯度下降时,会产生梯度消失。其次,生成样本缺乏多样性。在原始GAN的最优判别器下,会导致出现梯度不稳定现象,而KL散度具有不对称性,会出现模式崩塌现象。
基于以上原始的GAN存在的问题,Arjovsky[2]提出了原始GAN的改进版本WGAN,把Wasserstein距离引入到了生成式对抗网络模型中。在WGAN模型中,作者把原始GAN中的散度用Wasserstein距离来代替,把Wasserstein距离作为优化目标,从根本上解决了原始生成式对抗网络中经常会出现的梯度消失问题。
3 生成式对抗网络的应用
生成式对抗网络最根本的应用就是生成和原始数据分布一致的数据。基于这一本质,近年来,生成式对抗网络在很多领域都取得了良好的应用,尤其是在图像、语音和语言等领域,都达到了很高的准确度。
3.1 图像
生成式对抗网络应用最广泛的领域就是图像领域。图像领域一经应用,就因其强大的生成能力得到了人们的广泛关注。首先,生成式对抗网络可以由低分辨率图像生成高分辨率图像。Wu等[3]提出的SRPGAN模型,对原始的低分辨率图像进行缩放之后,由生成器进行编码和解码,最终生成高分辨率图像[4]。其次,生成式对抗网络還可以用在机器学习中经常见到的图像分类任务中。原始的GAN是无监督模型,对其判别器进行改进,即可用于分类任务,Improved GANs是典型的用GAN来做图像分类的例子。最后,生成式对抗网络可以用于图像风格的转换。利用CycleGAN不需要其他额外的信息就可以将一张图像从源领域映射到目标领域,可以把马变成斑马等。
3.2 语音和语言
原始的GAN模型主要用在处理连续的数据中,而在离散数据上的应用效果并不好。随着研究的深入,人们提出了许多改进的生成式对抗网络模型,使其在处理离散型数据问题时也能得到较好的结果。比较著名的就是SeqGAN模型[5],SeqGAN模型中的生成器采用递归神经网络RNN的改进模型LSTM,在文本生成中取得了较好的效果,该模型在其他的离散型数据生成中同样表现良好。
3.3 其他
生成式对抗网络与其他常用的机器学习算法相结合,可以得到意想不到的结果。在SeqGAN模型中,利用强化学习与生成式对抗网络相结合,解决了非连续性序列生成的问题,可用于序列数据的生成。实验表明,SeqGAN在文本、诗词和音乐的生成上都取得了很好的结果。此外,生成式对抗网络与模仿学习相结合、与Actor-critic方法相结合都取得了良好的应用效果[6]。
4 结语
LeCun在Quora上写道:“生成式对抗网络及其相关的变化,是我认为的机器学习领域近10年最有趣的想法。”让网络来监督网络,采用二人零和博弈的对抗思想来解决问题,是深度学习在人工智能方向上的一大进步。虽然现在的生成式对抗网络及其衍生模型还存在很多问题,仍处于发展的初期阶段,但随着人们对其研究的深入,生成式对抗网络的应用领域会越来越宽广,会给人类带来越来越高的应用价值。
[参考文献]
[1]MIRZA M,OSINDERO S.Conditional generative adversarial nets[EB/OL].(2014-11-04)[2019-05-10].https://arxiv.org/abs//1411.1784.
[2]ARJOVSKY M,CHINTALA S,BOTTOU L.Wasserstein generative adversarial networks[C].Sydney:International Conference on Machine Learning,2017.
[3]WU B,DUAN H,LIU Z,et al.Srpgan:perceptual generative adversarial network for single image super resolution[EB/OL].(2017-12-05)[2019-05-10].https://arxiv.org/abs//1712.05927,2017.
[4]赵增顺,高寒旭,孙骞,等.生成对抗网络理论框架、衍生模型与应用最新进展[J].小型微型计算机系统,2018(12):2602-2606.
[5]LANTAO Y,WEINAN Z,JUN W,et al.SeqGAN:sequence generative adversarial nets with policy gradient[EB/OL].(2016-09-15)[2019-05-10].https://arxiv.org/abs/1609.05473.
[6]王坤峰,苟超,段艳杰.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017(3):321-332.
Abstract:Since of 21 century, artificial intelligence has been developed for the third time under the background of big data, cloud computing and Internet of things and other emerging technologies have been matured. Among them, the development of image processing and speech recognition technology based on deep learning is particularly rapid. Generative antagonistic network is one of the most advanced and fascinating areas in the field of deep learning. Since it was put forward by Ian Goodfellow et al in October 2014, it has been widely concerned and sought after. Based on the basic principle of generative countermeasures network, this paper analyzes the characteristics of generative countermeasures networks. The research status and main application fields are studied, and the generated countermeasures network is summarized and prospected.
Key words:generated antagonistic network; deep learning; neural network; artificial intelligence