魏富强,古兰拜尔·吐尔洪,买日旦·吾守尔
新疆大学 信息科学与工程学院,乌鲁木齐 830046
伴随着信息技术的革新、硬件设备的算力不断更替,人工智能在信息化社会蓬勃发展,以生成模型[1]为代表的机器学习领域,持续受到研究者关注。它被广泛应用于计算机视觉方向,如图像生成[2-4]、视频生成[5-7]等任务;以信息隐写[8-9]、文本生成[10]等任务为代表的自然语言处理方向;音频领域的语音合成[11]等方向,并且在这些任务中,生成模型均表现出了与其他模型相比惊人的效果。
相比其他生成模型,2014年由Goodfellow等人[12]首次提出的生成对抗网络模型在生成图像数据方面的表现令研究者惊异,目前它在计算机视觉、医学、自然语言处理等领域的研究一直保持着活跃状态。此外,生成对抗网络模型的研究工作主要集中在以下两个方面:一是聚焦于理论线索尝试提高生成对抗网络的稳定性和解决它的训练问题[13-17],或考虑从不同的角度如信息论[18-19]和模型效率[20-22]等方面丰富其结构;二是关注于生成对抗网络在不同应用领域内的变体结构和应用场景[13,23-24]。除了图像合成,生成对抗网络还在其他方向成功应用,如图像的超分辨率[25]、图像描述[26]、图像修复[27]、文本到图像的翻译[28]、语义分割[29]、目标检测[30-31]、生成性对抗攻击[32]、机器翻译[33]、图像融合[34-37]及去噪[38]。基于以上论述,系统地在理论和应用层面研究生成模型具有重要的意义。
本文首先介绍了生成式模型的基本原理,阐述了生成对抗网络的理论支撑。其次介绍了评价生成式网络的各项指标,说明了它们之间的区别与联系。紧接着讨论了生成对抗网络在图像和其他领域方面的热点应用研究进展,并指出了研究生成对抗网络的挑战及潜在的突破口,最后对论文进行了概括总结。
基于数学表达形式区分,最大似然原理是生成模型实现建模的数学基础。根据其似然的表示特点可以分为基于显式密度估计和隐式密度估计的方法。基于显式密度估计的生成模型,其难点在于找到可以全面表达所有生成数据复杂度的模型,通过改变似然结构表达式的形式,使用梯度优化方法使模型密度函数的定义融入似然结构的表达式达到最优,计算方式在形式上分为精确计算和近似估计两种。基于隐式的密度估计的生成模型,重点在于通过定义的隐变量来确定拟合的模型,相比显式密度估计方法不需要计算密度函数。
基于以上内容的介绍,以最大似然原理为理论基础的生成模型大家族分类及各分类下所具有的代表性模型结构,如图1所示。
GAN[12]是另一种基于直接方式的隐式密度生成模型,它的结构图和处理过程如图2 所示,其中关键结构为生成器G和判别器D:G负责从输入数据的噪声分布中随机采样,学习其分布生成尽可能“真”的假样本来欺骗D;而D则负责对G生成的样本,结合真实数据进行识别并判断真伪(Real或者Fake,记为R和F)。
图2 生成对抗网络模型Fig.2 Model of Generative Adversarial Network(GAN)
GAN的值函数V(G,D)为:
其中,值函数的优化目标为最大化G的参数ω和最小化G的参数θ。判别器的目的是让公式(1)最大,即公式中的第一项和第二项都要最大。第一项最大的意思是Dω(x)->1,真样本为真的概率接近1;而第二项最大的话,需要Dω(Gθ(z))->0,假样本为真的概率为0;相反,生成器的目的是让公式最小,其第一项和第二项都要小,即Dω(x)->0,Dω(Gθ(z))->1,这要求真样本为真的概率小,假样本为真的概率接近1,此时,生成的样本就可以假乱真。
由公式(1)可知,生成对抗网络是从噪声中采样一次就生成一个样本,非Markov chain形式串行方式生成样本,且不需要计算变分下界可直接生成。这使得生成的样本质量比其他的生成模型好。但生成对抗网络也引入了新的挑战:生成过程中的内在表现方式无法展示和不可控因素较多;训练过程中的不稳定性;以及如何客观地评价生成模型。
对GAN 模型理论的溯源讨论之后,如何评价模型性能的衡量指标是值得关注的,文章接下来详细概述了模型评价指标,并分析了生成对抗网络在生成数据方面的研究进展及GAN 改进的经典变体,其次列举了热点应用领域,最后展望了末来研究的潜在突破口。
鉴于定性评估的内在缺陷,寻找合适的定量评估来提高模型性能变得尤为重要,它们应该尽可能考虑以下的要求:
(1)质量可评价性。对生成样本清晰度高、视觉感知较好等图像质量问题可以评价,即对能够评价生成质量优劣的模型给予高分。
(2)多样性。可以评价GAN各种失衡影响因素,如过拟合、模式缺失、模式崩溃、简单记忆等现象,即对生成具有多样性样本的模型应给予高分。
(3)可控性。针对连续性质的隐空间,其中若对于GAN 的隐变量z具有明显的含义指向,样本的生成结果就可控制z的变化得到,即对隐变量处理更好的模型应给予高分。
(4)有界性。即对评价指标的数值作范围界定,给出其上下界。
(5)一致性。即评价指标的结果与人类感知的判定结果相似或一致。
(6)低差异性。即评价指标对图像变换前后语义信息未改变的数据,评价差别应足够小。
(7)轻量性。即评价指标的设计过程中减少样本的参与,以少样本低计算复杂度为目标。
由于实际应用场景的复杂性,以上要求不可能同时满足,但参考上述要求所设计的各个GAN 评估指标之间既有联系也有区别,还有其自身的优缺点不可忽视,本文以下内容对GAN 模型的评价指标进行了全面详述。
对GAN生成图像的质量优劣评价是基于人类的主观意识,故计算机由于其局限性无法像人一样清晰辨别生成图片的好坏。在客观评价时,常把不符合目标预期的图片和线条足够明晰但感知异常的图片均视为低质量生成样本,故需要设计量化指标来统一衡量标准。
2.1.1 Inception分数
Inception 分数(Inception Score,IS)指标是GAN 模型生成图像常用的评价标准之一,采用熵的形式体现了量化的概念。生成图片的多样性越好,表现在类别分布上会趋向均匀分布,此特性也是IS考虑的问题之一。多样性的描述与熵的大小成正比关系,即相对于类别熵的取值越大多样性越好,反之亦然。针对多样性和图像质量都需要考虑的场景,以互信息特性设计GAN 评价指标。为简化计算添加了指数项,最终IS数学表达形式被定义为:
2.1.2 IS的缺陷
IS作为生成对抗网络模型主流的评价指标,在图像生成方面已具备成熟的评价机制,但也存在一些不可忽视的问题和缺陷,如下所述:
(1)对GAN过拟合状态无法检测。
(2)对数据集ImageNet的图像独具青睐。
(3)对崩溃问题无法检测。
(4)忽略了真实数据集的分布。
(5)是一种伪度量。
上述内容分析了IS指标的优劣情况,其缺陷方面的问题限制了其通用性,故以下内容介绍了IS几种改进形式的指标,继承其优点改进其缺点,促进了IS指标的推广与应用。
2.1.3 修正的Inception分数
修正的Inception 分数(Modifified Inception Score,M-IS)也是IS的改进版本之一,它重点关注了评价多样性问题中产生的类内模式崩溃问题。M-IS对于同一类样本的标签引入了交叉熵进行计算,将类内交叉熵融入IS可得M-IS,即:
M-IS的关注点集中在GAN模型生成质量和类内多样性。M-IS得分与GAN生成性能成正相关。
2.1.4 激活最大化分数(AMS)
激活最大化分数(Activation Maximization Score,AMS)关注了IS 评价指标在数据类别分布不均匀时的不合理性,通过引入训练数据集和生成数据集的差异度量参数来改善此问题。AMS的表达式为:
显然,AMS分数与生成性能之间存在反比关系,即GAN生成性能越差AMS的得分越大,反之亦然。
Mode分数(Mode Score,MS)主要解决IS缺陷之一即忽视了训练数据集的标签信息,并在关注此条件时满足IS的计算要求。MS定义为:
与IS的定义式相比较,MS不仅在生成数据上进行了计算,而且在训练数据集上也参与了计算。
Fréchet Inception Distance(FID)计算了真实样本与生成样本在特征空间高斯分布的弗雷歇距离,此距离则代表了FID的值:
FID的数值决定了两个高斯分布之间的亲疏关系,并与GAN生成性能成反比,即FID数值越大,另个分布关系越疏远,GAN性能越差,反之亦然。
如图3 是在同一数据集ImageNet 上IS 与FID 两种指标的实验得分情况,其中图像尺寸都为128×128。
图3 同一数据集不同指标定量得分情况Fig.3 Quantitative scores of different indicators in the same dataset
在各种应用中,噪声鲁棒性较好以及生成图像评价分数符合人类感知两个特点是FID 相比其他标准的显著区别,另外计算复杂度也较低,但其高斯分布的简化假设是其理论上的不足之处。
最大均值差异(Maximum Mean Discrepancy,MMD)是在希尔伯特空间度量两个分布差异的一种方法,其常被应用于迁移学习。相比FID的设计思路,将求解弗雷歇距离的方法替换为MMD方法,两个分布产生的距离即可作为GAN的评价指标。在这里MMD距离与GAN生成性能成反比,即距离越大生成性能越差,其训练数据集和生成数据非分布越疏远。
Wasserstein 距离(Wasserstein Distance)将GAN 评价指标的距离表示更换为Wasserstein距离形式,其距离值也与GAN 性能成反比,与FID 的距离衡量结果类似。Wasserstein 距离评价指标优点是可对模型的简单记忆与模式奔溃问题进行识别,而且计算速度很快;缺点是因为训练过程过度依赖判别器和训练数据集,限制了其只能应用在特定训练集训练的GAN场景。
1-最近邻分类器(1-Nearest Neighbor classifier,1-NN)的具体实现为:利用比较思维,期望计算出训练数据集与生成数据集的概率分布进行比较。若二者结果相等则GAN生成性能优越,若差异较大则性能较差,此类方法通常采用准确率来作为评价指标。
如图4 所示,展示了任意测试样本在1-NN 上的正确率变化,差异越大正确率越高,即可反映GAN 生成性能。
图4 总正确率对比Fig.4 Comparison of total accuracy
对于GANtrain和GANtest方法,它的设计思路是:计算给定的准确率并进行对比分析,从而评价能够生成多类样本GAN 的性能。定义:GANbase 代表验证集上计算的准确率值,此时分类器在训练集上训练;GANtrain代表验证集上计算的准确率值,此时分类器在生成集上训练;GANtest 代表生成集上计算的准确率值,此时分类器在训练集上训练。
在理想情况下,GANbase和GANtest的数值应该趋于一致,但出现以下几种情况时,说明GAN模型出现了异常:若GANtest 过高,则可能GAN 产生了过拟合、简单记忆的问题;若GANtest过低,则可能GAN数据集分布欠佳,图像质量较差。
归一化相对鉴别分数(Normalized Relative Discriminative Score,NRDS),此方法设计思路是:根据实践经验的分类器特性,若有足够多的epoch,则可以得到一个能够将训练集和生成集两类样本完全区分开的分类器C,分类结果用1和0分别表示训练集的样本和GAN生成的样本,此类方法的实质是把握分类器的epoch次数,通过观察具体的epoch 变化就可衡量GAN 的生成性能。如图5所示描述了单个epoch的训练逻辑。
图5 单个epoch训练示意图Fig.5 Schematic diagram of single epoch training
针对图像质量的量化方法,相比IS 等指标区别明显,该类评价指标更关注图像本身的质量,而非借助已训练好的神经网络等方法来确定模型生成表现能力。
2.9.1 结构相似性(SSIM)
结构相似性(Structural SIMilarity,SSIM)的设计思路是关注图像的3 个特征:亮度l(x,y)、对比度c(x,y)、结构s(x,y)。从两幅图像相似度的角度思考,图像样本x与y之间通过以上3点特征进行比较衡量,以此来确定评价指标SSIM。王曙燕等人[39]在验证生成对抗样本模型的性能时,以SSIM指标计算,验证了图像多样性与SSIM指标的关系。可依次在图像上取N×N大小的以x或y为中心的图像块,计算3个参数并求解:
2.9.2 峰值信噪比(PSNR)
峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作为评价图像质量的客观标准指标之一,通过对不同PSNR值的对比来评价条件生成对抗网络的性能。若为彩色图像有两种计算方法:一是计算RGB 三通道的PSNR然后取均值;二为计算三通道MSE并除以3,再计算PSNR。综上述所,显然PSNR 的值与两张图像差异成反比,即PSNR越小,图像之间的差异越大,则生成性能越差进而影响生成图像质量较差。彭晏飞等人[40]利用SSIM和PSNR评价方法,实现了基于GAN的单图像超分辨率重建法。
2.9.3 锐度差异(SD)
锐度差异(Sharpness Difference,SD)和PSNR 指标具有相似的计算方式,但其更关注锐度信息的差异。首先计算其锐度误差,然后计算SD为:其中,符号的定义与PSNR 的数学表述一致。显然,SD值也与生成图像的质量成负相关,即SD 值越大图像之间的锐度差别越小。
鉴于GAN 的初始设计架构,以上评价方法都将生成器视为黑盒子,即未将设计视角聚焦于生成器的概率密度函数。平均对数似然方法的提出解决了该问题,它的步骤为:假设概率密度函数pg的表达式关系存在,则评价指标的设计思路可为:计算训练集的样本在pg下的对数似然函数,原理等价于KL散度,但采用对数似然函数形式更加简单。
但大量实践经验表明其评价效果欠佳,尤其在遇到高维分布的情况时,非参数对概率密度函数的估计存在误差。另外,对数似然函数与样本的质量依赖关系较差,即可能会出现GAN给出对数似然值很高,但样本质量依旧很差的情况。
基于以上论述可以看到,不同的指标侧重评价GAN 模型的关注点各异。针对实际应用中丰富的场景,应该尽可能在保持模型性能的前提下,多样化地设计评价指标。
大数据赋能深度学习算法使其实现了快速发展,目前最先进的GAN 能够生成不同类别的高保真自然图像[41],且经过适当的训练,它能够从标准数据分布中合成语义上有意义的数据。Huang等人[42]和Goodfellow等人[43]讨论并对比了GAN模型及其变体在生成样本方面的重要性,Creswell等人[44]对GAN的评估方法和训练问题进行了调查总结。这些通用的图像生成调查报告,讨论了GAN 的一般内容,没有考虑每个模型的构造细节及优缺点。表1整理了近几年发表的一些GAN不同应用综述文章[45-58]。值得一提的是,GAN 自身伴随着3 个重要的挑战问题[54]待解决。
表1 近年来不同GAN应用的综述总结Table 1 Summary of GAN surveys for different applications in recent years
(1)模式崩塌:关注并不局限于达到平衡的过程。GAN 最常见的故障之一是便是模式崩溃,当G将各种不同的输入映射到相同的输出时,就会发生这种情况。
(2)梯度消失:一个训练良好的D将损失函数压缩到0,因此,梯度近似为0,这将向G提供少量的反馈,导致学习放缓或完全停止。同样,不准确的D会产生错误的反馈,从而误导G。
(3)收敛性:尽管理论上已经证明了全局纳什均衡的存在,但要达到这个均衡并非易事。GAN 经常会产生振荡或循环行为,并倾向于收敛到局部纳什均衡,这在主观上可能远离全局均衡。
文献[44,59]表明,目前关于GAN 结构和性能的综述论文很少,其他的研究工作主要集中在不同类型GANs架构的性能验证上。由于基准数据集不能很好地反映多样性,这些工作对于GAN 的综合论述是有限的。因此,研究任务多集中在生成图像质量的评价上,而这种结果导向也会降低GAN生成不同图像的有效性。
基于以上观察,首先介绍了GAN 的发展体系来解决它的3 个挑战问题,并回顾了GAN 相关网络结构在合成图像的生成和识别方面的技术。其次,重点讨论了GAN的各种应用,包括图像转换、图像生成、视频生成、文本生成、图像超分辨率及其他领域等内容。
针对各种应用需求而诞生的不同GAN 变体,衍化改进的方向主要是基于结构作出的改变和设计不同的损失函数。
为了设计GAN的初代架构,G和D[12]都使用了全连接(Fully Connected,FC)神经网络,基于Toronto Face Dataset、MNIST[60]和CIFAR-10[61]数据集来生成假图像。Chen 等人[62]提出了一种基于FC 层而建模的GAN框架,该框架仅在少数几组数据分布上表现出高性能。从基于FC 的建模思想到基于卷积神经网络(CNN)的建模思想,实验证明后者更加适合处理图像类数据,但会引入额外的计算复杂度问题,主要原因有5 个:不收敛;梯度减小;生成器和鉴别器不平衡;模式坍塌;超参数选择。
其中一种解决方案是引入对抗网络的拉普拉斯金字塔方法[63],在模型中将真实的图像转换为多尺度的金字塔式分层图像,训练卷积GAN 生成多尺度多层次的特征图,并将所有特征图结合到最终的特征图以此来降低计算难度。在文献[13]中提出的深度卷积GAN 模型能够平滑生成器与鉴别器的训练过程,为提高稳定性做了一定贡献。对于3D合成数据的生成,Wu等人[64]提出使用自动编码器和内容信息直接从2D 输入图像重建3D 目标的架构,但这种方法存在很高的计算成本问题。
接着,便是文献[65]所提出的CGAN来解决图像到图像的翻译问题,这种方法不仅学习了输入图像到输出图像的映射,还采用了损失函数来训练这种映射。与其他GAN架构[66-67,20]相比,条件GAN在多模态数据上有显著的性能。
另一方面,InfoGAN使用了一小部分潜在变量之间的互信息来获取语义信息的结构,该模型可以应用于以一种无监督的方式确定不同的对象。Odena等人[68]提出了架构类似InfoGAN 的分类器ACGAN,损失函数的优化提高了其分类的性能。在文献[69]中,提出了一种使用BAGAN的数据增强框架,在隐空间中应用类条件作用来运行面向目标类的生成过程。BAGAN 的结构与InfoGAN和ACGAN相似,但BAGAN只产生一个输出,InfoGAN和ACGAN有两种输出。
在文献[70]中,提出了DCGAN模型,其优势来自于作为条件变量的语义布局和场景属性。这种方法能够在不同的情况下产生真实的图像,具有清晰的对象边缘。吴春梅等人[71]利用了DCGAN的优势并结合了沙漏网络,实现了有效的人体姿态识别。在文献[72]中,建议将自动编码器网络(auto-encoder)与GAN[12]相结合,整合两模型的优点:GAN 可以产生清晰的图像但会损失部分特征,而auto-encoder 生成的图像模糊但模型有效且准确。
接下来介绍的便是渐进式GAN 和辅助分类器GAN,前者主要用来解决训练稳定性的问题,后者主要用来解决模式坍塌问题,各自分类的领域都有不少佳作。渐进GAN 扩展了标准网络结构,其思想是从渐进神经网络中提取[73]。此类模型性能表现良好,可以广泛应用于提取复杂的特征是渐进网络的特点,在训练过程中逐渐增加D与G,所有的变量都可以参与训练,这种渐进式的策略帮助网络取得了稳定的学习率。最近,文献[74-75]中的GAN 结构采用了这种训练策略,来提高其模型的整体表现能力。
为了提高GAN 的半监督学习性能,文献[68,76]提出在鉴别器中增加一个额外的精确辅助分类器。实验结果表明,辅助分类器GAN 能够生成更清晰对象边缘的图像,并能较好地处理模式坍塌问题,且带有辅助分类器的GAN在诸如图像到图像转换[68]和文本到图像合成等应用中具有显著的性能。
在对抗域适应研究领域,非配对图像到图像的转换模型最近在不同的域适应任务上都有很好的性能。图6展示了CycleGAN 和DCGAN[13]基于训练损失的实验性能。最近,有一种针对非配对图像的新模型CoGAN,提出使用两个共享权重生成器来产生带有随机噪声的两个域的图像。所有这些模型在大量的图像到图像转换任务中都有令人信服的视觉结果,但是,大范围域的变化可能会降低这些方法生成大规模训练数据的能力。表2 总结了最经典的十多种基于GAN 改进、衍化的模型,并整理对比了其改进点、优缺点与各自的使用场景。
表2 经典GAN改进模型的总结与对比Table 2 Summary and comparison of classical improved GAN models
图6 CycleGAN和DCGAN模型在flickr数据集上基于各自训练损失的性能评估Fig.6 Performance evaluation of CycleGAN and DCGAN models based on their respective training losses on flickr dataset
3.2.1 图像转换
大多数计算机视觉问题可以视为图像到图像的转换问题,即从一个域映射到另一个不同域的图像。图7展示了猫及其姿态转换为其他物种的结果。
图7 猫到其他物种的转换结果Fig.7 Cat to other species translation results
图像到图像的转换还类似于风格转换[77],作为输入的是一幅风格图像和一幅内容图像,而模型输出的是一个包含内容和风格的图像,它不仅传递图像的样式,还控制了目标对象的特征。
图像到图像的转换问题可分为监督学习和无监督学习两种。在监督方法中,不同领域的成对图像[65]可以使用。在无监督模型中,只有两组分离的图像,一组由一个域的图像组成,另一组由其他不同域的图像组成,没有成对的样本来表示一幅图像如何转换成不同域的对应图像。
3.2.2 图像生成
本节主要讨论生成对抗网络在图像生成任务中的3个应用领域:医学成像、三维重构、图像融合。而对此类任务中合成数据的方法具有以下要求:(1)有效。产生有意义的和充分的数据样本。(2)可感知任务。创建有助于目标网络更好性能的样本。(3)现实的。产生有助于最小化领域差距和增强泛化的现实样本。图8 展示了BEGAN、CGAN、LSGAN、StarGAN、DA-GAN模型在MNIST、FashionMNIST、CelebA、CIFAR-10 图像数据集上样本生成的实验结果。
图8 不同GAN模型在不同图像数据集上样本生成结果Fig.8 Different GAN models generate sample results on different image datasets
(1)医学成像
一般来说,在医学成像中使用GAN有两种方法:第一种集中在生成阶段,这有助于实现训练数据的基本结构,以创建真实的图像,使得GAN能够更好地处理数据稀缺性和患者隐私问题[78-82]。第二种集中在判别阶段,其中判别器可以被认为是未处理图像的先验学习,因此可以作为伪生成图像的检测器。
生成阶段:Sandfort等人[83]提出了一种基于CycleGAN的数据增强模型,以提高CT 分割中的泛化性。Han 等人[84]提出了一种基于GAN 的两阶段无监督异常检测MRI 扫描方法。在文献[85]中,通过将创建的合成MR图像与真实图像进行比较,讨论了两种无监督GAN 模型(CycleGAN和UNIT)的表现结果。
判别阶段:Tang等人[86]提出了一种基于叠加生成对抗网络的CT图像分割方法,网络第一层减少CT图像中的噪声,第二层创建具有增强边界的更高分辨率图像。在文献[87]中,提出了一种基于无监督学习的GAN 方法,能够识别异常图像。该模型包含了新数据到GAN潜在空间的快速映射技术,且这种映射是基于一个训练效果良好的编码器。Dou等人[88]提出了用于MRI和CT的GAN,通过以无监督方式支持源域和目标域的特征空间来处理高效的域转移。
(2)三维重构
GAN 在三维空间上对物体的立体形状补全或重构,是对三维重构技术的完善和扩展。Wang 等人[27]提出了一种混合结构,使用递归卷积网络(LRCN)的3D-ED-GAN模型。图9展示了3D-ED-GAN通过LRCN时的低分辨率形状完成或重建结果。Wu等人[64]提出了3D-VAE-GAN模型,该模型利用体积卷积网络和生成对抗网络最新的研究理论从概率空间生成3D对象。在文献[89]中,介绍了一种新的GAN训练模型来实现物体详细的三维形状。该模型采用带梯度惩罚的Wasserstein归一化训练,提高了图像的真实感,这种架构甚至可以从2D图像中重建3D形状并完成形状补全。
图9 现实世界物品扫描的3D形状完成效果Fig.9 3D completion results on real-world scans
Yang 等人[90]提出了一种3D-RecGAN 模型,该模型从一个随机深度视图重建指定对象的完整三维结构。在文献[91]中,提出了一种迭代的GAN 模型,它根据物体的几何形状和外观,迭代地将输入图像转换为输出图像。Hermoza和Siiran[92]在GAN结构上提出了一种编码器-解码器3D 深度神经网络,结合了两个目标损失:用于3D 物体重建的损失和改进的Wasserstein GAN 损失。文献[68]提出了用于语义部件编辑、形状类比和形状插值以及三维物体形状补全的代数操作和深度自动编码器GAN(AE-EMD)。
(3)图像融合
从一组输入图像中生成新图像的技术是GAN架构系统中一个有趣的研究领域,该技术被称为图像融合。在文献[36]中,提出了一个基于GAN 的框架,称为FusionGAN,它通过控制两个输入图像来生成融合图像。实验证明,融合方法能够改变输入图像的形状和特征,生成新的图像,同时保留输入图像的主要内容。Zhan等人[35]提出了一种新的融合方法SF-GAN,将前景物体和背景图像合成真实图像,通过一系列的实验证明了该模型的有效性。此外,想关文献[34,37,93-94]还提出了几种使用GAN 体系结构的方法,以便将输入转换为所需的形状,并提高融合性能。
3.2.3 视频生成
视频可通过逐帧分解理解为多张图片的组合,故而在GAN 生成图像的基础上,实现视频的生成和预测[89]。视频一般而言是由相对静止的背景色和动态的物体运动组成的,VGAN[6]考虑了这一点,使用双流生成器以3D CNN 的移动前景生成器预测下一帧,而使用2D CNN 的静态背景生成器使背景保持静止。Pose-GAN[7]采用混合VAE 和GAN 方法,它使用VAE 方法在当前的物体姿态和过去姿态隐藏的表示来估计未来的物体运动。
基于视频的GAN 不仅需要考虑空间建模,还需要考虑时间建模,即视频序列中每个相邻帧之间的运动。MoCoGAN[5]被提出以无监督的方式学习运动和内容,它将图像的潜在空间划分为内容空间和运动空间。DVD-GAN[95]能够基于BigGAN 架构生成更长、更高分辨率的视频,同时引入可扩展的、视频专用的生成器和鉴别器架构。
3.2.4 图像修复
图像补全是一种传统的图像修复处理任务,其目的是填补图像中内容缺失或被遮盖的部分,在目前的生产生活环境中此类任务得到广泛的现实应用。大多数补全方法[96]都是基于低级线索,从图像的邻近区域中寻找小块,并创建与小块相似的合成内容。王海涌等人[97]借助此原理,实现了局部遮挡情况下的人脸表情识别,识别效率较高。与现有的寻找补全块进行合成的模型不同,文献[98]提出的模型基于CNN 生成缺失区域的内容。该算法采用重构损失函数、两个对抗性损失函数和一个语义解析损失函数进行训练,以保证像素质量和局部-全局内容的稳定性。
在文献[99]中,为了完成图像补全,引入了融合块来生成灵活的Alpha 合成图,用于组合已知和未知区域。融合块不仅提供了恢复和现有内容之间的平滑融合,而且提供了一个注意力机制,使网络更多地关注未知像素。然而,该模型在CelebA数据集上表现良好,但在高分辨率图像上表现不佳然而,如图10所示。
图10 图像补全应用的生成效果Fig.10 Generating effect of image completion application
3.2.5 文本生成
GAN 在图像上的性能表现,让众多研究者在文本生成领域也提出了基于GAN 的一些模型。SeqGAN 与强化学习结合,避免了一般GAN 模型不能生成离散序列,且可在生成离散数据时能够返回模型的梯度值,此类方法可用于生成语音数据、机器翻译等场景。研究提出的MaskGAN[100]模型,引入了Actor-Critic 架构,可根据上下文内容填补缺失的文本信息。
除了图像生成文本的应用,StackGAN[28]可实现通过输入文本信息来产生相应的文本所描述的图像且图像具有高分辨率,此模型实现了文本与图像的交互生成。此外CookGAN从图像因果链的角度实现了基于文本生成图像菜单的方法,而TiVGAN则实现了通过文本来产生连续性视频序列的构想。
3.2.6 图像超分辨率
图像超分辨率技术主要解决将低分辨率的图像在不失真的前提下转变为高分辨率的问题,且需要在准确性和速度方面保持优越性能,此外超分辨率技术可解决例如医学诊断、视频监控、卫星遥感等场景的部分行业痛点问题,应用此技术产生的社会实际价值不可估量。文献[101]概括了基于深度学习的图像超分辨技术,并将其分为有监督、无监督、特定应用领域3种类型,提供了系统性的超分辨理论与实践方法。文献[25]提出的SR-GAN模型将参数化的残差网络代替生成器,而判别器则选用了VGG 网络,其损失函数通过内容损失和对抗损失的加权组合,相比其他深度卷积网络等模型在超分辨精度和速度上得到了改进,将图像纹理细节的学习表征较好,故而在超分辨领域取得了不俗的效果。
3.2.7 其他领域
CaloGAN和LAGAN被应用于物理学,试图生成粒子图像来代表能量分布。Shin等人[102]将GAN框架扩展到持续学习,使其通过一个称为深度生成重放的GAN框架解决了学习遗忘问题。文献[103]提出了一个能够用于破译密码的框架,使GAN 能应用于密码破译。除以上领域,生成对抗网络还在其他方向成功应用,如:域适应、序列生成、半监督学习、语义分割、对抗攻击、机器翻译、自动驾驶等。
生成对抗网络在如今的学术与工业界研究不断升温,集中在图像生成领域的研究也是如火如荼,出现了各种各样的GAN 模型。但在应用过程中它所面临的3个挑战[61]:模型坍塌、梯度消失及全局收敛问题也逐渐表现出来。
首先,值得关注GAN 研究领域的重点问题之一图像生成质量与多样性,尽管现有的技术可以实现图像高质量生成,但伴随着以上挑战的不断重现,在生成图像多样性的技术发展上却展现出较多的困境,其受限于图像的大小及尺寸、模型的结构设计及复杂度等因素。其次,需要讨论的是为追求产生高质量和多样性皆佳的图像而出现的模型训练效率低下问题,一般而言模型性能和训练效率正相关,即效果越好的模型训练时间就会越长。此外,在主观和客观评价标准上未形成通用且成熟的GAN 模型评价体系,导致在应用场景数据集上表现良好而迁移至其他领域时出现不适用的情况。
通过对生成对抗网络的热点应用的归纳及对现有GAN 网络因其自身缺陷所导致的发展问题讨论梳理,未来研究生成对抗网络的潜在突破口应主要集中在以下几个方面。
理论研究的目的主要是解决GAN模型的自身缺陷问题,但现有的方法都以调整训练参数和修正训练过程为主,而对GAN 自身缺陷的理论探索还不够深入。因此,关注对基础算法的结构设计和以应用目标为导向的损失函数设计等角度进行理论突破。如可关注对传统结构的变体CGAN等网络结合现有算法的优势,对模型的架构进行改进,并设计出通用且合理的约束条件,可保证在模型稳定情况下,关注在保持图像生成质量和多样性具佳的损失函数设计。
相比机器学习,深度学习由于其模型复杂度成量级增长,训练和计算过程“隐蔽”且无法溯源,使得研究模型的内部工作机制变得尤为重要。使用合适的工具,实现模型内部信息流工作机理的透明化研究,可以从根源上发现影响模型稳定性和训练过程的问题,然后对其分析解决以此突破模型的性能瓶颈。尤其对于解决GAN模型是如何生成图像的表征问题及生成器与鉴别器达到全局收敛的可视化问题迫在眉睫。此外,生成网络的可控性问题也尚没有完全攻克,只取得了特定场景的实验效果而未能达到控制效果的不同场景通用性。
在图像生成领域的模型评价方法中,虽然对常见的评价尺度作了一定的介绍,但如何综合且客观地评价不同的模型,仍然没有一个准确严谨的定论。因此,在未来的研究工作中,借助神经网络强大的拟合能力是否可以设计根据场景来定义评价标准的搜索空间,并设计合适的搜索策略,在综合且恰当的评价指标下自动找到该场景适用的最佳模型。实现这一方法,不免会持续关注生成对抗网络的科学性评价标准,此方向仍有巨大的突破潜力及研究价值。
以生成方法为理论基础的GAN 模型,本身具有很强的可扩展性,在研究过程中可以考虑引入其他学科理论知识来提升模型的表现能力,如信息论、生物科学、认知科学等的理论融合。
模型的泛化能力、鲁棒性是GAN 可移植于不同场景的重要参考指标,关注二者可将其扩展到其他领域来挖掘更加有价值的应用场景。因此,结合应用领域的知识,拓展其丰富的应用场景也将是未来的研究热点之一。
总的来说,生成对抗网络在理论和应用方面具有重要的研究意义,是一个具有挑战性的研究问题。
本文首先依托极大似然原理介绍了生成模型,并讨论了似然理论框架下的生成对抗网络。其次,重点介绍了生成对抗网络的各种评价标准,分析了之间的联系与区别,并介绍了GAN模型在数据生成方面的热点应用,包括:图像转换、图像生成、视频生成、图像修复、文本生成、图像超分辨率等。然后对生成对抗网络潜在的研究突破口进行了梳理,即GAN 的理论探索、内部机理、评价方法、领域扩展等,最后对全文进行了概括总结。