生成对抗网络技术与研究进展

2022-03-23 01:17王利斌李卓群

信息安全研究 2022年3期

梁晨王利斌李卓群薛源

1(北京信息科技大学信息管理学院北京 100192)2(国网思极网安科技(北京)有限公司互联网业务部北京 102209)3(北京信息科技大学计算机学院北京 100032)4(中国人民解放军军事科学院北京 100091) (20202441@bistu.edu.cn)

近年来随着互联网技术的持续发展，数据隐私安全问题逐渐受到各国重视.一系列数据隐私保护标准文件被不断推出，我国推出的等保2.0以及ISO/IEC27001等国际标准均指出，国防、医疗、金融等关乎国计民生的重要领域的安全信息数据泄露会导致公民个人、组织、公众乃至国家利益的重大损失.因此，如何在切实保障国家数据安全这一大背景下，稳健有效地推行数字技术安全快速高质量发展成为一项重要研究课题.

医疗、金融等领域数字信息具有较高隐私价值，相关领域深度学习数据分析的有效开展往往受限于样本集数据规模.在不损害相关客体利益的前提下，数据增强往往成为提升深度学习模型泛化能力的一项主要措施[1].生成对抗网络(generative adversarial networks, GANs)作为2014年提出的一项机器学习架构[2]，近年来已被广泛应用于数据增强以及隐私保护相关领域，其余在包括诸如医疗数据生成[3-4]、金融序列预测[5]、时间序列评估[6]、视频修复[7]、音频生成[8-9]、异常检测[10]等实际应用场景中也有广泛应用.

生成对抗网络基于博弈论中极大极小优化目标策略以及零和博弈理论，其核心思想是通过设计1对互为博弈对象的生成器与判别器，以迭代优化的方式实现两者性能局部收敛，从而实现在最大限度优化样本判别器性能的前提下，生成器仍能够产生尽可能拟合真实样本特征分布的对抗样本.本文主要分析近年来生成对抗网络技术研究情况，介绍主要发展与应用现状，对其当前的主流研究方向进行了探讨.

1 生成对抗网络

传统生成对抗网络框架由2个神经网络模块构成，即由随机噪声训练生成样本的生成器以及根据真实样本判别生成样本是否服从于真实样本分布的判别器.生成器的目标是学习生成虚假的样本分布以误导判别器，使其判别能力最大限度弱化.判别器的目标是学习区分生成器生成的虚假样本分布，从而最大限度优化判别器性能.生成器通过最大似然估计生成指定数据分布模型，通过捕获样本数据的分布将原始输入信息的分布通过参数转换为指定分布的样本.判别器对真实输入样本与生成对抗样本进行二值分类，通过生成模型生成的图像和其他数据来判断其是否是真实训练数据中的数据.对抗网络训练生成过程可视为博弈过程，将生成器和判别器视为博弈的双方.首先由生成器生成对抗样本；判别器通过训练尽可能将对抗样本数据与真实数据区分开并反馈回生成器；生成器根据判别器反馈结果进行优化以生成新数据；然后，判别器继续学习将生成的数据与真实数据区分开.直到整个模型达成收敛.最后，生成器生成理想数据，使得判别器无法判断输入样本是否为真实数据.

生成对抗网络模型如图1所示.生成对抗网络训练流程主要分为2部分，采用同一损失函数L训练生成器与判别器.首先针对判别器训练优化，固定生成器G不变，训练判别器D尽可能地准确判别真实样本和生成样本，尽可能大地区分真实样本和生成样本.循环一定次数更新判别器之后，使用较小的学习率更新一次生成器的参数，训练生成器使其尽可能地减小生成样本与真实样本之间的差距，即尽量使得判别器判别错误.多次更新迭代之后，最终理想情况是使得判别器判别不出样本是来自于生成器的输出还是真实的输出.训练过程需要先训练k次判别器，再训练生成器，其原因是要先拥有一个好的判别器，使其能够较好地区分出真实样本和生成样本之后，才能更为准确地对生成器进行更新.

图1 生成对抗网络模型

2 存在问题

1) 隐私风险.

多项研究表明生成对抗网络创建生成数据过程存在一定的隐私风险.Esteban等人[11]采用三样本测试手段判断合成数据是否与训练数据过拟合.Culnane等人[12]提出针对医疗信息的获取手段，通过医疗使用记录的明文数据与其他来源的个人已知信息，实现澳大利亚医疗账单记录的面向未识别开放数据集个人信息识别技术.

解决隐私问题的一项方案是引入差分隐私，现有基于GANs生成符合差分隐私约束的数据需要在原始GAN框架的基础上引入额外的噪声，因此生成数据的质量(从和原始数据的相似度角度来度量)相比通过原始的GAN框架生成的数据质量要差.

2) 模式崩溃.

生成对抗网络面临的一项技术问题是模式崩溃.当生成对抗网络的生成器输出范围只局限在单一或一小部分类别的输出时会导致模式崩溃.近年来一些变体生成对抗网络被提出用于改善该问题.

混合生成对抗网络(mixture GAN, MGAN)[13]通过假设潜空间的分布为混合分布[14]而非单一分布，扩大了混合潜在分布散度.同时使其中的每一个都涵盖了生成数据的不同模式，使用多个分布的混合来近似数据分布，其中每个分布分别捕获数据模式的子集，从而有效地避免模式崩溃.

双判别器生成对抗网络(dual discriminator GAN, D2GAN)[15]通过将其模型中同时具有KL发散和反向KL发散的优点结合起来，从而不会面临模式崩溃的问题，同时还可以防止不需要的采样.D2GAN共采用2个判别器D1和D2以及1个生成器G.判别器不共享其权重，与原始GAN相反，判别器的输出是非负的，而不是在范围[0,1]内.判别器D1分别对真实数据和生成的(假)数据给出高分和低分.相反，判别器D2分别对生成的(假)数据和真实数据给出高分和低分.生成器G试图同时混淆2个判别器，以此来提升样本的质量.

3) 梯度消失与训练稳定性.

生成对抗网络领域的梯度消失问题是指当判别器性能过高，梯度消失可能会导致生成器的训练过程失败.过于精准的判别器会产生较低的梯度值，向生成器提供过少反馈从而导致其学习过程减慢或停止.

Goodfellow等人[2]提出一种对极大极小损失的调整，以防止此类梯度消失问题.尽管这种损失调整在一定程度上缓解了梯度消失问题，但会导致训练过程更加不稳定和振荡.可考虑采用Wasserstein损失[16]来避免梯度消失，对应提出的方案为条件梯度Wasserstein生成对抗网络(Wasserstein GAN, WGAN)，WGAN使用权重剪裁，确保权重值(模型参数)保持在预定义的范围内.文献[16]发现Jensen-Shannon散度对于测量不相交部分分布的距离并不理想，因此采用Wasserstein距离且在训练模型时试图保持Lipschitz连续性.WGAN-GP[17]提出了一种剪切权重的替代方法，即使用梯度惩罚来惩罚输入的梯度范数.

3 生成对抗网络变体方案

近年来，基于生成对抗网络主要框架的扩展方案也被不断提出并广泛应用，以下为几种主要变体方案.

1) 条件生成对抗网络(conditional GAN, CGAN).

针对原始生成对抗网络生成器无法依照样本集特定类别进行样本生成这一问题，Mirza等人[18]于2014年提出CGAN.该方案采用独热(one-hot)编码对样本集分类进行编码，并将对应类别独热编码标签连接到每个输入至判别器的样本点上.而在生成对抗样本时，又将对应类别独热编码标签连接到每个输入至生成器的噪声样本上.从而使得生成对抗网络方案得以接收带类别的样本点作为输入，让用户有机会选择生成样本点的类别.

2) 深度卷积生成对抗网络(deep convolutional GAN, DCGAN).

DCGAN由Springenberg等人[19]提出，该方案改进原始生成对抗网络，生成器和判别器均由深度卷积神经网络构成.方案采用纯卷积层(无全连接层)构成生成器的输入层以及判别器的输出层，采用跨步卷积代替池化函数，网络学习自空间下采样用于生成器与判别器.批量标准化用于除生成器最后一层以及判别器第1层之外的所有层级网络，以缓解模式崩溃问题.

3) 递归生成对抗网络(RGAN)和递归条件生成对抗网络(RCGAN).

RGAN和RCGAN来产生现实的实值多维时间序列，重点是它们在医疗数据中的应用[12].RGAN 利用生成器和判别器中的递归神经网络(RNN).在RCGAN的情况下，这2个RNN都以辅助信息为条件.实验结果表明它们可以成功生成现实的时间序列.文献[12]采用生成合成标记的训练数据集，并在实际测试集上评估在合成数据上训练的模型的性能.相关指标说明，RCGAN可以生成对监督训练有用的时间序列数据，且实际测试数据的性能只会略有下降.

4) 教师模型全体隐私聚合生成对抗网络(private aggregation of teacher ensembles GAN, PATE-GAN).

Jordon等人[20]提出PATE-GAN是一种能够满足差分隐私约束的生成对抗网络方法.通过修改教师模型全体的隐私聚合框架，将其应用于生成对抗网络框架，在不损害原始数据集隐私的情况下，严格限制任何单个样本对模型的影响，从而产生严格的差分隐私保证.

4 主要应用领域

生成对抗网络的一项应用是实现差分隐私，差分隐私的目标是保护数据库的基础隐私算法，使得通过查看生成的样本无法确定样本是否包含在训练集中.当生成对抗网络尝试对训练数据集进行建模时，隐私问题在于捕获和生成有关训练集总体的有用信息，而不能从生成的样本链接到个人数据[21].

生成对抗网络的另一项应用领域之一是少数样本数据集的增强，即增强现有的资源贫乏的数据集，以用于进一步的下游应用.例如，医疗保健数据的临床医生的技能提升方面.个人敏感数据必须包含隐私保证，而差分隐私[22]的严格数学定义提供了这种保证.以下介绍生成对抗网络具体应用场景下的一些实例.

1) 医学信号合成.

合成生物医学信号生成对抗网络(synthetic biomedical signals GAN, SynSigGAN)[4]使用双向网格长短期记忆网络作为生成器，卷积神经网络作为判别器，可以从2维角度对抗梯度现象.SynSigGAN旨在生成不同类型的连续生理/生物医学信号数据，以捕获与每种信号类型相关的不同生理特征.研究已证明，SynSigGAN能够生成最大序列长度为191个数据点的生物医学时间序列数据.

2) 隐私保护.

Song等人[23]提出一种用于隐私保护图像转换的联邦循环生成对抗网络(federated cycle GAN, FedCycleGAN)，采用局部目标分解允许多个客户端在不牺牲性能的情况下参与生成对抗网络训练.方法采用可切换生成器与判别器架构，使用自适应实例标准化以降低联邦学习的带宽要求.在保持数据隐私的同时，以无监督的方式学习图像转换，可扩展至其他多域联合翻译任务.由于方案缺乏对于梯度信息的隐私保护，梯度信息容易被利用重构客户端图像，建议配合差分隐私保护数据隐私.

针对数据隐私安全问题，Ho等人[24]于2021年提出DP-GAN,将差异隐私和生成对抗网络相结合.通过采用三方参与的最小-最大博弈，设计了一个深度生成模型(deep generative model)，即DP-GAN模型，其采用生成对抗网络用于合成数据，而不是直接向数据中引入噪声，同时以不同的私有方式满足隐私约束.DP-GAN在真实数据集上的大量仿真结果证明了该模型在隐私保护、数据效用和效率方面的优越性.

3) 金融时间序列生成/预测.

Wiese等人[25]提出Quant GAN并首次对时间卷积网络进行了严格的数学定义，利用时间卷积网络实现捕获长期依赖性，例如波动性聚类的存在，生成器函数是显式构造的，使得诱导随机过程被允许过渡到其风险中性分布.实验结果表明，小滞后和大滞后的分布特性非常一致，并且依赖性特性，如波动性簇、杠杆效应和序列自相关，可以通过Quant GAN生成器生成高保真的序列样本.

4) 时间序列预测.

Qu等人[26]提出一种基于生成对抗网络的多优化风力发电机组数据插补方法.首先，针对大型风力发电机组数据缺失的问题，根据数据特征设计了基于CGAN的深度学习生成模型.其次，对训练数据的排列进行了优化，使卷积核得到更好的应用，将优化问题创造性地转化为旅行商问题，并基于数据特征提出了2个优化函数.最后，研究了训练数据与卷积核之间的关系，并提出了2个限制条件，使插补模型更加有效.

5) 异常检测.

Leangarun等人[27]实现了采用生成对抗网络检测由股价操纵引起的异常交易行为.长-短期记忆被用作该生成对抗网络的基本结构，它以无监督的方式学习正常的市场行为.训练后，其判别器网络被用作检测器区分正常交易和操纵交易.不同于以前的工作，该方案使用正常数据来训练神经网络，没有使用操纵案例来训练，而模拟的操作案例仅用于测试目的.

5 结论