改进GAN的光化性角化病图像数据增强方法

2022-09-16 07:15黄志伦

计算机技术与发展 2022年9期

黄志伦，刘俊，郑萌

(1.武汉科技大学计算机科学与技术学院，湖北武汉 430065；2.智能信息处理与实时工业系统湖北省重点实验室(武汉科技大学)，湖北武汉 430065；3.武汉理工大学计算机科学与技术学院，湖北武汉 430070)

0 引言

光化性角化病[1]是一种癌前期损伤性皮肤病，患者大多易感于日光、紫外线放射性热能以及沥青或煤及其提炼物。由于此病产生的皮损大多可以自行修复，同时此种疾病常发于对细微病症不敏感的工人，所以目前医院能获取的病理图像并不充裕。然而光化性角化病仍有大约6%的可能转化为鳞状细胞癌[2]，进而对人体产生更大的危害。因此，对于其病变部位进行医学影像分析具有重要的研究意义，其中关键的一步就是将病变图像进行扩充，即数据增强。

数据增强是指一种通过多种方法来生成大量新训练样本的技术手段，能够较好地缓解病理图像获取难、数据集模态跨度大且密度低、系统鲁棒性差等问题。文献[3]研究从多个深度卷积网络中提取迁移学习特征，作为先验知识以提高目标网络的精度。但是相比较于数据增强，这种办法并不能很好地解决小样本学习中数据拟合能力差的问题。

简单的单样本数据增强[4]是从物理和几何学的角度，对图像进行包括旋转、缩放、镜像和平移等操作。除了以单样本为中心进行数据增强外，还可以进行多样本数据增强，相比较而言后者具有更大的应用范围和发展前景。Nitesh V. Chawla[5]于2002年提出SMOTE算法，这是一种改进的随机过采样算法。其缺点在于近邻选择时存在一定的盲目性，且容易产生分布边缘化问题。Hiroshi Inoue[6]于2018年提出Sampleparing算法，随机选择2张图像进行简单增强处理后合成1个新样本，在逻辑上符合奥卡姆剃刀原理。其缺点在于生成的新样本容易具有低秩纹理，规整化程度不够。Ian J.Goodfellow[7]于2014年提出生成对抗网络(Generative Adversarial Networks，GANs)，这种基于博弈论思想设计的无监督神经网络优于深度信念网络(Deep Belief Nets，DBNs)和生成随机网络(Generative Stochastic Networks，GSNs)，且无需利用马尔可夫链重新采样，开始成为数据增强领域图像样本生成的主流方法之一。受到这种思路的启发，文献[8]将变分自编码器(Variational Auto-Encoders，VAEs)和生成对抗网络结合为一个无监督模型，VAEs[9]被用来调整GANs的生成器以缓解模式坍塌问题，但生成图像的效果不够理想。BiGAN[10]添加额外的编码器推断高斯噪声的潜在分布，判别器网络用来区分这个配对块(原始图像与隐变量、生成图像与输入噪声)是来自编码器还是解码器，但添加的额外参数较大地增加了模型的负担。文献[11]提出的InfoGAN把输入向量分为可解释的隐变量和不可压缩的噪声来促进生成器的学习，使用自编码器来规范判别器和生成器的学习，但是面对高秩纹理的图像时会无法很好地学习到深层特征。文献[12]设计的Infomax-GAN应用了对比学习和交互信息最大化，可以缓解判别器的遗忘灾难问题，但是这个特殊的网络结构使得收敛的速度极为缓慢。

针对上述论文存在的不足，该文提出一种基于能量的改进生成对抗网络，将输入噪声通过高斯混合模型再传进生成模型，增加生成样本的多样性。然后把判别器改为U型结构，以提高鉴别的精度，给予更准确的能量反馈，同时加以混合体驱动算法。实验结果表明能取得理想的效果。

1 相关工作

1.1 GANs

生成对抗网络是一种无监督的神经网络，由生成器G和判别器D组成，旨在通过G和D对目标数据集的分布重新建模。生成器G被用来生成细节纹理逼近原始程度的图像，判别器D被用来判别G生成的图像是正样本还是负样本。二者呈现零和博弈[13]的态势，这是一种G和D相互竞争的极大极小值对抗，其目标函数定义为：

(1)

公式(1)可分为公式(2)和(3)两部分，如下：

Ez～pz(z)[log(1-D(G(z)))]

(2)

(3)

公式(2)的目的是最大化判别器的判别能力，D(x)表示对正样本判断的概率，理想情况是尽可能接近1。G(z)表示生成的样本。公式(3)则表示最小化生成器生成样本的瑕疵程度。值得注意的是，生成器不是最小化判别器的目标函数[14]，而是最小化判别器目标函数的最大值。

在最优判别器下，优化生成器的损失函数可以近似等价于最小化真实分布和生成分布之间的JS散度[15]，其公式可表示为：

(4)

1.2 EBGANs

基于能量的生成对抗网络(Energy-based Generative Adversarial Nets，EBGANs)摒弃了传统以概率形式作为度量GANs的结构,不再使用Lipschitz假设[16]来约束生成的样本分布，使用自编码器代替原始的判别器结构作为能量模块，靠近真实数据流形的区域被分配低能量，反之则被分配高能量。

以能量的形式作为重构误差输出，判别器不再是简单的逻辑二值分类器，EBGANs在理论上可以使用更广泛的网络结构和损失函数。样本能量的表示如下：

D(x)=‖Decoder(Encoder(x))-x‖

(5)

同时判别器可以被提前训练，极大提高训练效率。其损失函数为：

LD(x,z)=D(x)+[m-D(G(z))]+

(6)

LG(z)=D(G(z))

(7)

其中，[·]+=max(0,·)，m为一个边界值，避免判别器偏向于假样本。

2 文中方法

2.1 高斯混合模型

在进行数据增强时，一般面临着真实样本有限且类间分布不均匀等问题。面对输入网络模型的简单潜在分布，考虑建立其到复杂数据分布的映射，其目的是提高先验分布的建模能力。因此，使随机噪声通过一个高斯混合模型，其公式如下所示：

(8)

其中，随机噪声z在高斯分布下的概率表示为g(z|ui,∑i)，ui和∑i为模型需要学习的参数。对z进行取样的过程被要求在N个高斯分布之中随机选取。具有原始简单分布的随机噪声P(z)在通过高斯混合模型后变为具有复杂分布的噪声P'，然后再进入GAN的生成器部分。

由于每个高斯分量都有一个对角协方差矩阵，假设第i个单元被选择，那么相应协方差矩阵的对角元素表示为公式(9)：

σi=[σi1,σi2,…,σiK]

(9)

K即潜在空间的维度。根据重参数化技巧，每个高斯分布都可以写成包含标准高斯分布的形式，于是：

z=ui+σiε

(10)

其中ε～N(0,1)。于是有：

(11)

该文的优化目标就变为最大化：

pdata(G(ui+σiε)|ε)

(12)

接下来初始化参数μ和σ，对于ui考虑在(-1，1)中随机取值，对于σi则指定一个非零且较小的值，文中根据先验经验取0.25。生成数据前随机从N个高斯分量中选择一个采样潜在向量z，然后传递给G得到输出图像。文献[10]同样有考虑模拟出适合的高斯潜在分布，额外增加共5个学习参数，并使用连续的二重MSE误差作为引导项，简要迭代训练的对比震荡情况，见图1。参考指标为IS分数，数值大小与模型效果呈正相关。浅色折线代表的Bidirectional Model模型[10]由于精心设计更多参数，在训练初期会更具表现力，但在后期迭代由于计算量巨大模型会呈现出萎缩的状态。代表高斯混合模型网络的深色折线由于模型的承载力更大，经过充分训练后效果更好。

图1 两种结构网络训练的IS Score

传统的GANs倾向于将潜在分布拟合到JS散度规定的最大数据量的模式，生成器网络有时会忽略掉部分数据分布。由于连接某些模式的数据不可用，源域空间的模式相应增加，导致生成的图像类内多样性和类间多样性较差。在添加高斯混合模型后，足够多的高斯分量能使混合模型可以近似任意复杂的潜在分布，为生成器提供可见的辅助效果。在面对非连续的低密度数据区域时，高斯混合模型的效果会尤其明显。

2.2 网络结构

基于EBM(Energy Based Model)的GANs不再去判别输入样本来自于Pg或者Pdata，而是通过能量函数判断其重构性的高低。而基于PBM(Possibility Based Model)的GANs，生成器用来计算联合概率P，判别器用来计算正负样本分布之间的散度来辅助生成器。PBM-GANs的核心在于生成器。而该文研究的EBM-GANs的核心在于判别器。更重要的是，由于原始EBGAN中的判别器结构仅为自编码器，通过简单的编码再解码后的重构图像产生的内容损失足以模糊真实样本和生成样本的赋能差异，导致模型对差异分布的敏感性不足，对细节纹理的感知精度过低，且整体样本的能量值范围处于一个略高的水平，从而传递给生成器不够准确地反馈调整。

为了提高模型整体的判别精度，该文借鉴图像分割常用的网络结构，考虑一种基于U-Net变体的判别器结构，由于使用的数据集病理图像在预处理后的分辨率为128*128，相应地设计网络层数。具体结构和参数设置如图2所示。

图2 判别器结构

在跳跃连接的过程中，复制下采样中产生的每一步特征映射都会通过级联操作融于相应的上采样过程里的特征映射。另外，尝试在中间部分加上一个密集组件。一般来说网络的深度提高会增强图像生成的能力，但有时也会导致模型退化致使网络迅速饱和。不过密集组件已被证明是增加网络深度的合适选择，在尽可能规避负效应同时能增加目标网络的泛化能力，将高层语义信息从输入传递到最后的生成结果。基于此变体的判别器能够关注正负样本之间更多的纹理差异，从而提高生成图像的特征表达。

生成器的结构借鉴先验模型，首先是全卷积层，使用批量归一化，激活函数为Leaky-ReLU。然后是5层反卷积层，除了最后一层不使用激活函数外，其余反卷积层都使用ReLU激活函数。判别器损失和生成器的损失计算沿用公式(6)和(7)。

完整的生成对抗网络由处理随机简单噪声P(z)开始，经过复杂变形的噪声P'进入生成器G，开始生成需要的医学图像，整体结构见图3。接下来，真实的图像和生成的图像进入判别器D，编码块Encoder Block和解码块Decoder Block用于重构接收到的图像，位于其中间的密集块Dense Block可以在不使网络退化的情况下使判别器D捕捉到更多的纹理细节。在完成此阶段的鉴别任务后，判别器D将能量的调整反馈给生成程度高的部分赋予低能量，生成器做出对应的调整。样本的能量公式同公式(5)。另外基于能量反馈的生成对抗网络可以在不需要输入图像的情况下进行预训练，即判别器D可以直接重构真实图像，然后通过得到的图像E可以直接把差异反馈给D，预训练在一定程度上可以加速正式训练。

图3 生成的对抗网络整体结构

判别器模块参数设置可见表1，Conv表示编码模块的卷积层，deConv表示解码模块的反卷积层，分别进行下采样和上采样。对生成器模块参数进行对应设置，输入大小为100的经高斯混合模型变换后的复杂噪声，神经元个数为1 024。

表1 判别器网络结构参数值

2.3 混合体驱动算法

在生成复杂的自然图像时，生成对抗网络很可能遭受模式坍塌等问题，为了提高生成模型组成一个混合体以驱动训练的算法。这些生成模型逐次向混合体中添加额外的模型来进行训练，不断地朝着覆盖先前混合体未覆盖的空间区域迭代。通过重新添加加权参数来获取最佳的混合体成分，每一次迭代对应学习一个关于重加权数据分布的GAN模型。伪代码算法在下方给出。

算法1：一种构建数量为N的GANs混合体驱动算法，按顺序训练。

Input：训练实例SN:{X1,…,XN}；

Output:生成模型混合体G=GT。

训练GAN

W1=(1/N,…,1/N)

G1=GAN(SN,Wt)

fort=2,3,…,Tdo

#为下一个组件选择混合权重

βt=W(t)

#更新训练实例的权重

Wt=W'(Gt-1,SN,βt)

#训练第t个GAN生成器

#更新模型

end for

图4 数据分布点图

3 实验与分析

3.1 数据集介绍

该文采用的光化性角化病图像由国际皮肤影像协作组织在皮肤镜下制作，其中包含130张病理图像，简称为solarskin数据集。图5中展示的3张典型的图像分别代表不同的病变形态，(a)为玫瑰花结状，(b)为多线杆状，(c)为异原层状。当多种特征混合在一起时，优先级的大小为c>b>a，它们的数量分别为a:81张，b:46张，c:3张，分辨率是600*450。

图5 已预处理图像

另外也在公开数据集MNIST和CelebA上进行对比实验。从MNIST中随机采样选取500张用于文中部分，以保持每个数字的样本数量均衡，同时模拟小样本数据场景。CelebA是一个包含超过200 000张人脸图像的大型数据集，像素规格为128*128，同样随机选取500张用于文中实验。

3.2 预处理

由于光化性角化病多线杆状和异原层状图像数量远远小于玫瑰花结状，于是进行简单的数据扩充。对46张多线杆状图像进行随机裁剪、旋转和镜像，对3张异原层状图像进行随机缩放、旋转和镜像，分别扩充至60张和20张，并简单处理为128*128分辨率大小。然后将所有161张医学图像进行像素值归一化到[0,1]，方法为：

(13)

3.3 评价指标

判别生成模型的好坏通常是综合考虑图像的清晰度和多样性，图像的清晰度取决于网络的表达能力，出现多样性不足往往是出现了模式坍塌或者模式下坠。对于定量评估，该文考虑使用弗雷歇初始距离[17](Fréchet Inception Distance，FID)，FID分数是一个全面的度量指标，同时考虑真实分布和生成分布，具有较好的鲁棒性，其值越小说明生成图像的质量越高，也就是对应文中的病理图片更加真实。其计算公式为：

d2(F,G)=|ux-uy|2+

tr[∑X+∑Y-2(∑X∑Y)1/2]

(14)

其中，ux、uy和∑X、∑Y分别是F和G的均值和协方差矩阵，此公式同样适用于当F和G为在Rn上的正态分布。

3.4 参数设置

生成器模型和判别器模型都使用Adam优化器，学习率分别设置为0.000 1和0.000 3。考虑到EBM-GANs的特性，在实验开始前用真实样本训练判别器，batchsize设置为20，进行10 000次迭代。在正式训练时，β1设置为0.5，β2默认0.9。batchsize设置为50，进行100 000次迭代，从总迭代次数的2/3开始线性衰减学习率，直至为0。由于无法得到一个理想状态中能精准产生目标分布的生成器，关于混合体驱动算法里的参数β，该文首先尝试所有迭代都使用一个固定的常数值，如0.5，0.3，0.1等，但效果都不甚理想。于是试探性地考虑所有的生成器都以动态的权重组合，即取βt=1/t，t为当前迭代的次数。在取得较好的效果后，相应地应用于文中实验。所有实验采用的是64位Windows操作系统，实验环境为Tensorflow深度学习平台，GPU型号是NVIDIA GeForce GTX 1080TI，显存为11 G。

3.5 实验结果与分析

在进行的对比实验中对网络结构进行如下设置：把添加高斯混合模型的EBGAN称为EBGAN-G，把原判别器改为基于U-Net变体的网络称为UNet EBGAN，综合这2个变化的网络是UNet EBGAN-G。

EBGAN-G和EBGAN在MNIST数据集上的实验结果如图6所示。图中由EBGAN生成的样本中有过多相同的数字(已用反差颜色标注)，而可以观察到通过EBGAN-G生成的样本更加均衡。需要注意的是，此基础模型过于简陋导致了充分训练后生成的数字仍不够精细。但是仍然可以证明，添加高斯混合模型把输入噪声混合成复杂潜在分布的噪声能在一定程度上提高模型生成样本的多样性。

图6 在MINST数据集上的生成效果图(左为EBGAN，右为EBGAN-G)

然后在CelebA数据集上进行UNet EBGAN、EBGAN和WGAN的训练。WGAN由Martin Arjovsky[18]提出，已被认为是对生成对抗网络做出重大完善的模型结构。图7为上述3种网络生成的图像。可以在主观视觉上轻松判断人脸生成图像效果的好坏，可以明显观察到UNet EBGAN是最优的，WGAN生成的图像中有少部分变形的人脸，而EBGAN几乎所有的人脸图像都不够理想。

图7 三种网络在人脸数据集上的生成效果

通过在MNIST和CelebA数据集上的对比实验可以证明文中使用的改进网络能够达到预期的效果，在迁移到文中的光化性角化病图像数据集后，一般也可以生成理想的图像。另外，在3个数据集上的一致性效果更能增加文中方法的说服力。接下来的实验部分便是针对病理图像，上文介绍的模型结构和参数均是针对此数据集设计并优化。

最后在光化性角化病图像数据集使用UNet EBGAN-G和EBGAN、DCGAN、WGAN进行实验。图8显示了这四种网络在完成第5 000次迭代后生成的图像。可以看出由于UNet EBGAN-G和EBGAN的判别器可以进行预训练，在实验开始时就具有强大的能量驱动，生成的病理样本图明显好于DCGAN和WGAN，不会产生图8中(e)、(f)的“条纹”，这是由于基于能量模型的GANs可以不完全依赖于负样本，其本质是把图像的重构误差作为能量值进行反馈，这样的话仅使用正样本也可以在一定程度上训练判别器，由此进行的预训练会对正式训练起到推动作用。训练完成后的最终生成图像见图9。

图8 4种网络在第5 000次迭代后生成的图像

仔细对比图9中4个模型的生成样本后可以发现，尽管EBGAN在早期训练时期的表现优于DCGAN，但在完整的训练完成后效果和DCGAN不相上下。综合考虑这4种网络的生成图，EBGAN和DCGAN的生成图像相较于其他2种在生成玫瑰花结状图像时无明显差异，但在生成线杆元素时，较其他2种网络模型线条更模糊。然后比较UNet EBGAN-G和WGAN，可以观察到在生成异原层状图像时，由于多种元素混合在一起，WGAN生成图像里的层结块颜色趋于一致，可能判别器并未充分感知到这部分的细节，在UNet EBGAN-G生成图像中则可以看出层结块颜色趋异带来的层次感。总体而言UNet EBGAN-G是对比模型里效果相对最优的。

图9 上述4种网络最终生成的图像

最后列出DCGAN，EBGAN，WGAN，EBGAN-G，UNet EBGAN-G和使用混合体驱动算法的UNet EBGAN-G(在表中简写为UEG+)在3种数据集上测试的FID值，见表2。参考FID值时，越小则说明生成样本的质量越高。UEG+在文中角化病图像上的FID值小于DCGAN和WGAN，其中比这二者中较好的WGAN网络低3.41，生成图像的质量有明显的改善。另外UEG+在MNIST和CelebA数据集上也表现出更好的效果。在公开数据集上的良好表现在一定程度上证明了文中改进生成对抗网络的性能。

表2 各网络在3种数据集上训练的FID值

4 结束语

为了解决特定角化病图像过少，且现有数据扩充方案增加的图像多样性不足和细节纹理丢失的问题，提出改进的生成对抗网络模型。首先增加高斯混合模型，使噪声具有复杂的高斯分布，有助于增加样本的类内多样性和类间多样性。随后更新原始能量网络的判别器结构，增加U型的多个编码层和解码层，进一步加强对细节特征的感知。最后使用混合体驱动算法，提高生成器的鲁棒性，抑制模式坍塌问题。实验结果证明，设计的网络结构有效解决了上述问题。不过模型仍有进一步完善的空间，未来的研究方向将考虑多判别器并行训练。