生成对抗网络在肝脏肿瘤图像分割中的应用综述

2022-08-19 08:19仇大伟

计算机工程与应用 2022年16期

张颖，仇大伟，刘静

山东中医药大学智能与信息工程学院，济南 250355

原发性肝癌是中国第四位高发的恶性肿瘤，其死亡率位居第二[1]。肝癌的发病率与致死率不断升高，其严重威胁着人们的生命安全，并且给医疗卫生领域带来了极大的挑战。为了应对愈发严峻的肝脏癌症挑战，越来越多的研究者围绕肝癌辅助诊断展开深入研究，寻求肝癌预防、治疗与预后的辅助诊断技术的突破。

近年来，随着医疗大数据应用的快速发展，深度学习在肝脏肿瘤辅助诊断技术的研究中发挥着至关重要的作用。尤其是随着电子计算机断层扫描（computed tomography，CT）、超声成像技术（ultrasound）以及磁共振成像（magnetic resonance imaging，MRI）技术的逐步发展，给应用深度学习技术进行肝脏肿瘤疾病辅助诊断创造了条件。肝脏肿瘤图像分割是肝脏肿瘤疾病辅助诊断研究中特别重要但又极其困难的一个步骤。由于肝脏肿瘤区域的结构和纹理等特征复杂，传统的肝脏肿瘤分割方法多数依赖人工设计特征的方法进行分割。例如，Mostafa等人[2]提出利用区域生长法对肝脏进行分割。Li等人[3]提出了一种融合区域竞争、图像梯度与先验信息的统一水平集模型对肝脏肿瘤图像进行分割。虽然传统分割方法实现了对肝脏肿瘤图像的分割，但是分割效率以及分割精度还存在很大的上升空间。目前卷积神经网络（convolutional neural network，CNN）[4]成为应用在肝脏肿瘤分割上的主流深度学习模型。2015年，Long 等人[5]提出了全卷积神经网络（fully convolutional network，FCN）的概念，首次将传统神经网络中的全连接层替换为卷积层。Ben-Cohen等人[6]首次将FCN应用于肝脏与肝脏肿瘤的分割中。FCN 在图像分割上表现出的效果很好，但是FCN 在医学图像分割方面不够完美。2015 年，Ronneberger 等人[7]提出UNet 主要应用于医学图像的语义分割，并且UNet 在医学图像的分割中达到了很好的效果。因此，很多基于UNet 网络改进的分割模型出现。UNet网络虽然在医学图像处理上表现很好，但是在分割细节处理上依旧不是很好。

2014年，Goodfellow等人[8]借鉴博弈论的观点，提出一种基于概率和统计理论的生成对抗网络（generative adversarial networks，GAN）。Luc等人[9]首次将GAN应用到图像分割中，GAN 在图像分割上表现出良好的性能，分割的准确率也很高。由于涉及患者隐私以及专业性较强的现实问题，医学图像中信息标注问题一直是困扰研究者的一大难题。生成对抗网络是一种通过对抗训练的方式学习真实数据分布的无监督学习模型。通过改进生成对抗网络这一无监督学习的网络模型，使得它在半监督学习模型与全监督模型上也可以表现出很好的性能。因此，生成对抗网络可以很好地解决标注的医学图像数据集获取困难的问题。此外，一些深度学习模型并不能很好地学习到训练集中的数据特征，容易忽略分割图像的一些细节信息。而且在深度学习的训练中，GAN 一般假设训练数据与测试数据服从相同的数据分布，而模型在训练集与测试集的准确率上会存在一定的偏差。当把生成对抗网络用于分割时，传统的网络（FCN、UNet等）可以作为生成网络，即作为生成对抗网络的生成器。不同于其他深度学习网络的单网络结构，生成对抗网络的两个网络结构可以提高分割的精度和性能，同时也可以很好地保留细节信息。

首先，基于生成对抗网络模型，介绍了生成对抗网络模型的理论以及网络结构，讨论了几种典型的生成对抗网络的衍生模型，重点总结分析了生成对抗网络在肝脏肿瘤图像分割中的应用。然后，在已有的研究基础之上深入分析，进一步总结和讨论了生成对抗网络在肝脏肿瘤图像分割领域中所面临的挑战与未来发展的趋势。

1 生成对抗网络

1.1 网络结构

生成对抗网络是复杂分布中一种无监督学习的深度学习模型。生成对抗网络最基本的网络框架包含两个模块，分别是生成器（generator）和判别器（discriminator）。生成对抗网络借鉴博弈论的思想，用深度学习网络实现数据样本的生成[10]。生成对抗网络的生成和判别的函数只要求是能够拟合的函数，不要求生成对抗网络的生成器和判别器都是神经网络。目前生成对抗网络的生成器与判别器一般采用神经网络。生成对抗网络通过生成器与判别器进行博弈学习可以产生很好的输出。对于生成对抗网络的训练，本质上是寻找零和博弈的一个纳什均衡解。最终，生成器能够产生与真实数据拥有相同分布的伪数据，也即学习到了真实数据的潜在分布[11]。GAN模型结构图如图1所示，生成器G输入随机噪声，经过不断学习数据分布，输出生成数G(z)。判别器将生成数据与真实数据进行鉴别并判别真伪。最后，将判别结果的误差反向传递给两个模型，两个模型根据反馈信息不断训练，进而提高生成能力与判别能力。模型经过不断的优化，最终两个模型达到纳什均衡状态。

图1 生成对抗网络Fig.1 Generative adversarial network

生成对抗网络模型的目标函数实际上是一个最大值最小值优化函数[12]，其定义为：

式（1）中包含两项，前一项代表优化判别网络D，输入真实数据样本分布x，期望输出值越大越好，即真实样本的预测结果越接近1越好。对于公式的第二项，随机噪声z输入生成器，生成器产生伪数据分布G(z)，期望假样本数据D(G(z))产生的判别结果越小越好。在同一个公式中两项分别求最大值与最小值会产生矛盾，为了形式统一，将后一项结果也统一为最小值优化。

1.1.1 生成网络

生成的模型实质上是一个可生成特定数据分布的极大似然估计模型。生成器的输入是一个随机变量，随机变量一般采用噪声或者高斯变量，经过生成器生成输出一个假样本数据分布。对于输入变量的维度并没有严格限制，这里一般采取100维的随机向量。对于已有的训练数据集，生成网络可以学习到训练数据集内部数据的分布，进而生成网络产生以假乱真的数据。通过将参数转换为极大似然估计值，将训练偏向转换为指定分布的样本，从而转换原始输入信息的分布[13]。

1.1.2 判别网络

判别模型本质上是一个二分类问题，会对生成器生成的数据进行判断，判断是否符合真实数据分布。判别模型的输入由两部分组成，分别是生成模型生成的数据与真实数据。对于生成模型生成的数据作为判别器的输入，这一部分期望结果是接近0 的数值，而生成器对这一部分的输出结果是接近1 的数值。对于真实数据采样样本x作为判别器的输入，判别器输出一个0 至1的概率值。输出结果表示x属于真实数据样本的概率，尽量将概率值训练接近1。最终，这两部分经过足够的训练，达到纳什平衡[14]。

1.2 生成对抗网络的特点

相比较其他网络模型而言，生成对抗网络有其特有的特点，主要体现在以下几个方面：

（1）生成对抗网络不同于传统的深度学习模型，它不是一个单一网络，而是由两个网络构成的模型，并且训练方式是对抗训练。

（2）生成对抗网络采用的是一种无监督的学习训练方式训练，可以被广泛应用在无监督学习与半监督学习领域。

（3）GAN的框架是可以变化的，一般卷积神经网络（CNN）、循环神经网络（recurrent neural network，RNN）等深度网络与GAN结合逼近可微函数。此外任何损失函数与约束条件都可以加入GAN 模型，有利于设计不同的优化方法解决不同的设计任务。

（4）GAN不适合离散形式的数据，不要求对数据预设分布，但理论上可以生成与真实数据分布相似的数据分布。

（5）GAN的生成过程自由且不受限制，训练比较不稳定，训练过程中常常出现梯度消失、模式崩溃的问题。

（6）GAN生成质量评价缺乏统一有效的标准，不能保证GAN训练达到纳什均衡。

2 生成对抗网络的衍生模型

生成对抗网络具有很多优点，在计算机视觉领域有着特别广泛的应用，但生成对抗网络不可避免地存在模型训练不稳定、梯度消失以及模式崩溃的种种问题。为了克服目前生成对抗网络存在的各种不足和缺陷，并且提高生成对抗网络的性能，涌现了基于生成对抗网络的各种衍生模型，例如CGAN、WGAN、WGAN-GP、Pix2PixGAN、EBGAN 和SGAN 等改进模型，通过不断地优化改进，使得生成对抗网络在肝脏肿瘤图像处理中表现得更加完善。本文将重点介绍几个经典的生成对抗网络的衍生模型。

2.1 CGAN

当数据集中图像数据规模大，图像内容复杂，生成对抗网络在实现图像生成的过程中过于自由且难以控制。为控制生成器的生成内容，Mirza 等人[15]提出条件生成对抗网络（conditional GAN，CGAN）。即将约束条件作为条件变量加入到生成器与判别器中，其中条件变量c可以是任意信息，例如类别信息或者其他模态的数据。条件变量可以是监督信息，而生成对抗网络属于一种无监督模型。因此，条件生成对抗网络可以看作一种有监督模型，可以通过条件变量一定程度上控制生成的图像。CGAN对数据集的要求较高，而且CGAN只是增加了约束条件，CGAN训练不稳定的问题依然存在。条件生成对抗网络的模型与生成对抗网络的模型一致，条件生成对抗网络除了输入随机噪声z与真实数据x外，还增加条件变量c，如图2所示。在目标函数中表现为条件概率代替无条件概率。

图2 条件生成对抗网络Fig.2 Conditional generative adversarial network

2.2 WGAN与WGAN-GP模型

生成对抗网络训练中会出现训练过程困难复杂、梯度消失、生成器与判别器的损失无法指示训练的进程以及生成样本缺乏多样性的问题。生成数据分布与真实数据分布的相似度衡量JS 散度是一个固定值，这就造成了生成器在一个低维随机噪声中采样编码向量生成高维样本的训练过程中会出现梯度消失现象，从而造成模型训练失败。基于此，Arjovsky 等人[16]提出采用Wasserstein距离（又称EM（Earth-Mover）距离）代替JS散度表示真实数据分布与生成数据分布之间的相似度的方法，该模型称为Wasserstein 生成对抗网络（Wasserstein GAN，WGAN）。

Wasserstein距离相比JS散度来说，不仅可以很好地度量距离的远近，而且平滑的优越特性很好地解决了梯度消失的难题。Wasserstein 生成对抗网络能展现出良好的性能，体现了出色的鲁棒性，并且它不需要再费力解决平衡生成器与判别器训练程度的问题，进而网络训练的稳定性得到有效的提高。除此之外，GAN 的生成器与判别器的损失无法指示训练进程，交叉熵、准确率可以作为展现训练进度的定性指标。但是WGAN仅仅在理论上能够解决梯度爆炸或梯度消失的问题，在实验时还是可能会存在梯度消失和梯度爆炸的问题。

为了避免WGAN 模型中可能存在的梯度消失现象，Gulrajani 等[17]提出了WGAN-GP 模型。WGAN-GP不再使用权重剪枝方法来暴力地限制参数，而是采用更温和的方法。它利用梯度惩罚（gradient penalty）来满足Lipschitz条件梯度惩罚，也就是采用一个额外的惩罚项将梯度和Lipschitz条件中的K值进行关联。WGANGP 是WGAN 的升级版，通过在原WGAN 上进行改进，采用梯度惩罚来更新参数，这解决了WGAN 在实际中存在的梯度消失或梯度爆炸的问题，加快了网络的收敛，从而增加了模型的稳定性，但由于所需参数过多，训练模型所消耗的成本较高。

2.3 Pix2PixGAN模型

图像作为一种交流媒介，有多种表达方式，比如灰度图、彩色图和梯度图等。这些图像之间的转换称为图像翻译，这是一种图像生成任务。为了实现图像翻译并得到指定的输出图像，Pix2PixGAN[18]可以将输入图像作为条件，学习从输入图像到输出图像之间的映射。生成器采用的是UNet 架构，对于判别器采用卷积Patch-GAN 分类器。生成器实现一个场景输出另一个场景，输入与输出虽表面形式不同，但两者之间需要共享一些信息，因此输入中的结构与输出中的结构要设计得大致对齐。Pix2PixGAN采用PatchGAN结构，即通过多个卷积层，得到N×N×1 的判别层，其中每个元素代表对应感受野的真伪判定结果，整个输入的真伪判定结果就是这N×N个元素的均值。

Pix2PixGAN 的整个框架基于CGAN 模型，实现了将一个场景转换为另一个场景的功能。Pix2PixGAN计算量小，训练成本低，但是Pix2PixGAN对数据集要求比较高，要求数据是配对的，一定程度上增加了训练的复杂度。

2.4 EBGAN模型

将判别器看作一个能量方程，当生成器生成的数据接近真实的数据流形流域时能量就比较低，若能量值比较高，则证明生成器生成的数据与真实的数据分布是有差距的。将这种改进后的GAN 称为EBGAN（energybased GAN）[19]。EBGAN改变的只是判别器的结构，将判别器改为一个自编码器（AutoEncoder）结构。因此，EBGAN中给予GAN一种能量模型的解释，也就是生成能量值最小的数据样本是生成器的目的，而对生成的样本数据赋予较大的能量则是判别器的目的。

EBGAN 在模型的稳定性方面表现良好，它可以生成更加真实的图像。EBGAN对损失函数与模型结构没有过多限制，很多结构与损失函数都可以用来训练GAN结构。EBGAN利用能量函数改进了判别器，这意味着更多的损失函数可以来训练GAN。但是EBGAN收敛速度特别慢，而且生成的图像可能会是比较杂乱的。

2.5 SGAN模型

传统的机器学习分为监督学习与无监督学习，监督学习需要的数据是有标签的，无监督学习的数据是没有标签的。在很多研究中，带有标签的数据只是很小的一部分，而大量的数据是没有标签的。人工智能绝大部分是监督学习，然而监督学习的训练需要数据量大而且需要带有标签信息。医学图像标签数据集的获取耗费大量的人力物力而且面临道德与伦理问题。如若使用有标签的数据，往往需要人工标注操作，而且无标签数据的获取往往比较容易。半监督学习可以对未加标签的数据进行分类，半监督模型的训练需要使用大量未加标签的数据和一小部分标签数据。半监督学习的生成对抗网络模型是SGAN（semi-supervised GAN）[20]。在SGAN中，真实数据可以被认为是有标签的数据，生成器产生的数据被认为是无标签的数据。判别器不再只是区分真假两个类的二分类器，而是类似于一个多分类器，它可以分为训练数据集中的N+1 类。但是SGAN 的判别器的多分类任务增加了，而且也增加了SGAN的网络架构、训练过程和训练目标的复杂性[21]。

2.6 其他GAN衍生模型

一般要实现不同域之间图像的相互转化，要求两个域中具有相同内容的图像作为训练数据[22]。但是这种成对出现的数据获取是特别困难的，循环生成对抗网络（CycleGAN）[23]却不需要成对的数据集就可以完成图片转换。CycleGAN 是一个环形网络，本质上是由两个镜像对称的GAN 构成的，由两个生成器及两个判别器组成。CycleGAN 是一种通过GAN 架构训练的无监督图像翻译模型的技术，采用来自GAN 两个不同领域的非成对的图像集合，可以实现信息从一种表示形式转换为另一种表示形式。虽然CycleGAN 的循环机制可以保证生成的图像不会严重偏离实际，但是在循环转换的过程中会丢失图像信息，从而使得图像质量不高。

考虑到大部分数据是没有标签的，为了更好地利用无标签数据集，Radford 等人[24]提出了深度卷积神经网络和无监督学习的GAN结合在一起的深度卷积生成对抗网络（deep convolutional GAN，DCGAN）。DCGAN的生成器和判别器都舍弃了CNN 的池化层，判别器的池化层使用步幅卷积代替，生成器则是将微步幅卷积替换池化层。在生成器与判别器中使用批处理规范化，有助于处理初始化不良导致的训练问题，加速模型训练，提升训练的稳定性。虽然DCGAN 可以生成的图像种类比较丰富，但是生成的图像质量一般，而且模型训练不稳定的问题仍然没有解决。

GAN超分辨率重建算法实现了在不失真的前提下利用生成对抗网络将低分辨率图像生成高分辨率图像。例如，Ledig 等人[25]提出的超分辨率生成对抗网络（super resolution GAN，SRGAN）就是一种生成高分辨率图像的方法。SRGAN的生成器采用的是参数化的残差网络，判别器是VGG网络，损失函数是采用内容损失和对抗损失的感知损失函数。它可以生成图像纹理细节较好的图像，但足够倍数的放大后可能会出现不存在的纹路。为了实现更加接近真实的图像，Wang等人[26]提出增强SRGAN（enhanced SRGAN，ESRGAN）。ESRGAN去掉了生成器所有的批量规范化（batch normalization，BN）层，将相对判别器作为判别器，从而让判别器估计真实图像相对生成图像更逼真的概率。ESRGAN 采用一种更适合于超分辨的感知域损失，从而可以克服重建图像与真实图像亮度不一致的问题，但在边缘细节处理上还有进步空间。

表1显示了生成对抗网络的各种衍生模型的对比。通过分析生成对抗网络的各种衍生模型，可以得出生成对抗网络的衍生模型主要基于以下两方面进行改进：（1）基于网络结构改进的GAN；（2）基于损失函数改进的GAN。

表1 生成对抗网络衍生模型的对比Table 1 Comparison of derivative models of generative adversarial networks

在基于网络结构改进的GAN 方面，CGAN 引入条件变量来控制生成的内容，有效解决了生成对抗网络自由不受控制的缺点。但是CGAN对数据集要求比较高，而且仅仅引入条件变量并没有改变模型训练不稳定的问题。DCGAN在生成对抗网络的基础上加入CNN，可以生成种类丰富的图像。但是DCGAN 生成的图像质量一般，而且训练不稳定[27]。CycleGAN将两个GAN进行组合构成环形网络结构，生成的图像是符合实际的。但是循环转换过程中，CycleGAN会丢失信息，从而造成生成图像质量不高。Pix2PixGAN 的生成器采用UNet结构，判别器采用PatchGAN分类器。Pix2PixGAN训练计算量小，可扩展性强，但是对数据集要求高，增加了训练的复杂度。EBGAN 的判别器采用自编码器结构，对模型结构与损失函数限制很少，但是收敛速度特别慢。SGAN实现了生成器与半监督式分类器的同时训练，达到了对图像数据集的多分类的效果，更好地实现了对网络模型的训练。但是SGAN要求标签数据集，训练复杂性比较高。

在基于损失函数改进的GAN 方面，主要是采用不同的损失函数来替换原始GAN中的损失函数。WGAN的损失函数将JS 散度替换为Wasserstein 距离，较好地解决了GAN的梯度消失与梯度爆炸的问题，WGAN-GP在WGAN 的基础上引入梯度惩罚，进一步解决了这一难题。WGAN只是理论上解决了梯度消失与梯度爆炸问题，实际中并未完全解决。WGAN-GP解决了梯度消失与梯度爆炸问题，但由于参数较多，使得模型训练成本较高。SRGAN 的损失函数是感知函数，不但可以生成高分辨率的图像，而且图像在纹理细节上表现很好。ESRGAN在SRGAN的基础上进行改进，从而生成更加逼真的图像。

虽然生成对抗网络产生了很多的衍生模型，但是生成对抗网络本身存在的训练不稳定、梯度消失以及模式崩溃等问题还未有较为完美的解决方案。

3 基于生成对抗网络的肝脏肿瘤图像分割

目前卷积神经网络（CNN）可以通过对输入图像中每个像素点的类别标签的应用来实现对肝脏肿瘤图像的分割。卷积神经网络在像素分类时，仅仅针对每一个像素点，没有考虑周围其他点的像素类别信息[28]，因此在分类过程中容易造成小目标漏检与目标边界分割模糊的问题。生成对抗网络模型是一种无监督学习模型，该模型可以学习到丰富的数据信息。在医学图像处理中，图像数据集获取困难，获得标注信息的图像数据获取更加困难。然而生成对抗网络无需提前知道假设数据分布便可以生成与真实图像误差极小的数据分布，从而有效提高数据集的多样性，缓解了医学图像缺乏的需求问题。因此，将生成对抗网络模型应用于肝脏肿瘤分割是如今的研究热点问题。但是GAN采取的是对抗训练的思想，容易出现训练模型不稳定的问题，研究人员提出了不同的改进策略。在肝脏肿瘤分割任务中，可以将模型改进分为三大类：基于网络结构改进的GAN 方法、基于生成器或判别器改进的GAN方法和基于GAN的其他改进方法。

3.1 肝脏肿瘤图像分割评价指标

为了很好地评估各个生成对抗网络的改进模型在肝脏肿瘤图像分割上的表现，本文总结了以下几个分割评价指标：Dice 系数、准确率（accuracy，Acc）、交并比（intersection over union，IoU）、像素精确度（pixel accuracy，PA）、相对体积误差（relative volume difference，RVD）、相对表面积误差（RSSD）、召回率（Recall）、体素重叠误差（volumetric overlap error，VOE）、精确度（precision，Pre）。为了更好地表示模型的评价，引入几个指标：TP（true positive）表示真正例，FP（false positive）表示假正例，TN（true negative）表示真反例，FN（false negative）表示假反例。

（1）Dice 系数是一种集合相似度度量指标，通常用于计算两个样本的相似度。Dice 的取值范围为[0，1]，值为0 时表示两样本之间没有联系，值为1 时表示两样本完全重合。Dice系数的公式为：

（2）准确率代表正确的样本数占总样本数的比例，准确率是一个很常见且直观的评价指标，值的大小不代表模型的好坏。准确率的公式如下：

（3）交并比计算两个集合的交集与并集之比，两个集合分别为真实值和预测值，交并比的取值范围为[0，1]。公式如下：

（4）像素精确度表示标记正确的像素占总像素的比例，它的取值范围为[0，1]，该比值越接近1 表明像素的准确率越高。公式如下：

（5）相对体积误差表示分割结果与标记之间体积的差异，它的取值范围为0到100%，值越小表示分割结果与标记之间越接近一致。该评价指标影响着治疗计划的制定以及患者术后的预后，具有特别重要的意义。公式如下：

（6）相对表面积误差表示真实肝脏表面积与预测分割肝脏表面积的差异，它可以表示肝脏表面的粗糙程度，值越接近于0表示两者之间越接近。公式如下：

（7）召回率又称查全率，表示被正确判定的正例占总正例的比重。公式为：

（8）体素重叠误差又称错误率，表示分割结果与实际分割结果的重叠度。公式如下：

（9）精确度表示分割预测对的正例占所有分割预测为正例的样本的比例。公式如下：

3.2 基于网络结构改进的GAN方法

生成对抗网络一般是由生成器与判别器两个模块构成，研究者增加其他的深度学习网络作为组合模块用于解决肝脏肿瘤图像分割的问题。本节将详细阐述基于网络结构的生成对抗网络在肝脏肿瘤2D 与3D 图像分割上的表现。

3.2.1 2D肝脏肿瘤图像分割

目前已有的腹部CT 图像语义分割算法虽然在肝脏肿瘤CT 图像中分割效果好，但基准图像与分割结果之间空间不一致的问题依旧没有解决。Xia 等人[29]提出了一种多尺度对抗结合网络语义分割算法。算法以DeepLab-v3 的基本框架为基础并引入Pix2Pix 网络作为生成对抗网络模型，实现了多尺度对抗网络语义分割并提升了图像分割准确率。大量的定性和定量的实验结果表明，该语义分割算法的性能优于现有算法，可以提高分割效率，同时保证腹部CT 图像语义分割的空间一致性。除了空间不一致外，肝脏肿瘤分割还存在数据不平衡的问题。Rezaei 等人[30]在生成器与判别器的基础上，将细化网络作为额外的组合模块，提出条件生成细化网络，有效解决了数据不平衡的问题。数据是深度学习的本质特征，大量的数据训练才能让神经网络学习到数据的深层语义信息。对于医学图像的语义分割任务而言，图像的数据标注是极其困难的，医学图像的数据标注费时费力，缺乏专业人士进行专业标注。半监督学习模型介于全监督学习模型与无监督学习模型之间，郑寒等人[31]利用标注的医学图像与未标注的医学图像同时训练模型，提出一个基于对抗学习的半监督医学图像分割方法。该方法相较于无监督学习模型，通过一定的有标注的医学图像数据稳定了模型参数，确定了模型学习的方向，而且一定程度上缓解了全监督模型带来的图像信息标注压力。肝脏肿瘤的检测离不开造影剂（contrast agent，CA）注射，在未注射造影剂的情况下，血管瘤（良性肿瘤）与肝脏肿瘤（恶性肿瘤）很难区分，在通过造影剂注射增强MRI后，两种肿瘤分别拥有了不同的特性，这样诊断血管瘤和肝脏肿瘤拥有了简单准确的方法。但是造影剂使用时费时费力且价格昂贵，而且风险系数较高。赵建峰[32]提出了一种无需注射造影剂、无创、省时且廉价的新型的三方生成对抗网络（Tripartite-GAN）。三方生成对抗网络首次将检测器与生成对抗网络的两个网络通过反向传播实现结合，成功地合成肝脏造影剂增强MRI用于促进肝脏肿瘤检测，从而提高了肝脏肿瘤检测的性能。虽然很多基于GAN的改进方法在肝脏肿瘤图像分割中已经表现出很好的效果，但是还会存在高噪声和低对比度的问题。为了解决这一难题，Tang 等人[33]提出使用堆叠生成对抗网络。堆叠生成对抗网络降低图像噪声的同时，生成了具有更高分辨率、增强边界、更高对比度的高质量图像。

3.2.2 3D肝脏肿瘤图像分割

生成对抗网络除了在二维肝脏肿瘤CT图像上表现良好之外，在三维空间上也很适用[34]。Wei 等人[35]提出基于增强GAN 和掩膜区域的CNN 架构的肝脏肿瘤图像自动分割方法。GAN Mask R-CNN在一定程度上提高了序列中每个肝脏肿瘤图像切片的分割精度和鲁棒性。Yang等人[36]利用DI2IN对3D医学图像进行自动肝脏分割。DI2IN 方法采用卷积编码器-解码器结构实现了多级特征级联的肝脏肿瘤CT图像分割。与其他基于深度学习的方法相比，DI2IN一定程度上提高了计算效率并减少了运行时间，然而其在肝脏肿瘤CT 图像分割的准确度上依旧有很大的提升空间。因此，张泽林等人[37]提出了一种基于条件生成对抗网络的3D肝脏肿瘤条件生成对抗分割网络（T3scGAN），同时采用了一个由粗到细的3D 自动分割框架对肿瘤区域实施精准分割。通过不断的对抗训练，实验结果表明由粗到细的肿瘤分割框架以及T3scGAN模型对于肝脏肿瘤图像在分割精度上面有较大的提高。为了解决分割特大脾脏的空间变异问题，Huo等人[38]提出条件生成对抗网络（CGAN）结合全局卷积网络（global convolutional network，GCN）[39]的网络架构SSNet。在SSNet 中，GCN 被用作生成器，而条件生成对抗网络（CGAN）被用作鉴别器，通过端对端的训练进行脾脏肿大图像分割。实验结果表明，与基准模型UNet以及GCN相比，SSNet实现了更准确、更鲁棒的分割性能。为了很好地保留图像边界细节信息，Chen 等人[40]提出了一种基于特征-融合编码器-解码器网络（FED-Net）的二维深度学习模型对肝脏肿瘤图像进行分割。由于肝脏肿瘤图像数据集匮乏和GPU限制等问题，利用3D 肝脏肿瘤图像训练模型可能会造成过拟合的问题。为了解决此问题，Ma 等人[41]提出一种基于VNet 和WGAN 融合的肝脏分割方法。该方法将改进的VNet 与WGAN 相融合，来获取3D 肝脏肿瘤图像的上下文图像信息，实现端到端的分割。肝脏图像本身固有的缺陷和CT成像技术的局限性造成了肝脏图像灰度不均，从而导致肝脏边界模糊，不利于分割的准确性。He等人[42]在生成敌对网络框架下嵌入改进的三维UNet网络，建立了半监督三维肝脏分割优化算法。该半监督三维肝脏分割方法能够有效提高肝脏分割性能。

综上所述，基于网络结构改进的GAN在2D肝脏肿瘤图像的分割中，改进的模型主要是通过在GAN 的生成器与判别器之上，加入深度学习的模型构建新的分割模型对肝脏肿瘤图像进行分割。例如，将DeepLab-V3、细化网络与检测器等与GAN 相结合，实现对肝脏肿瘤图像的精准分割。但是改进的模型还是未能解决高噪声与低对比度等问题。基于网络结构改进的GAN 在3D 肝脏肿瘤图像的分割中，通过将不同的深度学习网络与GAN结合，充分利用图像的三维信息，实现对肝脏肿瘤图像的精准分割。但是三维图像分割对设备的性能要求过高，在临床实施上受到设备性能的限制[43]。基于网络结构改进的GAN方法如表2所示。

表2 基于网络结构改进的GAN方法总结Table 2 Summary of GAN methods based on network structure improvement

3.3 基于生成器或判别器改进的GAN方法

3.3.1 基于生成器改进的方法

生成对抗网络的生成图像模块是自由且无限制的，在生成训练的过程中会出现训练不稳定，甚至会出现训练崩溃的无效生成。由于深度神经网络在计算机视觉领域的广泛发展，越来越多稳定高效的网络结构涌现，研究者将这些网络结构结合生成对抗网络的生成器构造出新的生成器。经过改进，生成对抗网络模型训练不稳定性的问题得到了有效的改善。虽然肝脏肿瘤图像的分割性能有了很大的提升，但是在细节分割方面还不是很好。在肝脏肿瘤的分割研究中边缘细节信息发挥着至关重要的作用，为了准确地保留边缘信息，Kim 等人[44]提出一种把多相UNet作为生成器的基于CycleGAN结构的方法。基于CycleGAN 结构的方法很好地保留了肝脏肿瘤图像的边缘细节信息，但是该方法在分割性能方面还有进步的空间。为了捕捉更加精确的肝脏肿瘤特征，Chen 等人[45]提出了敌对的密集连接网络（adversarial densely connected network，ADCN）与多平面集成网络（multi-prototype networks，MPNet）[46]级联的方式对肝脏肿瘤图像进行分割。首先算法使用多平面集成网络从三维CT腹部体积分割肝脏组织。然后采用敌对训练策略，通过开发深度三维密集连接的全卷积神经网络，提取肝脏区域的肿瘤。使用级联框架的方式有效降低了肿瘤分割网络设计的复杂性，而且紧密连接结合对抗训练策略进一步提高了模型性能。基于造影剂（contrast agent，CA）的肝脏肿瘤图像分割方法是目前使用比较普遍的方式，但是CA价格高昂，CA在使用中也存在高风险问题，而且时间成本也比较高。为此，Xiao等人[47]将UNet网络与DenseNet网络叠加在一起作为生成器，生成器创新地使用密集连接和跳过连接来接收和共享引导信息，提取表征特征。改进生成器后的模型很好地解决了CA处理不好的低对比度区域，并实现了无CA的干预下对肝脏肿瘤图像的精准分割。

3.3.2 基于生成器与判别器改进的方法

肝脏肿瘤分割的数据不平衡现象是医学图像分割中存在的一大难题，已有的传统分割模型在小型病灶分割上表现得不尽人意。为解决这一现象，武坤[48]创新地提出一种基于条件生成对抗网络的分割模型，该分割模型的生成器部分采用一个基于编码器-解码器网络的双UNet 学习模型，判别器引入专门为图像转换细节的PatchGAN结构，满足了医学图像高分辨率、高细节保真的要求。该模型很好地解决了肝脏图像分割中数据不平衡的问题，实现了肝脏肿瘤图像的精准分割。为了解决数据集类不平衡的问题，Rezaei 等人[49]提出一种Ensemble-GAN 网络。Ensemble-GAN 网络由单生成器与判别器变体组成，通过为生成器设计新的体系结构来克服普通条件遗传算法的典型缺陷，将多个鉴别器组合成单个一致性模型。该算法模型实现了很好的泛化能力，在肝脏肿瘤图像分割的准确率上表现优异。现有的卷积神经网络（CNN）在肝脏肿瘤分割中一般采用输入图像中每个像素分配类别标签来实现分割。但是卷积神经网络针对像素分类是单像素的，像素周围区域的其他像素没有考虑，这样就造成图像边缘分割模糊，也会造成一些小目标遗漏缺失的问题。针对这个问题，闫谙等人[50]提出一种基于能量对抗生成网络（EBGAN）与条件生成对抗网络（CGAN）的肝脏肿瘤图像的分割方法。该条件能量对抗网络使用一个基于卷积神经网络的生成器与一个自编码器作为判别器。将UNet嵌入能量对抗生成网络（EBGAN）作为模型的生成器，生成器用于学习每个像素的特征信息，进而得到每个像素的所属类别信息。同时该方法将原始图像作为约束条件输入到基于能量理论的判别器中，通过训练学习像素类别信息之间的高阶一致性，从而达到提高小目标区域检测与目标边缘检测的分割精度。邓鸿等人[51]融合生成对抗网络与UNet网络实现对肝脏肿瘤图像的自动分割。分割模型首先采用UNet 网络进行肝脏肿瘤图像的分割，接着采用生成对抗网络（GAN）进行对抗训练，这样输出结果更加接近于真实结果，同时该方法还利用距离约束函数对分割结果的精确度做了进一步改进。实验结果表明GAN-UNet 对抗训练方式不仅提高了肝脏肿瘤图像分割的精确度，在肝脏肿瘤图像分割的细节上也表现很好。相较于传统的UNet 模型，GAN-UNet 虽然有很高的优越性，但是在参数调整上没有到达最优参数。而且GAN-UNet模型结构有待进一步简化。为了更好地实现生成对抗网络对肝脏肿瘤图像更加高效稳定的分割，Enokiya 等人[52]提出一种基于UNet 网络与Wasserstein生成对抗网络（WGAN）相结合的分割网络。该分割模型的生成器采用改进的UNet，将UNet与WGAN相结合作为判别器。该分割网络模型稳定性很好，同时也实现了对肝脏肿瘤图像的精准分割。

基于生成器或判别器改进的GAN 方法，主要是改变生成器或判别器的结构来实现对肝脏肿瘤图像的分割。GAN的生成器与判别器可以是任意的神经网络结构。将多相UNet、UNet 与DenseNet 组合、基于编码器-解码器网络的双UNet 学习模型等作为生成器，对于生成器的改进绝大多数都采用适用于医学图像分割的UNet 网络。将PatchGAN 和多个判别器组合的方式对判别器进行改进。改进后的生成器与改进后的判别器通过对抗学习的方式实现对肝脏肿瘤图像的精准分割。虽然改进后的模型提高了肝脏肿瘤分割的精度，但是还会存在训练不稳定以及细节分割不好等问题。基于生成器或判别器改进的GAN方法如表3所示。

表3 基于生成器或判别器改进的GAN方法总结Table 3 Summary of GAN methods based on generator or discriminator improvement

3.4 基于GAN的其他改进方法

除了基于生成对抗网络的网络结构、生成器与判别器改进的模型对肝脏肿瘤图像进行分割之外，还有仿真数据集扩充等其他改进方法，这些方法在肝脏肿瘤图像分割中也表现出很好的分割效果。

数据集的大小与数量会影响深度学习模型训练结果的好坏，但是目前数据集的获取存在很大的难度。例如，数据集获取涉及患者隐私和采集患者图像时会影响到人体健康等，这些问题都会使得研究者难以获取医学图像数据集。因此，将现有的医学图像数据集应用仿真数据集扩充，逐渐成为各研究者的研究热点内容，对于需求量极大的肝脏肿瘤CT 图像数据集更是迫切需要。为解决这一问题，孟琭等人[53]提出针对肝脏肿瘤CT 图像的仿真数据集生成深度学习算法。首先肝脏肿瘤图像经过三维图像降维度为二维图像、图像格式转换、归一化等预处理操作，接着对处理后的肝脏肿瘤图像的病变区域进行标注，然后将其与原始肝脏肿瘤图像进行配对划分，最后利用Pix2Pix 生成对抗网络对图像进行处理，生成仿真的肝脏肿瘤图像。该仿真图像算法实现了生成真实度极高的肝脏肿瘤图像，体现出良好的仿真效果，有效地解决了应用在深度学习训练时肝脏肿瘤图像的数据集难以获取的难题。Liu等人[54]基于掩蔽注意生成对抗网络（mask attention generative adversarial network，MAGAN）合成了带有肿瘤的肝脏CT图像。结果表明，该方法能够合成含肿瘤的肝脏CT图像，而且可以达到平均峰值信噪比（PSNR）64.72 dB，优于其他最先进的方法。PET利用放射性示踪剂（radiotracers）可提供三维功能成像，显示动物模型和人体内生物分子活性的空间分布。但用于PET检测的设备昂贵，而且PET设备具有放射性，会对人体造成伤害。因此，Ben-Cohen 等人[55]提出将CGAN 与FCN 相结合的方法。CGAN 与FCN合成肝脏的PET图像，实现了高性能的肝脏分割检测。经过图像融合技术可以扩大肝脏肿瘤图像所含有的时间空间信息，减少不确定性，增加可靠性，改进系统的鲁棒性能。为此，Ben-Cohen等人[56]结合CGAN与FCN，将其作为基础模型，基础模型加入基于金字塔的图像混合步骤，改进后的模型实现了对肝脏肿瘤的精准分割。Ben-Cohen 等人[57]提出的系统FCN 与CGAN 实现肝脏肿瘤CT 图像合成肝脏肿瘤PET 图像，然后对肝脏肿瘤PET 图像进行分割。该系统的网络架构消除了对图像混合步骤的需要，从而节省了时间，并减少了手动定义混合掩膜阈值的需要。同时系统也提高了对肝脏肿瘤图像分割的性能，而且数据集也得到了实质性的扩展。为了解决域移位使得来自不同目标域的数据在训练深度模型时表现不佳的问题，Yang 等人[58]提出一种基于CycleGAN的无监督的域自适应方法。该方法实现了跨模态肝脏分割，取得了很好的泛化能力。MR 和CT 图像固有的结构差异，使得这两种模态的可变形图像配准（DIR）在配准性能方面表现不佳。Tanner等人[59]提出了一种完全无监督的MR-CT 图像模态合成方法，即通过减小CycleGAN 的判别器的感受野来减少提供给判别器的空间信息。在CycleGAN 中加入DIR 确保了合成图像与真实图像在空间上实现了一致性，有效提高了配准性能。基于GAN进行的其他方法的改进和研究总结如表4所示。

表4 基于GAN的其他改进方法总结Table 4 Summary of other improved methods based on GAN

4 总结与展望

本文首先介绍了生成对抗网络的基本模型，然后介绍了典型的生成对抗网络的衍生模型，接着分别基于网络结构、生成器、判别器与其他GAN的改进方法三方面总结阐述生成对抗网络在肝脏肿瘤图像分割上的应用。其中在网络结构的改进中，分别又对2D 肝脏肿瘤图像分割与3D肝脏肿瘤图像分割进行了总结分析。最后对生成对抗网络及其在肝脏肿瘤图像分割的应用进行了总结与展望。

生成对抗网络在肝脏肿瘤图像分割的应用领域体现出重要的研究价值，具有重要的研究意义。但是肝脏肿瘤图像内容较复杂以及生成对抗网络的训练不太稳定等问题，使得生成对抗网络在肝脏肿瘤图像分割中会存在一些问题，具体如下：

（1）肝脏肿瘤的形状、大小不一，而且肝脏肿瘤图像数据集的获取涉及患者隐私，都会导致数据获取较为困难[60]。数据集匮乏会导致分割模型出现过拟合现象，严重影响肝脏肿瘤图像的分割精度。

（2）数据是深度学习的本质特征，大量的数据训练才能让神经网络学到数据的深层语义信息，监督学习模型需要标签数据集的训练。肝脏肿瘤图像的标注工作费时费力并且缺乏专业人士的标注。虽然监督式深度学习在肝脏肿瘤图像分割中取得了很好的效果，然而标签图像数据匮乏的问题严重阻碍研究者对肝脏肿瘤图像分割工作的研究。

（3）肝脏肿瘤图像的分割往往涉及3D分割，这使得训练分割模型的计算成本变高。因此，3D 图像的处理以及3D 模型的训练往往受到设备性能的限制，严重影响肝脏肿瘤图像分割的精度。

（4）应用在肝脏肿瘤图像分割的生成对抗网络的相关改进模型没有完全解决模型训练不稳定、梯度消失以及模式崩溃的问题，这些问题会影响分割模型对肝脏肿瘤图像的分割精度。

（5）应用在肝脏肿瘤图像分割的生成对抗网络的分割模型多数局限于网络的结合使用，改进模型的范围具有局限性。这一定程度上阻碍了生成对抗网络在肝脏肿瘤图像分割领域的发展。

生成对抗网络的广泛应用与医学图像分割精度的高要求使得GAN在肝脏肿瘤图像分割中快速发展。本文总结分析的肝脏肿瘤分割的未来发展如下：

（1）为解决肝脏肿瘤图像数据集匮乏的问题，图像合成与仿真数据集扩充是GAN应用于肝脏肿瘤图像分割一个很好的发展方向。利用图像超分辨率技术提升肝脏肿瘤图像的质量也有助于提高肝脏肿瘤图像分割的精度。

（2）生成对抗网络是一种通过对抗训练学习真实数据分布的无监督学习模型，并且在半监督学习领域中也有很广泛的发展。未来，生成对抗网络可能会结合其他网络对肝脏肿瘤进行研究，充分展现生成对抗网络在半监督学习领域发展的优越性。

（3）医学图像的三维信息比二维信息更加丰富，拥有更多的特征信息，深度学习模型学习到的特征信息越多，分割模型的分割精度就越高。因此，对设备性能要求比较低又能学习到更多特征信息的学习模型是未来用于肝脏肿瘤图像分割的一个热门研究方向。

（4）针对应用在肝脏肿瘤图像分割的生成对抗网络的相关改进模型没有完全解决模型训练不稳定、梯度消失以及模式崩溃的问题，未来研究者可以考虑从生成对抗网络的基础网络结构开始，探究解决这些问题的完美方案。

（5）针对应用在肝脏肿瘤图像分割中的生成对抗网络的分割模型多数局限于网络的结合使用的问题，未来改进模型的范围应该更加广泛。例如多个GAN进行组合的模型、GAN 与CNN 组合的模型以及GAN 与RNN组合的模型等。尤其是UNet特别适合小样本数据集的分割，适合医学图像的分割任务[61]。将UNet 作为GAN的生成器对肝脏肿瘤图像进行分割，既能体现UNet 的优越性，又能充分展现GAN 在半监督学习领域的优越性。因此，将UNet与GAN结合是未来肝脏肿瘤图像分割一个特别好的发展方向。

总体来说，应用生成对抗网络对肝脏肿瘤图像进行分割的研究工作在面临着巨大挑战的同时，拥有着无限的潜力。