EnGAN:医学图像分割中的增强生成对抗网络

2024-08-17 00:00:00邓尔强秦臻朱国淞
计算机应用研究 2024年7期

摘 要:原始采集的医学图像普遍存在对比度不足、细节模糊以及噪声干扰等质量问题,使得现有医学图像分割技术的精度很难达到新的突破。针对医学图像数据增强技术进行研究,在不明显改变图像外观的前提下,通过添加特定的像素补偿和进行细微的图像调整来改善原始图像质量问题,从而提高图像分割准确率。首先,设计引入了一个新的优化器模块,以产生一个连续分布的空间作为迁移的目标域,该优化器模块接受数据集的标签作为输入,并将离散的标签数据映射到连续分布的医学图像中;其次,提出了一个基于对抗生成网络的EnGAN模型,并将优化器模块产生的迁移目标域用来指导对抗网络的目标生成,从而将改善的医学图像质量知识植入模型中实现图像增强。基于COVID-19数据集,实验中使用U-Net、U-Net+ResNet34、U-Net+Attn Res U-Net等卷积神经网络作为骨干网络,Dice系数和交并比分别达到了73.5%和69.3%、75.1%和70.5%,以及75.2%和70.3%。实验的结果表明,提出的医学图像质量增强技术在最大限度保留原始特征的条件下,有效地提高了分割的准确率,为后续的医学图像处理研究提供了一个更为稳健和高效的解决方案。

关键词:医学图像分割;图像质量;图像增强;域迁移;对抗生成网络

中图分类号:TP751.1 文献标志码:A 文章编号:1001-3695(2024)07-039-2195-08

doi: 10.19734/j.issn.1001-3695.2023.08.0509

EnGAN: enhancement generative adversarial network in medical image segmentation

Abstract:The quality issues commonly found in original medical images, such as insufficient contrast, blurred details, and noise interference, make it difficult for existing medical image segmentation techniques to achieve new breakthroughs. This study focused on the enhancement of medical image data. Without significantly altering the appearance of the image, it improved the quality problems of the original image by adding specific pixel compensation and making subtle image adjustments, thereby enhancing the accuracy of image segmentation. Firstly, it introduced a new optimizer module, which generated a continuous distribution space as the target domain for transfer. This optimizer module took the labels of the dataset as input and mapped the discrete label data to the continuous distribution of medical images. Secondly, it proposed an EnGAN model based on generative adversarial networks(GAN), and used the transfer target domain generated by the optimizer module to guide the target generation of the adversarial network, thereby implanting the knowledge of improving medical image quality into the model to achieve image enhancement. Based on the COVID-19 dataset, convolutional neural networks, including U-Net, U-Net+ResNet34, U-Net+Attn Res U-Net, were utilized as the backbone network in the experiment, and the Dice coefficient and intersection over union reached 73.5% and 69.3%, 75.1% and 70.5%, and 75.2% and 70.3% respectively. The empirical results demonstrate that the proposed medical image quality enhancement technology effectively improves the accuracy of segmentation while retaining the original features to the greatest extent, providing a more robust and efficient solution for subsequent medical image processing research.

Key words:medical image segmentation; image quality; image enhancement; domain migration; generative adversarial networks

0 引言

以卷积神经网络(convolutional neural network,CNN)[1]为代表的深度学习模型在图像处理中得到了广泛的应用,医学图像也从中受益,U-Net[2]这样的网络模型大幅提高了分割的准确性。然而,由于医学成像设备的固有限制和成像过程的局限性,导致部分医学图像存在对比度不足、细节模糊以及噪点干扰等问题。这些问题对神经网络的语义分割造成了较大的干扰,导致分割准确率下降的问题。因此,许多方法都尝试对医学图像进行增强,通过提升图像质量来提高分割准确率。现有的图像增强方法虽然可以显著提升网络分割的准确率,但会改变图像的外观,例如图像亮度、对比度等特征,更严重的甚至会改变目标特征,此类方法很难在不改变图像外观的条件下提升图像质量。

本文设计了一种新的医学图像增强网络模型,该模型在不明显改变图像外观的同时,通过添加特定的像素补偿和进行细微的调整来增强图像,提升分割准确度。因此,原始医学图像通过该模型增强后的效果与原始图像外观保持高度一致,不存在肉眼所见的失真情况。

为了通过添加特定的像素补偿和进行细微的图像调整来增强分割准确度,本文设计了一个新的医学图像增强网络EnGAN(enhancement generative adversarial network),它基于对抗生成网络(generative adversarial network,GAN)[3]的框架,利用GAN的可迁移性完成数据域的映射。首先,本文设计了一个优化器来生成目标域[4],它是预训练分割模型的反向网络。将数据集的标签作为其输入,将标签中的分割信息与模型中的分布结合,生成GAN所需的目标域。其次,当得到一个目标域后,训练GAN的生成器将数据迁移到目标域,使原始数据得以增强,最终提高图像分割的准确率。

本文的主要贡献概括如下: a)提出了一种用于分割任务的数据增强对抗生成网络EnGAN,完成域迁移,提高数据质量,并在不改变分割网络的情况下提高性能;b)提出了一个优化器结构,生成具有更好数据分布的目标域,并提供给GAN进行迁移学习;c)提出了一个三方交替训练模型,将目标域的生成插入到GAN的对抗训练中。

1 相关工作

医学图像分割任务对于后续的诊断和治疗具有重要指导意义,但由于复杂的数据格式、噪声、干扰和遮挡等不利因素,使得这一任务变得困难。为解决此类问题,研究人员提出了许多高效的分割方法和模型。

Leclerc等人[5]对用于医学图像分割的不同方法,如CNN[1]、全卷积网络(fully convolutional network,FCN)[6]、U-Net[2]、循环神经网络(recurrent neural network,RNN)[7]等进行了调研。FCN与CNN相比具有更高的计算效率和更少的存储空间,它源于AlexNet[8],并对其进行了像素级分类的语义分割内容的改造。使用这种方法,输出大小可被恢复为与输入图像相同的大小。

为了提高分割精度,Ronneberger等人[2]设计了一个名为U-Net的U型结构网络。U-Net包括编码器和解码器,其中编码器用于提取特征,解码器用于恢复原始分辨率。编码器获取图像的细节和轮廓信息,然后将提取的特征传输到解码器;解码器接收到特征后,将多个尺度的特征结合起来进行恢复。实验表明,U-Net在小样本数据集上表现出色。

SegNet[9]是为自动驾驶或智能机器人的图像语义分割而提出的,它源自FCN,并集成了VGG-16[10]网络修改。在编码器部分,部分使用了VGG16网络,包括五个块,每个块包括卷积层和最大池化层。解码器部分对应编码器层,使用了softmax,它通过输出不同分类的最大值以获得最终的分割图。

Chen等人[11]提出了基于CNN的DeepLab,此后,又陆续提出了DeepLabv2、DeepLabv3和DeepLabv3+[12~14]。DeepLabv3+的编码器使用空洞卷积来提取图像特征,特别是包括了改进的Xception网络和带有空洞的空间金字塔池化模块。DeepLabv3+的解码器将提取的全局特征上采样到1/4的大小,然后与局部特征融合,最后将特征上采样到与原始图像相同的大小,并生成预测的分割图像。

GAN[3]在医学图像领域有广泛的应用。Yang等人[15]提出一个结合了感知相似性的WGAN模型[16],引入了人类视觉感知的概念,并将其应用于如何去除低剂量CT图像的噪声。它可以在去噪后更好地保留图像的细节,但丢弃了3D空间信息。随后,Shan等人[17]在LDCT的基础上,构建了一个结合2D和3D的传送路径卷积编码解码器。它弥补了前者浪费空间信息的缺点,并实现了更快的3D图像去噪。

在超分辨率应用领域,Chen等人[18]基于GAN构建了一个多级密集连接超分辨率网络,实现了从低分辨率的3D磁共振图像中恢复高分辨率的细节。通过结合GAN和单图像超分辨率技术,Sun等人[19]完成了动态对比增强乳腺磁共振图像的高质量超分辨率任务,大大缩短了磁共振检查的时间。Xie等人[20]提出使用CycleGAN[21],从无配对的磁共振图像生成沿不同成像方向的高分辨率磁共振图像,然后通过图像融合实现超分辨率图像生成的目标。

在图像样本增强方面,Calimeri等人[22]使用GAN实现了人脑磁共振图像数据的扩展,有效地提高了诊断算法的泛化能力,但只能生成2D图像。随后,Han等人[23]使用GAN实现了多序列脑磁共振图像的数据增强,并使用条件PGGAN实现了迁移性脑肿瘤检测任务中的数据增强。Madani等人[24]使用了GAN进行心血管异常分类任务中的胸部X光图像数据的扩展。Bailo等人[25]将Pix2PixHD模型应用于红细胞分割任务的图像增强。

在GAN进行医学图像分割增强方面,Shi等人[26]通过Style-Based GAN提出了一种新颖的数据增强框架,用于合成增强的训练数据。首先,训练风格编码器和生成器直到能够重构数据集中的图像,然后利用从数据集中提取的风格库以随机风格合成增强数据,从而在风格方面平衡数据集。该方法在公开的LIDC-IDRI数据集上得到验证,结果证明该数据增强框架不仅能生成逼真的图像,而且能提高分割模型的稳定性和准确性。

文献[27]提出了一种基于Seg2GAN架构的两阶段对抗网络,该网络允许创建扩展的合成医学图像分布,从而在分割任务中取得更好的结果,该方法已在生成与膝盖软骨及眼底和冠状动脉血管相关的合成医学数据,并在分割生成图像方面显示出其有效性。此外,该方法在多个分割指标方面提高了分割的Dice得分。

为了提高脑瘤分割的准确性并充分利用MRI数据的多模态信息,文献[28]提出了一种名为TensorMixup的脑瘤分割算法。首先,从具有相同模态的两个MRI脑图像中获取肿瘤图像块及其一热编码标签;然后,使用一个张量Λ混合两个图像块,并将映射自Λ的矩阵Λ*用于混合两个一热编码标签序列,从而合成新的图像及独热编码标签。该方法可用于训练模型并缓解脑瘤分割任务中数据不足的问题,通过增加数据训练量来提升分割Dice得分。

尽管上述研究已经在医学图像增强和分割方面取得了进步,但仍存在一些挑战。一方面,有些方法虽然可以提高分割的准确率,但可能会改变图像的外观,导致后续的图像分析任务受到影响;另一方面,有些方法虽然保持了图像的外观,但其对分割精度的提升并不明显。因此,如何在保持图像外观的同时提高分割精度,是一个需要进一步研究的问题。

为了解决这个问题,本文提出了EnGAN对医学图像进行增强,本文方法主要通过添加特定的像素补偿和进行必要的图像调整来解决分割网络可能遇到的干扰问题,同时避免破坏原有图像结构。通过EnGAN框架,图像的细节得到填充,不利因素被剔除,实现了在保证外观相似度的条件下显著提升语义分割网络表现的图像增强效果。

2 增强生成网络EnGAN

本文设计了一个基于生成对抗网络(GAN)结构的医学图像增强框架EnGAN。在该框架中,生成器被用于实现从源域到目标域的增强,而判别器则用于判定数据迁移的效果。在医学图像分割中,有效的目标域应能提高分割精度,并适应已训练的分割网络,但一个隐含条件是源域和目标域图像需要具有高度的相似性[29],并且医学图像中的组织结构和纹理信息不应被修改。

在框架EnGAN下,本文设计了一个新的优化器用于生成所需的目标数据。它将数据标签作为输入,以携带精确的分割信息;它自身是分割网络的逆网络,将分割网络的分布信息迁移到目标域数据[30];在操作过程中,它只产生微小偏移量,这些偏移量被叠加到源域数据上,以确保源域和目标域数据的相似性[31]。

2.1 增强方案

2.1.1 问题定义

假设有一组医学图像数据x∈Euclid Math OneXAp,每个图像x~Ps,其中Ps是原始数据集中标签分类的分布。在图像分割场景中,p∈Ps代表每个点的真实类别标签分布,具体来说,对于图像中的某个像素点i,如果其分类标签是c,那么pi,c=1,否则pi,c=0。

对于单张图像而言,增强的目标是通过修改原始图像x的部分像素,得到新的目标图像xt,使得修改后的图像xt输入到相同的网络fSeg后,输出的分割结果有更高的准确率,即Acc[fSeg(xt)]>Acc[fSeg(x)]。其中,fSeg是一个分割网络,Acc是一个评估fSeg(x)准确性的度量函数。

按照此定义,对集合中所有的图像进行增强后,会产生一个新的图像集合Euclid Math OneXApt,所有图像的分割结果形成了新的数据分布,即需要求解的分布Pt。

2.1.2 优化器设计

本文设计了一个优化器来生成变量δ,它是一个与x具有相同像素大小的偏移量,将其添加到x形成xt,从而生成目标分布域xt~Pt。优化器的目标是提高分割精度Acc[fSeg(xt)],这等同于最小化分割网络的损失值。同时,为了保持xt和x之间的相似性,δ应该尽可能小。因此,这个问题可以转换为求解δ和优化分割损失的最优化问题,定义如下:

min c‖δ‖2+Loss(fSeg(tanh(x+δ)))(1)

其中:‖·‖2是二范数;c是一个超参数,用于控制两部分之间的平衡;Loss是预训练分割网络的损失函数。由于xt是一个医学图像,所以使用xt=tanh(x+δ)来限制其像素值在[-1,1]。

在以上优化目标函数中,c‖δ‖2和Loss(fSeg(tanh(x+δ)))两部分存在对抗关系。为了获得目标函数最优值,需要生成较大的随机值δ,从而减小Loss(fSeg(tanh(x+δ))),此时合成的图像xt表现为失去原始图像的外部特征。因此,为了保留图像的原始特征,本文在目标函数中引入正则化项c‖δ‖2,该正则化项引导目标函数朝着生成较小δ的方向寻找最优目标值,从而实现制约原始图像被修改的程度。因此,通过这个优化过程,可以找到这两部分之间的平衡,从而得到优化的δ。

在整个数据集中,对于每一个x∈Euclid Math OneXAp,都有一个对应的δ,使得xt=tanh(x+δ),得到一个新的增强后的图像集合xt,其中包含了所有增强后的图像。这个图像集合xt就形成了目标分布Pt。

2.1.3 目标迁移

为了求解Pt,本研究采用了生成网络的方案,其目标是找到一个生成器G,它可以将源域x~Ps的图像增强到目标域xt~Pt。生成器被定义为

G:xt=G(x)

such that Acc[fSeg(xt~Pt)]>Acc[fSeg(x~Ps)](2)

在这个过程中,本文使用了生成对抗网络的框架。GAN网络在训练过程中,通过交替训练生成器和判别器,逐步提升生成器的效果。本研究的创新之处在于,将优化器也加入到该模型中,形成了一个三步训练的过程:a)在每次迭代中,优化器首先生成偏移量δ;b)然后将这个δ作为判别器的目标,接着使用同样的方式训练GAN;c)通过多次迭代优化,最终得到了优化后δ的分布,而xt=tanh(x+δ)的集合形成了目标分布Pt。

生成器G的目标是将原始的分布x迁移到目标分布xt上。通过对G的训练,最终使得G(x)的分布趋近于xt,此为目标迁移过程。该方法通过对数据集中的每一张图像进行独立的优化,实现了在保持相似性的同时提高分割精度的目标。这是本文方法的一个重要特点和创新,也是在医学图像分割任务中取得良好效果的关键。

2.2 网络设计

网络框架由优化器、生成器和判别器三个部分组成。其中,通过训练优化器O创建具有连续分布xt~Pt的目标域,生成器G用于接收x生成xt,而判别器D负责判定生成数据xt的质量。整体架构如图1所示。

优化器结构基于U-Net,并且网络在前向传播中被应用于分割。在每个下采样过程中都增加了一个可变形的卷积层,使得特征图在每个下采样过程中逐层编码,并且特征信息连接跳跃到上采样阶段,变形特征逐步恢复。

判别器由8个卷积层和2个全连接层组成,其结构如图2所示。其中,8个卷积层的卷积核大小为3×3,步长为1或2。如果步长为1,图像大小保持不变;如果步长为2,图像大小减半。卷积核的数量从64增加到512。第一个全连接层使用1 024个神经元将二维特征图转换为一维数组。第二个全连接层使用一个神经元通过阈值函数完成预测。

生成器结构如图3所示,包含八个块,每个块有四个3×3的卷积层,后面跟着一个下采样或上采样层。下采样层是带有步长2的卷积,后面跟着LeakyReLU、批量归一化和dropout。上采样层是带有步长12的反卷积,后面跟着LeakyReLU、批量归一化和dropout。如前所述,生成器内部也保持了跳跃连接,并通过使用与ResNet相似的策略,采用1×1的卷积层在块之间传递特征。

损失函数由三部分组成。生成器和判别器的损失函数定义与GAN相同。此外,为了限制图像修改,添加了相似性损失,并且还添加了优化器的损失,以确定图像传输的效果。生成模型的损失函数为

为了确保图像与增强后图像之间的相似性,损失函数中添加了一个相似性损失来约束距离:

其中:N是该图像中的像素个数。增强图像作为输入的分割网络的损失值为

总损失如式(6)所示,超参数α和β用于控制三部分的平衡:

L(G,D)=LGAN+αLSim+βLSeg(6)

2.3 实现方法

2.3.1 初始化

在初始化阶段,首先定义训练过程所需的基本参数,输入图像xi、真实标签li、判别器参数ω、生成器参数θ、预训练的优化器η,以及优化的偏移量δ。这些参数是训练过程的基础,为后续的训练和优化提供了初始设定。

2.3.2 循环训练

本阶段的核心是围绕生成器参数θ的收敛进行循环训练。在每一次循环中,执行两层嵌套循环,外层循环对i进行迭代,内层循环对j进行迭代。在内层循环中,首先采样原始数据xj,对应的标签lj和随机偏移量δj~N(0,1),其中N(0,1)是标准正态分布。

然后通过x′j=tanh(xj+δj),并根据式(5)作为损失函数,在反向传播过程中更新优化偏移量δ。 接下来计算新的偏移量δ^=G(x),以及按照式(3)计算生成器损失LiGAN。这个阶段的主要目的是通过循环不断优化生成器和判别器的参数,以逼近最优解。

2.3.3 参数更新

在每次内循环结束后,通过Adam[32]优化器更新判别器参数ω和生成器参数θ。这个阶段是训练过程中的关键,它保证了模型参数能够朝着最优解的方向不断更新。

2.3.4 算法流程

算法1描述了EnGAN的算法流程,通过逐步优化生成器和判别器的参数,实现从原始数据分布到高质量数据分布的迁移。通过循环训练和参数更新,最终得到了优化后的参数集Euclid Math OneXAp′,为后续的医学图像分割任务提供了有力的支持。

算法1 EnGAN交替训练实现

3 实验

实验使用了三个不同的数据集,包括乳腺超声图像数据集、心脏超声图像分割数据集以及COVID-19 CT图像数据集。每个数据集都包含了不同的医学图像,这些图像来自不同的病患,涵盖了多种病变类型。使用多种模态的数据集进行实验,可有效验证本文方法的泛化性。

3.1 数据集

乳腺超声图像数据集(BUSI)[34]收集了600名年龄在25~75岁的女性患者的乳腺超声图像。数据集中的图像数量超过700张,由Baheya医院收集的DICOM格式数据被转换成PNG格式的灰度图像。图像的平均尺寸为500×500像素。根据不同的病变,这些图像被划分为常见、良性和恶性三个类别。

心脏超声图像分割数据集(CAMUS)[5]包含了450名患者的心脏超声检查的1 800张单独图像。每位患者的超声检查包含四张图片:两张是心室收缩末期(ES)的心尖四腔视图(A4C)和心尖二腔视图(A2C),另外两张是心室舒张末期(ED)的A4C和A2C视图。CAMUS数据集总共包含900张ES图像和900张ED图像。CAMUS中的数据具有一定的异质性,A4C和A2C视图,ED和ES图像的混合给神经网络的自动分割带来了挑战。在CMAUS数据集的450名患者中,有366名(81%)患者的心脏超声图像质量良好,84名(19%)患者的心脏超声图像质量较差。

由意大利医学和介入放射学会收集的数据集[35],包含了40多名COVID-19患者的100张CT图像。图像已经被缩小,转为灰度,并编译为512×512像素的NIFTI格式。一位放射科医生已经根据胸膜积液、磨玻璃样改变和实变三个类别分割了每张图像。

3.2 评价指标

本节将详细介绍用于评估分割模型性能的指标,包括 Dice 系数(Dice similarity coefficient)、准确率(pixel accuracy)、召回率(recall rate)和交并比(intersection over union,IoU)。这些指标能够从不同维度全面评估模型的表现,包括预测结果与标注结果的一致性、模型在不同类别图像上的分割精度、模型对真实边界的检测能力,以及模型的精确率和召回率等。通过这些指标,可以全面了解模型的性能,从而为模型的评估、改进和优化提供定量依据。

Dice 系数是一种常用于衡量两个样本集相似度的指标,尤其适用于评估图像分割任务的性能,其计算公式为

其中:X和Y分别代表预测区域和真实区域的像素集。Dice系数的值为0~1,值越接近1,表示预测区域与真实区域的重叠程度越高,分割模型的性能越好。

准确率是衡量模型分类正确性的基本指标,其计算公式为

其中:TP(真正例)、TN(真负例)、FP(假正例)和 FN(假负例)是混淆矩阵的四个组成部分,准确率衡量了模型在所有样本中正确分类的能力。

召回率衡量了模型在所有真正例中正确识别正例的能力,其计算公式为

召回率是评估模型查全率的重要指标,尤其在不平衡数据集的情境中具有重要意义。

交并比是一种衡量图像分割任务中预测区域和真实区域重叠程度的指标,其计算公式为

其中:X是预测区域;Y是真实区域。交并比的值为0~1,值越接近1,表示预测区域与真实区域的重叠程度越高,分割模型的性能越好。

为了评估图像增强前后的差异,本文采用了结构相似度指标(structural similarity index,SSIM),它是一种用于衡量两幅图像相似度的指标,其主要思想是通过比较图像的亮度、对比度和结构信息来评估图像的相似度。SSIM的计算公式如下:

其中:x和y分别表示两幅图像;μx和μy分别表示x和y的均值;σ2x和σ2y分别表示x和y的方差;σxy表示x和y的协方差;C1和C2是为了避免分母为0而设定的常数。SSIM指标的值为-1~1,值越接近1,表示两幅图像越相似。

通过以上评估指标,本文能够从不同维度全面地评价模型在特定任务上的性能,并为模型的优化提供定量依据。

3.3 实验设置

实验选择了U-Net作为基础网络,并添加了ResNet34和注意力机制。每个网络都经过预训练,以达到特定级别的分割精度。在此基础上,提出了EnGAN增强方法。一个预训练的模型同时具有两个身份。前向传播用于预测该分割模型的分割结果。它也是EnGAN中的优化器,通过反向传播调整原始图像的偏移量δ。

实验选择了PyTorch[36]作为框架,并以批次大小为32进行模型训练。优化器是AdamGrad[32],学习率为0.001。实验在Ubuntu 20.04的服务器上进行,内存为64 GB,使用TeslaV100显卡进行CUDA计算。

3.4 应用策略

首先,使用未增强的数据对模型进行预训练,为模型提供一个良好的初始状态。其次,开始使用由EnGAN生成的增强数据进行微调。在此过程中,为了确保增强数据的有效性,按照4∶1的比例混合原始数据和增强数据进行训练。

在实际应用中,首先将输入的医学图像通过EnGAN进行增强,然后再将增强后的图像输入到U-Net+ResNet34中进行分割。这种双阶段的处理策略确保了在实际应用中,既能够受益于增强数据的高质量,同时也能够充分利用深度网络对图像特征的强大捕获能力。

通过上述的实现方法和策略,本研究所提出的模型能够有效地应对医学图像的多样性和不均衡性,从而在实际应用中获得良好的分割效果。

3.5 实验结果分析

3.5.1 BUSI数据集实验结果

从表1中可以看出,无论是U-Net、U-Net+ResNet34还是Attn U-Net+ResNet34模型,与EnGAN结合后,其在乳腺超声图像分割任务上的性能都有所提升。这说明了EnGAN能够有效地提升模型的分割性能。同时,Attn U-Net+ResNet34+EnGAN模型在所有指标上的表现最好,是因为该模型结合了注意力机制和深度残差网络,使得模型能够更好地关注和学习图像的重要特征。

对比的实验结果如图4所示,在使用EnGAN对图像进行增强之后,图像与原图具有较高的相似度,但是分割结果有较大的提升。

3.5.2 COVID-19数据集实验

在COVID-19数据集上也测试了U-Net、U-Net+EnGAN、U-Net+ResNet34,以及U-Net+ResNet34+EnGAN四种模型。实验结果表明,引入EnGAN的模型能显著提高分割精度,COVID-19分割效果对比如表2所示,COVID-19数据集效果对比如图5所示。

U-Net+ResNet34+EnGAN模型在所有测试的模型中表现最为优秀。这表明ResNet34的深度残差学习框架和EnGAN的生成对抗网络能够有效地提升U-Net的性能。这也证实了在CT数据上,EnGAN增强的数据同样可以提高医学图像的分割精度。

3.5.3 CAMUS数据集实验

表3展示了在CAMUS数据集上的分割评估结果。选择了四种不同的方法进行比较,即U-Net、U-Net+EnGAN、U-Net+ResNet34、U-Net+ResNet34+EnGAN,以及这四种方法加入注意力机制后的结果。每一种方法都在三个不同的数据质量级别(低、中、高)下进行了评估,分别对LVEndo、LVEpi和LA进行了分割。

从结果显示,无论在哪种数据质量级别下,加入EnGAN的方法都比未加入EnGAN的方法表现要好。例如,在低质量级别下,U-Net+EnGAN在LVEndo上的表现为82.27%,而未加入EnGAN的U-Net在同一条件下的表现为80.76%。这说明本文提出的EnGAN增强方法在多分类的数据集上也具有提升效果。

在所有方法中,U-Net+ResNet34+EnGAN的表现最好。这表明,ResNet34和EnGAN的结合能进一步提升分割精度。从图像分割的效果可以看出,其不仅分割准确度有较大提升,增强图像的边缘平滑度、整体的连贯程度也有较大的提升,如图6所示。

3.5.4 EnGAN与其他数据增强方法的对比实验

表4展示了EnGAN和其他模型的实验对比结果。首先可以从整体上观察到,EnGAN在所有三种模型(U-Net、U-Net+ResNet34和Attn Res U-Net)上都实现了Dice系数和召回率的最优结果,这明确地证明了EnGAN在增强方法中的优越性。

在U-Net模型中,EnGAN在所有指标上均取得了最佳表现。具体来说,其Dice系数为0.735,比第二高的Seg2GAN提高了0.1百分点;交并比为0.693,领先于Style-Based GAN的0.687,提高0.6百分点;在准确度和召回率上,EnGAN分别达到了0.792和0.775,均略高于其他增强方法。

这些数据表明,EnGAN在U-Net模型中具有显著的数据增强优势。

对于U-Net+ResNet34模型,EnGAN同样展现出了较好性能。其Dice系数达到了0.751,领先于第二名的Style-Based GAN的0.748,提升了0.3百分点;交并比达到了0.705,超过第二名的Style-Based GAN的0.701,差距为0.4百分点。在准确度上,EnGAN的0.811同样是所有方法中的最高值。尽管召回率上EnGAN的0.792略低于Style-Based GAN的0.804,但其在其他三个指标上的明显优势确保了其整体表现的领先。

在Attn Res U-Net模型中,EnGAN继续展现出卓越的性能。其Dice系数为0.752,是所有方法中的最高值,与第二名的Style-Based GAN相比有0.4百分点的优势;交并比上,EnGAN的0.703超出第二名的Style-Based GAN的0.695,差距为0.8百分点。虽然在准确度上,Style-Based GAN的0.811略高于EnGAN的0.804,但EnGAN在召回率上以0.803的成绩领先,与第二名的Style-Based GAN有0.8百分点的优势。这进一步证明了EnGAN增强方法的有效性和优越性。

实验结果表明,EnGAN增强方法在U-Net、U-Net+ResNet34和Attn Res U-Net三种模型上均展现出显著的优势。特别是,它在Dice系数和召回率上均达到了最优表现。无论是与Seg2GAN还是Style-Based GAN进行比较,EnGAN在各个评价指标上均表现出色。尽管在某些指标上可能略逊于其他方法,但EnGAN的整体性能确保了其在各种模型条件下的领先地位,证明了其在数据增强方面的出色性能。

3.5.5 鲁棒性分析

为了进一步探索EnGAN模型的鲁棒性,根据式(6)对模型损失函数中的两个关键超参数α和β进行了深入研究。α是通过相似性损失来约束距离的超参数,而β是增强图像作为输入的分割网络的损失值的超参数。鲁棒性实验采用COVID-19数据集,使用U-Net+EnGAN模型。在本研究中,进行了两组实验:第一组实验设置α=1,调整β的值域为[0.1,5]进行测试;第二组实验设置β=1,调整α的值域为[0.1,5]。观测指标使用评估分割准确率的Dice系数,以及评估图像相似度的SSIM指标,如图7所示。

当β值较低(β<1)时,LSeg在损失函数中的比重较小,因此LSim占主导地位,图像的变更相对较小,相似性指标表现得相对较好;但随着β的增加,对于图像分割准确率的权重提升,对于图像的优化方向逐渐倾向LSeg,因此相似性逐渐下降。与此同时,由于LSeg权重的提升,Dice系数随β的增加快速提升。但是当β继续增大时,LSeg权重增大,图像的相似度逐渐变小,而且难以收敛,相应的Dice值增长缓慢,同时也出现了发散现象。

根据这些实验数据可以发现,简单地增加β值并不会始终提升模型性能。进一步分析,可以发现存在一个最优β值,在该值时模型可以达到最佳的性能平衡。

在另一组实验中,固定β=1,调整α进行对比分析。如图8所示,随α值的递增,可以看到相似性和Dice系数两大性能指标的变化呈现出一种特定关系。

具体地,在α值较低的区间,相似性指标显著上升,表明模型在这个范围内对相似性的约束能力逐渐增强。但当α进一步增加时,相似性指标逐渐趋于稳定,并且逼近到1。而Dice系数在α初期增加时略显下降,但随后基本稳定,表明α的权重增大之后,LSim的惩罚加大,使优化的方向趋向于保持图形的相似度,最终导致增强图像和原始图像高度相似时,分割的结果也趋近原始的数值。

基于对α和β的鲁棒性的初步分析,进一步展开了深入的实验研究。实验结果表明,在α取值为[0.65, 1.1],以及β取值为[0.7, 1.5],图像的相似度能够稳定维持在[0.8,0.9],并且此时模型的分割准确率达到最优表现。

在EnGAN模型的构建与优化中,超参数α和β的选择和调整显得尤为关键。深入了解并妥善调整这两参数间的相互关系,有助于确保模型在多种应用场景下呈现出稳健的高效性能。

3.5.6 实验结果分析

本文在三个数据集上进行了数据增强实验。由于相似性损失的限制,如图4~6所示,增强前后的图像差异非常小,在视觉上难以察觉。一般的数据增强处理方法为扩展数据集空间,这会对数据本身造成损伤和损失。本文在第四个实验中证明了EnGAN方法的优越性。从四个实验的结果来看,本文的增强方法保护了数据的一致性和完整性,只对数据造成了微小的改变。然而,相似性损失的效果仍然有限,一些增强图像中出现了更明显的噪声,如图4的第三张图片所示。

表1~4的分割结果显示,无论是使用基线的U-Net,还是添加注意机制或添加ResNet模块,原始图像经过EnGAN增强后,图像分割的准确性都有所提高。生成器迁移的目标是连续空间中的标签分布,优化器作为映射函数由分割网络执行。因此,生成器服从标签和分割网络的联合分布,并通过GAN的迁移能力获取先验知识,从而有效地增强图像。

这种方法已在不同模态的数据集上得到验证,适用于二元分割和多类分割任务,表明这种方法对不同数据类型具有良好的适应性。一些图像的分割精度得到了显著提高,如图4中的第四张图片。全数据的准确性也得到了提高,显示出一定的适应性。无论模型和数据集选择怎样的,其改进效率都相对稳定。

4 结束语

本文提出了一种在医学图像中使用自标签的数据增强方法。在该方法中,使用了一个优化器将离散分布的标签数据映射到连续空间,并将其添加到GAN中,为GAN提供一个目标域。同时,限制了增强图像与原始图像之间的差异,以确保数据本身不受损害。训练过的GAN可以增强原始图像,并提高系统的分割精度。通过多模态的实验,结果表明,增强图像能使分割精度稳定提升,显示了该方法的稳定性和适应性。需要指出的是,实验中出现了随机噪声。而本文中的相似性损失无法防止这种情况的发生,这需要在后续的研究中寻找解决方法。

参考文献:

[1]Albawi S,Mohammed TA,Al-Zawi S. Understanding of a convolutio-nal neural network [C]// Proc of International Conference on Engineering and Technology. Piscataway,NJ:IEEE Press,2017: 1-6.

[2]Ronneberger O,Fischer P,Brox T. U-Net: convolutional networks for biomedical image segmentation [C]// Proc of International Confe-rence on Medical Image Computing and Computer-Assisted Intervention. Berlin:Springer,2015: 234-241.

[3]GoodFellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial nets [C]// Advances in Neural Information Processing Systems. 2014.

[4]王绍帆,马驰,胡辉,等. 基于对抗学习的医学图像分割领域自适应研究 [J]. 计算机应用研究,2022,39(4): 1270-1273.( Wang Shaofan,Ma Chi,Hu Hui,et al. Research on domain adaptation medical image segmentation based on adversarial learning[J]. Application Research of Computers,2022,39(4): 1270-1273.)

[5]Leclerc S,Smistad E,Pedrosa J,et al. Deep learning for segmentation using an open large-scale dataset in 2D echocardiography [J]. IEEE Trans on Medical Imaging,2019,38(9): 2198-2210.

[6]Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2015: 3431-3440.

[7]Medsker L R,Jain L C. Recurrent neural networks [J]. Design and Applications,2001,5(64-67): 2.

[8]Krizhevsky A,Sutskever I,Hinton G E. ImageNet classification with deep convolutional neural networks [J]. Communication of the ACM Processing Systems,2012,60(6): 84-90.

[9]Badrinarayanan V,Kendall A,Cipolla R. SegNet:a deep convolutional encoder-decoder architecture for image segmentation [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(12): 2481-2495.

[10]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL].(2014). https://arxiv.org/abs/1409. 1556.

[11]Chen L C,Papandreou G,Kokkinos I,et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL].(2014).https://arxiv.org/abs/1412. 7062.

[12]Chen L C,Papandreou G,Kokkinos I,et al. DeepLab: semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,40(4): 834-848.

[13]Chen L C,Papandreou G,Schroff F,et al. Rethinking atrous convolution for semantic image segmentation [EB/OL].(2017). https://arxiv.org/abs/1706. 05587.

[14]Chen L C,Zhu Yukun,Papandreou G,et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proc of European Conference on Computer Vision. Cham: Springer,2018: 801-818.

[15]Yang Qingsong,Yan Pingkun,Zhang Yanbo,et al. Low-dose CT image denoising using a generative adversarial network with Wasserstein distance and perceptual loss [J]. IEEE Trans on Medical Ima-ging,2018,37(6): 1348-1357.

[16]Gulrajani I,Ahmed F,Arjovsky M,et al. Improved training of Wasserstein GANs [EB/OL].(2017). https://arxiv.org/abs/1704. 00028.

[17]Shan Hongming,Zhang Yi,Yang Qingsong,et al. 3-D convolutional encoder-decoder network for low-dose CT via transfer learning from a 2-D trained network [J]. IEEE Trans on Medical Imaging,2018,37(6): 1522-1534.

[18]Chen Yuhua,Shi Feng,Christodoulou A G,et al. Efficient and accurate MRI super-resolution using a generative adversarial network and 3D multilevel densely connected network [C]// Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin:Springer,2018: 91-99.

[19]Sun Kun,Qu Liangqiong,Lian Chunfeng,et al. High-resolution breast MRI reconstruction using a deep convolutional generative adversarial network [J]. Journal of Magnetic Resonance Imaging,2020,52(6): 1852-1858.

[20]Xie Huaiqian,Lei Yang,Wang Tao,et al. Synthesizing high-resolution MRI using parallel cycle-consistent generative adversarial networks for fast MR imaging [J]. Medical Physics,2021,49(1): 357-369.

[21]Zhu J Y,Park T,Isola P,et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2017: 2223-2232.

[22]Calimeri F,Aldo M,Claudio S,et al. Biomedical data augmentation using generative adversarial neural networks[C]// Proc of International Conference on Artificial Neural Networks. Cham: Springer,2017: 626-634.

[23]Han C,Hayashi H,Rundo L,et al. GAN-based synthetic brain MR image generation[C]//Proc of the 15th IEEE International Symposium on Biomedical Imaging. Piscataway,NJ: IEEE Press,2018: 734-738.

[24]Madani A,Moradi M,Karargyris A,et al. Chest X-ray generation and data augmentation for cardiovascular abnormality classification [C]// Proc of SPIE 10574,Medical Imaging:Image Processing.2018:415-420.

[25]Bailo O,Ham D,Shin Y M. Red blood cell image generation for data augmentation using conditional generative adversarial networks [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition Workshops. Piscataway,NJ:IEEE Press,2019: 1039-1048.

[26]Shi Haoqi,Lu Junguo,Zhou Qianjun.A novel data augmentation me-thod using style-based GAN for robust pulmonary nodule segmentation [C]// Proc of Chinese Control and Decision Conference. Piscataway,NJ:IEEE Press,2020: 2486-2491.

[27]Beji A,Blaiech A G,Said M,et al. An innovative medical image synthesis based on dual GAN deep neural networks for improved segmentation quality [J]. Applied Intelligence,2023,53(3): 3381-3397.

[28]Wang Yu,Ji Yarong,Xiao Hongbin. A data augmentation method for fully automatic brain tumor segmentation [J]. Computers in Biology and Medicine,2022,149: 106039.

[29]Ding Yi,Wu Guozheng,Chen Dajiang,et al. DeepEDN: a deep-learning-based image encryption and decryption network for Internet of Medical Things[J]. IEEE Internet of Things Journal,2020,8(3): 1504-1518.

[30]Guo Zhiwei,Yu Keping,Neeraj K,et al. Deep-distributed-learning-based POI recommendation under mobile-edge networks[J]. IEEE Internet of Things Journal,2022,10(1): 303-317.

[31]Ding Feng,Zhu Guopu,Alazab M,et al. Deep-learning empowered digital forensics for edge consumer electronics in 5G HetNets [J]. IEEE Consumer Electronics Magazine,2020,11(2):42-50.

[32]Kingma D P,Ba J. Adam: a method for stochastic optimization [EB/OL].(2014). https://arxiv.org/abs/1412. 6980.

[33]Guo Zhiwei,Yu Keping,Bashir A K,et al. Deep information fusion-driven POI scheduling for mobile social networks [J]. IEEE Network,2022,36(4): 210-216.

[34]Al-Dhabyani W,Gomaa M,Khaled H,et al. Dataset of breast ultrasound images [J]. Data in Brief,2020,28: 104863.

[35]Li Lin,Qin Lixin,Xu Zeguo,et al. Artificial intelligence distinguishes COVID-19 from community acquired pneumonia on chest CT [J]. Radiology,2020,296(2):200905.

[36]Paszke A,Gross S,Massa F,et al. PyTorch: an imperative style,high-performance deep learning library [C]// Proc of the 33rd International Conference on Neural Information Processing System. Red Hook,NY: Curran Associates Inc.,2019: 8026-8037.