基于对抗学习和多尺度特征融合的前列腺MR图像分割*

2021-05-11 01:35:40陈爱莲丁正龙

计算机工程与科学 2021年4期

陈爱莲，丁正龙，詹曙

(1.合肥工业大学计算机与信息学院，安徽合肥 231009； 2.安徽信息工程学院，安徽芜湖 241000)

1 引言

相关研究表明，前列腺癌是近几十年来最常见的癌症之一，已成为导致美国男性癌症死亡的第二大疾病，中国男性前列腺癌的发病率近年来也呈上升趋势[1]。磁共振MR(Magnetic Resonance)图像由于其良好的空间分辨率和对比度成为了检测前列腺形状和位置的主要手段。在前列腺癌的临床诊断中，医生需要将感兴趣区域从整个MR图像中分离出来，这个分割的过程可以提取包括器官的相对位置、形状、体积和异常等有意义的信息。然而经验丰富的放射科医师的手动分割是基于目视的逐个切片的检查，这个过程不仅费时费力，而且不适用于大样本的评估[2]。在过去的几十年里，相关研究者们已经提出了许多用于医学图像中各种器官或组织的分割算法，但是由于以下原因，前列腺MR图像的分割仍是一个具有挑战性的任务：(1) 前列腺组织的大小、形状和位置在不同病患或者相同病患不同时间的不同切片中是变化的；(2) 医学成像装置和病人的特异性共同作用产生的强度不均匀场会使前列腺与邻近组织的对比度较低，导致它们的边界难以区分；(3) 前列腺MR图像中属于前列腺的区域较小，相对来说能够提取到的有效信息较少。

针对上述问题，研究者们提出了多种针对前列腺MR图像的分割方法，但传统的基于边缘、区域或形状模型的分割方法严重依赖手工特征的质量或先验知识的引入。Ding等人[3]使用基数样条从位于前列腺边界的3个或更多个手动选择的点构造了前列腺的初始轮廓，某个切片的最终轮廓将用于初始化相邻切片。Skalski等人[4]使用基于图形的活动轮廓，并结合形状先验知识分割前列腺磁共振图像。张永德等人[5]根据前列腺MR图像的特征信息及其病变好发特定区域等先验知识，提出基于边缘距离调整水平集演化的前列腺MR图像两步分割方法，完成前列腺内外轮廓的分割。最近，基于卷积神经网络CNN(Convolutional Neural Networks)的深度学习方法在各种任务中表现出了优异的性能。全卷积网络FCN(Fully Convolutional Networks)[6]将全连接层转换为卷积层，将低层次的形状信息与高层次的语义信息相结合，利用该模型可得到准确的分割结果。随后，研究人员提出了多种基于FCN的医学图像分割方法，然而，这些方法对图像细节不敏感，不能识别一些小的目标区域，导致分割结果不够精细。Kooi等人[7]提出了一种基于CNN的分块分割方法，他们从图像中提取了许多小块来训练CNN，而重叠的小块会使网络产生很多冗余信息，此外，感受野的大小受到块大小的限制，导致网络只能提取局部特征。Lin等人[8]结合CNN和条件随机场CRF(Conditional Random Field)来探索像素之间的空间相关性并取得了相对较好的分割结果，但是这种方法还需要另外实现密集的CRF来优化CNN的输出，不能实现端到端的自动分割。

由Goodfellow等人[9]在2014年提出的生成对抗网络GAN(Generative Adversarial Networks)在多种计算机视觉问题上表现优异，且具有巨大的潜力。Luc等人[10]首先将GAN的思想应用于自然图像的语义分割，提出了一种对抗性学习的方法来训练分割模型。受此启发，本文提出了一种基于对抗学习网络的前列腺MR图像端到端分割方法，本文搭建了一个在GAN中作为生成器的分割网络来生成分割预测图，判别网络判断输入是来自手工分割的真实标签还是来自分割网络生成的分割预测。同时，针对前列腺MR图像中前列腺所占区域较小导致训练过程中特征提取不充分、细节特征容易丢失的问题，在分割网络中，本文采用了多尺度特征融合的方法来捕获图像中的多尺度特征信息，提高提取特征的鲁棒性，充分利用有效特征来提高分割的准确性。

本文主要创新点如下：(1)在前列腺MR图像分割任务中使用对抗学习的方法，让分割网络和判别网络进行对抗训练，使得分割网络输出的结果尽可能地与真实标签接近，提升模型前列腺 MR
图像的分割性能；(2)将多尺度特征融合的方法用于分割网络，来获取并融合图像深度特征的多尺度信息，提高特征的鲁棒性和识别力，进一步提高模型对前列腺 MR
图像的分割准确性。

2 相关工作

近年来，最新的语义分割方法几乎都是基于不断发展的CNN。FCN将全连接层转换为卷积层，结果表明经过端到端、像素对像素训练的语义分割方法相比之前的方法效果提升明显。SegNet[11]使用一种基于编解码结构的深度学习方法，将低分辨率特征图映射到语义标签。DeepLab[12]通过构建多孔空间金字塔池化ASPP(Atrous Spatial Pyramid Pooling)结构来稳健地分割多个尺度的目标，并且使用全连接CRF来精确地定位像素点语义。具有级联架构的RefineNet[13]能够有效地结合高级语义和低级特征以生成高分辨率的分割图像。DFN结构[14]包含平滑网络和边界网络2个子网络，利用双向分阶段机制，该结构可以捕获利于语义分割的有识别力的特征。同时，由于CNN具有较强的图像特征表示能力，其在医学图像分割任务中也得到了成功的应用。Zhang等人[15]对CNN进行改进，利用多模态MR图像对婴幼儿脑组织进行分割，该模型明显优于已有的方法。在实践中，很难收集足够大的有标记的数据集，尤其是医学图像数据集，为了解决这一问题并使模型快速收敛到最小值，一种有效的替代方法是对经过大量自然图像预训练的CNN进行微调。PSNet[16]将经过微调的预训练FCN应用于前列腺MR图像的分割，取得了满意的分割结果。因此，本文的分割网络同样采用预训练模型来从小数据集中提取丰富的特征，提高模型的收敛速度。

生成对抗网络在图像生成、超分辨率重建、目标检测和语义分割等任务中取得了巨大的成功并展示了极大的潜力。生成对抗网络主要包含2个部分：生成器和判别器。生成器的目的是尽量学习真实的数据分布来生成足够真实的虚假样本；而判别器一般情况下是一个二分类器，目的是尽量正确地判别输入数据是来自真实的数据分布还是来自生成器所生成的虚假样本数据。生成器和判别器通过对抗学习的方式在模型训练和优化的过程中各自提高自身的生成能力和判别能力，经过多次训练迭代优化后，两者之间达到一个平衡点，即纳什平衡(Nash Equilibrium)，此时判别器不能确定数据是来自真实数据分布还是来自生成器，生成器估测到数据样本的分布或生成期望的数据样本，这时得到了一个了解真实数据分布的生成器模型。本文采用了类似的方法，并在生成对抗网络框架中使用新设计的分割网络作为生成器来生成分割预测图。与传统的利用噪声矢量生成图像的方法不同，本文的分割网络输出的是与输入MR图像大小相同的前列腺分割预测图。同时，判别器的输入结合原始的前列腺图像对应的分割预测图和原始的前列腺图像对应的真实标签图，然后判别器来分辨输入的分割图是来自于分割网络的分割预测图还是来自医生手工勾勒的真实标签。

受人类视觉系统中感受野的启发，感受野模块RFB(Receptive Field Block)最初被提出并应用于目标检测任务中。由于感受野模块可以关注除中心以外的附近区域的重要性，并增加了对小的空间变化的敏感性，感受野模块对分割任务的特征提取有很大帮助，因此本文将其应用于分割网络，以捕获识别力和鲁棒性更强的多尺度特征。

3 本文方法

本节主要介绍所提出的模型架构及其训练过程。具体网络结构如图1所示，该模型从整体上可分为2个部分：分割网络和判别网络。分割网络可看做生成对抗网络中的生成器，分割网络的输入为前列腺MR图像，输出为分割预测图。判别网络的输入为2个图像对，即：前列腺MR图像-生成器生成的分割预测图和前列腺MR图像-真实标签。判别网络的输出为0或1，0代表图像来自分割预测图，1代表图像来自真实标签。训练过程中分割网络和判别网络相互竞争，进行最小-最大的零和博弈，且损失函数由对抗损失和二进制交叉熵损失共同组成。判别网络对分割网络进行反向传播训练，促使分割网络尽可能输出与真实标签相似的分割预测来使判别网络难以判断，而判别网络则要尽可能地判断输入是来自于真实标签还是分割网络输出的分割预测。

Figure 1 Overview of architecture图1 整体网络结构

3.1 分割网络

图1顶部虚线框内为本文提出的分割网络结构，由多层深度卷积网络构成的分割网络2端分别为输入和输出，即原始的前列腺MR图像和预测的分割结果。该网络结构首先将前列腺MR图像输入到一个由带有空洞卷积的残差网络组成的预训练模型中，该模型是在ImageNet上进行预训练的，其中空洞卷积可以增大输出特征图的感受野且不会改变特征图的大小，使得每一个卷积的输出都具有更多的特征信息，残差网络的作用是优化网络的训练，使网络能够保持良好的学习能力。预训练模型不仅可以提升网络的收敛速度，还可以使得分割网络从较小的数据集中提取到丰富的多层次上下文信息。输入图像经过预训练模型后，所得的特征图尺寸变为原始输入的1/8。然后，感受野模块则可以从特征图中提取和融合特征图的多尺度特征，充分利用深度特征的多尺度信息。最后，经过双线性插值上采样层，低维特征图被向上采样至与原始输入的MR图像相同尺寸，然后输出得到分割结果，即分割预测图。

由前所述，前列腺MR图像中前列腺所占区域较小且与邻近结构的对比度较低，这些问题使得提取包含图像细节的多尺度特征变得困难，而这些特征可以更加有效地提升模型对前列腺MR图像的分割性能。因此，本文采用感受野模块对经过预训练模型所得的特征图进一步地提取包含更多细节的多尺度特征。图2为感受野模块的结构，从图中可以看到其整体由多条路径组成，每条路径包含2种不同的卷积:内核大小不同的常规卷积和具有不同扩张率的扩张卷积。常规卷积用来提取特征图的多尺度信息，扩张卷积可以增大输出特征图的感受野且不会改变特征图的尺寸。如图2所示，每条路径中的1×1卷积用来降低特征图的通道数。同时，为了减少参数的数量，本文将3×3卷积层所在的路径用2条分别包含1×3卷积和3×1卷积的路径来替换，在最下面一条路径中，原来的5×5卷积被替换成了2个堆叠的3×3卷积。常规卷积层之后是分别具有1，3，5的扩张率的扩张卷积层，然后将卷积层输出的不同尺度的特征进行融合，感受野模块再次使用1×1卷积来降低融合后的通道数量。最后，感受野模块使用跳跃连接的方式连接整个模块的输入特征图和输出特征图。

Figure 2 Structure of RFB图2 感受野模块的结构

3.2 判别网络

上述分割网络相当于生成对抗网络中的生成器，生成前列腺MR图像的分割结果，生成对抗网络的另一部分，判别网络用于约束生成器生成的方向。在图1中，分割网络的输入是以原始前列腺图为条件的，保证了生成的分割预测图和输入的前列腺图像是匹配的。因此，与传统的判别网络不同，本文判别网络的输入是以前列腺图为条件的2个图像对，即前列腺MR图-生成器生成的分割预测MR图和前列腺图-真实标签，使得真实标签和分割预测图都有与之相匹配的前列腺MR图。判别网络一般为一个对输入进行分类识别的二进制分类器，将来自真实标签的图判断为1，将来自分割预测的图判断为0。判别网络将判断结果反馈给分割网络，分割网络根据判别结果调整自身的参数，促进分割网络生成与真实标签更接近的分割预测。

3.3 损失函数

用x表示原始MR图像，y表示对应的真实标签，S和D分别代表分割网络和判别网络。训练分割网络学习从x到y的映射S(x→y)。判别网络将输入的一对(x,y)映射到二值分类，0代表图像来自分割预测，1代表图像来自真实标签。故本文中的对抗损失函数如式(1)所示：

Ladv(S,D)=Ex,y～pdata(x,y)[lbD(x,y)]+

Ex～pdata(x)[lb(1-D(x,S(x)))]

(1)

其中,Ex,y～pdata(x,y)表示对(x,y)对数似然的期望，从实对pdata(x,y)的潜在概率分布中抽取样本，Ex,y～pdata(x)表示对x对数似然的期望，pdata(x)表示MR图像的分布。为了使判别网络尽可能地做出准确判断，训练过程中应通过最大化D(x,y)来最大化真实标签预测，通过最小化D(x,S(x))来最小化生成的分割预测。

分割任务的损失函数常用分割预测图与真实标签间的差异来定义，如二进制交叉熵BCE(Binary Cross Entropy)损失。因此，本文将二进制交叉熵损失应用于分割网络中，二进制交叉熵损失函数定义如式(2)所示：

Lseg=Ex,y～pdata(x,y)-y·lbS(x)-

(1-y)·lb(1-S(x))

(2)

本文模型训练过程的目标函数结合了对抗损失和二进制交叉熵损失，即：

(3)

其中，λ表示权重参数，用于平衡2个损失函数。由于本文的最终目标是使分割网络能输出更加准确的分割预测图，所以训练过程中损失函数需要被最小化。分割网络训练过程将最小化对抗损失和Lseg损失，目的是得到一个从前列腺MR图像到分割预测的更好的映射，而判别网络则通过最大化式(3)中的损失来进行分类识别。

4 实验与分析

4.1 数据预处理

本文实验环境如下：显卡为NVIDIA GTX TITAN X；内存为12 GB；操作系统为Ubuntu 16.04；深度学习平台为PyTorch。

本文采用的前列腺MR图像实验数据均来自MICCAI Grand Challenge：PROstate MR Image SEgmentation 2012(PROMISE12)[17]，该数据集包含前列腺横截面T2加权MR图像和对应的真实分割标签图像：横截面图像尺寸共有256*256，320*320和512*512 3种大小；多名经验丰富的专业医生对前列腺MR图像进行准确分割，将手工标记结果作为标签图像。

为解决数据集中图像尺寸分布不均匀的问题，本文采用了随机裁剪的策略，即先将512*512和320*320调整到300*300的尺寸，再在300*300尺寸的图像上随机裁剪256*256区域图像。该策略能够有效地去除部分非前列腺组织的背景区域，并且在保证保留充足信息的前提下节省大量的训练时间。不同于自然图像的数据集，大医学图像数据集往往难以收集到足够的标注，而有限数量的可用医学图像会导致训练过程中出现过拟合的问题。为抑制过拟合现象，提高模型的学习能力，本文采用数据增强策略对原始前列腺数据集进行扩增。数据增强策略包含水平和垂直翻转、角度旋转以及对比度、饱和度和亮度增强操作。

4.2 实验结果与分析

为验证本文方法的有效性，本文采用MR图像测试集对模型进行测试，并依据定量的评价指标与定性的视觉分析对结果进行分析。表1对比了本文方法与其他分割方法的分割结果。为统一不同方法的衡量标准，本文采用3个常用的评价指标定量地分析对比不同方法的分割结果。如表1所示，本文方法的相似性系数DSC(Dice Similarity Coefficient)最高，达到了89.56%(越高越好)；豪斯多夫距离HD(Hausdorff Distance)最短，达到了7.65 mm(越低越好)；平均表面距离ASD(Average Surface Distance)较小，为1.82 m(越低越好)，表明本文方法较之前前列腺图像分割方法有着出色的表现。图3定性地展示了本文方法对于多个患者前列腺MR图像分割的结果，图中第1行为真实标签的分割结果，第2行为本文方法的分割结果。如图3所示，本文方法分割结果的轮廓线平滑且无锯齿，在前列腺MR图像上有着优秀的分割效果。

Table 1 Quantitative comparison with other methods in DSC,HD and ASD

Figure 3 Segmentation results of prostate MR images in this paper图3 本文方法对前列腺MR图像的分割结果

本文实验利用显卡进行加速，使得分割时间更短，表2对比了本文方法与其它几种前列腺MR图像分割方法所耗费的分割时间，其中专业医生的分割时间是根据对相关医院的专业医生进行调研得出的。从表2中可以看出，本文方法的分割用时更短，速度更快，满足了实际的临床要求，对医生的诊断效率有了一定的提升。

Table 2 Comparison of test time with other segmentation methods表2 不同分割方法测试时间的对比 min

4.3 消融实验

为了验证本文方法的有效性，本节进行了相关的消融实验，表3为消融实验多个指标的结果对比。其中第1行数据为无对抗学习的结果，第2行数据为无多尺度特征融合的结果，第3行数据为本文方法的结果。从第1行和第3行数据的对比中可以看出对抗学习的有效性，从第2行和第3行数据的对比中可以看出多尺度特征融合的有效性。从DSC指标上可以看出，本文方法相比没有对抗学习的方法高出1.86%，相比没有多尺度特征融合的方法高出0.95%；从HD指标上可以看出，本文方法相比没有对抗学习的方法低1.21 mm，相比没有多尺度特征融合的方法低0.70 mm；从ASD指标上可以看出，本文方法相比没有对抗学习的方法低0.13 mm，相比没有多尺度特征融合的方法低0.07 mm。

Table 3 Comparison of segmentation performance in ablation experiments

图4为消融实验中的分割结果的可视化对比。其中第1行～第3行代表3个不同的病例；第1列代表原始前列腺MR图像所对应的真实标签图，第2列代表本文方法的分割结果，第3列代表在本文方法基础上去除多尺度特征融合的分割结果，第4列代表在本文方法基础上去除对抗学习的分割结果。如图4所示，3种方法中去除对抗学习的方法表现最差，对于形状较小或是形状扭曲稍大的前列腺MR图像，该方法难以找到前列腺组织的边界位置；而本文方法表现最优，相较于其他2种方法，本文方法分割结果的轮廓线更加接近于真实标签的轮廓线，分割准确性更高。消融实验的结果验证了本文所提出的基于对抗学习和多尺度特征融合网络对前列腺MR图像分割的有效性。

Figure 4 Segmentation results of ablation experiment图4 消融实验的分割结果

5 结束语

本文提出了一种基于对抗学习和多尺度特征融合的前列腺MR图像自动分割方法，相比传统分割方法，这种基于深度学习的前列腺MR图像分割方法避免了手工特征的提取或先验知识的引入，且可以进行端到端的训练。本文以一种对抗学习的方式训练分割网络和判别网络，使分割网络输出的分割结果越来越接近真实标签的结果，提升了前列腺MR图像的分割准确性。同时，本文在分割网络中采用多尺度特征融合的方法来提取并融合图像深度特征的多尺度信息，增强了特征的鲁棒性和识别率，提升了网络对前列腺MR图像的特征提取能力，进一步提高了网络的分割性能。本文在前列腺MR图像数据集上验证了本文方法的有效性，取得了较好的分割结果，同时相比于其他分割方法及专业医生，一定程度上缩短了分割时间，可以满足前列腺MR图像分割的实际临床应用要求。但是，对于前列腺区域的轮廓较为扭曲的MR图像，分割效果还有待进一步提升，也是后续研究有待解决的问题。