基于回环残差注意力机制 U-net的胰腺分割

2021-08-10 10:38向智霆刘剑聪王淇锐

重庆邮电大学学报(自然科学版) 2021年4期

魏柳，向智霆，刘剑聪，王淇锐，肖斌,2

(1.重庆邮电大学计算机科学与技术学院，重庆 400065；2.图像认知重庆市重点实验室，重庆 400065)

0 引言

随着生活质量的提高和经济的不断发展，人们越来越关注自身的健康问题。其中，癌症是危害人类身体健康的重大病症之一。在计算机辅助疾病诊断领域，肺癌[1]和乳腺癌[2]等大型器官的图像分割已经初具成效，但在小型器官的图像分割方面还有待完善，例如胰腺的分割。胰腺癌是一种致命性极强的恶性肿瘤，尽管在对其认识、诊断、常规和新型的治疗方法等方面都获得了很大的突破，但是胰腺癌的治疗仍然伴有较高死亡率以及较低的术后生存率的问题。胰腺癌的治疗依赖手术过程中对局部肿瘤组织的有效切除，而一个成功的外科手术在很大程度上是建立在术前医生对病情了解渗透的基础上。为提高手术成功率，需要重建的胰腺模型能够反映其实际特征，因此，解决胰腺的重建问题成为了迫在眉睫的任务，其中，胰腺器官的准确分割提取为后续肿瘤组织的精确切除操作提供可能。由于胰腺的计算机断层成像(computer tomography，CT)图像灰度值差距较小，且胰腺形状受边沿灰度信息影响较大，与周围器官组织连接紧密，导致胰腺轮廓的特征难以提取的问题依旧是医学图像分割中的难题。

医学图像分割中，传统的分割算法大体分为3类[3]：①阈值法；②边缘检测法；③区域分割法。以上分割方法仅利用了一种特定的图像属性，而医学图像复杂、器官联结度高的特点，致使这些算法在医学图像分割方面适用度不高。阈值分割法有成本低、易实现的优点，但针对胰腺分割问题，对其进行阈值分割往往无法达到预期效果，这是由于胰腺的边缘区域的灰度值与腹部其他器官的区分度不大，选择阈值困难的原因。边缘检测法利用灰度、颜色和纹理的不同作为图像边缘的判别条件，而采用不同的算子进行边缘检测。由于在胰腺图像分割中，该器官与周围组织连接紧密，没有明显的灰度边缘，因此，边缘检测也难以在胰腺分割中取得较好的成绩。经典的基于区域的分割法有分水岭法[4]。分水岭分割方法是一种基于拓扑理论的数学形态学的分割方法，其基本思想是把图像看作是测地学上的拓扑地貌，图像中每一点像素的灰度值大小表示该点的海拔高度，每一个局部极小值及其影响区域称为集水盆，而集水盆的边界则形成分水岭。在分割的过程中，它会把跟临近像素间的相似性作为重要的参考依据，从而将在空间位置上相近并且灰度值相近的像素点互相连接起来构成一个封闭的轮廓。分水岭算法对微弱边缘具有良好的响应，是得到封闭连续边缘的保证，但图像中的噪声和物体表面细微的灰度变化，都会产生过度分割的现象。由于胰腺的边缘区灰度很低，可能存在一个最小值面，该平面内都是最小值点，即产生过分割的现象。因此，分水岭算法同样不适用于胰腺分割。

除上述方法外，由于近年来深度学习方法[5-7]的升温，深度学习已成为医学图像分割的有效方法之一。常见的用于医学图像分割的深度学习方法有全卷积神经网络(fully convolutional network，FCN)[8],Segnet[9]和U-net[10]。这几种方法常用于器官方面的图像分割，其在心脏[11-12]、肾脏[13]和肺[14-15]等大型器官的图像分割上已经取得了较好的效果，然而在小型器官的图像分割上效果甚微，特别是胰腺这种高度复杂的解剖器官。并且有限数量的带有标记的胰腺医学图像和胰腺在腹腔中的位置因人而异等因素在一定程度上限制了胰腺图像分割有效性，因此，想要获得相当高的精度很难。再加上胰腺周围脂肪量影响其边界对比度，使得胰腺分割变得更为困难。

2015年，RONNEBERGER等[10]提出了经典的U-net神经网络，该网络首先通过5层二次卷积-最大池化块提取深层图像特征，然后通过上采样和反卷积操作还原图像特征，最后得到精确的分割结果。这种方法较少受到图像灰度值和噪声的影响，在一定程度上有效缓解了传统分割医学图像的灰度差距小，图像难以分割的难题。由于通过U-net网络方法缺少细节信息的提取，得到的胰腺分割图像仍含有一定的毛刺，致使对该图的细节把握一定程度上不符合生物医学特征，因此，本文提出了一种基于回环残差注意力机制 U-net (ringed residual attention U-net, RRA U-net)的胰腺分割方法。RRA U-net在原始U-net基础上加入残差块构成回环网络，整体网络结构较U-net更深，并且通过加入注意力模块，对提取的特征进行监督处理，能更好地捕抓图像的细节特征，很好地保留胰腺的形状信息，使得在进行胰腺分割上获得比原始U-net更好的效果。

1 基于RRA U-net的胰腺分割方法

1.1 网络体系结构

近年来，U-net在医学图像(肺部、肝脏等)分割中取得了较为良好的效果。但由于胰腺器官周围环境复杂特征难以提取，U-net也难以取得很好的分割效果。受到注意力机制、残差机制、回环机制和U-net的启发，本文提出RRA U-net能够较好地解决胰腺分割问题。注意力机制将注意力集中在与胰腺分割感兴趣的对象相关的位置，增大有效特征的占重比。回环机制模拟人对知识的复习巩固，能够增强鉴别特征的能力，过滤掉一些不需要的特征并加快网络的收敛速度。同时，为了防止网络深度的加深而导致的过拟合，将残差机制应用于本网络。网络体系结构如图1。

图1 RRA U-net结构Fig.1 RRA U-net structure

1.2 残差块

在经典的超分辨率测试序列(visual geometry group，VGG)网络中，已经证明了单纯地加深网络层数可能导致梯度消失，不仅不能提高网络性能，甚至会使网络无法收敛。此外，随着网络层数的加深，网络退化问题也迎面而来。本文引入由HE[16]提出的深度残差学习网络中残差块结构，解决上述2种问题。它定义为

y=F(x)+x

(1)

(1)式中：x代表输入；y代表输出；F(x)+x代表在x在经过2个卷积单元后得到F(x)通过跳跃连接与输入x相加。

残差结构通过跳跃连接把早期卷积和晚期卷积进行连接，使得误差信号不再经过任何中间权重矩阵变换直接传播到低层，可以有效解决梯度消失问题。此外，残差结构类似于人脑的回忆机制，当人们学习更多的新知识时，可能会忘记之前所学的知识，所以需要回忆机制来帮助唤起这些之前的模糊记忆。通过跳跃连接增强模块中的输出向量保留更多原始的特征信息，能够有效解决更深层次的网络退化问题。本文中残差块包括2个卷积单元和1个跳跃连接，其中，卷积单元由批归一化层(batch normalization)[17]、卷积层和激活层(relu)3部分构成，它的结构如图2。

图2 残差块结构Fig.2 Residual block structure

1.3 回环残差模块

残差反馈是一种提取各种图像属性的自动学习方法。与残差传播模仿的记忆机制相比，残差反馈机制类似于人脑对这些知识进行复习的巩固机制，加深对已学知识的印象。通过把提取的特征加入到输入信息中，然后再次进行特征提取，能够对提取到的特征进行增强，提高有效特征的占重比。它的结构如图3。

图3 残差回环结构Fig.3 Residual loop structure

本文将残差反馈机制和残差传播机制结合，得到回环残差块结构，定义为

ys=G(yf)+x

(2)

(2)式中：x代表输入向量；yf和ys分别是第1次残差传播的输出向量和第2次经过残差反馈的增强向量。

在胰腺分割任务中，回环残差块通过跳跃连接，保留原有的胰腺特征；通过回环连接，提升网络的特征提取能力，增强有效特征的占重比。最终，它的结构如图4。

图4 回环残差结构Fig.4 Loop residual structure

1.4 注意力机制

文献[18-21]提出的残差注意力模块分为主干分支和软掩膜分支2个部分。其中，主干分支保留原始特征；软掩膜分支关注胰腺特征，提升主干分支中有效特征的占重比。残差注意力可以表示为

OAi,c(x)=(1+Si,c(x))Fi,c(x)

(3)

(3)式中：Si,c(x)为软掩膜分支的输出向量，取值为[0,1]。如果Si,c(x)接近于0，那么OAi,c(x)将近似于原始的特征映射Fi,c(x)。

主干分支由2个残差块构成。其中，残差块通过跳跃连接极大限度地保留原有的胰腺特征。软掩膜分支有类似于U-net的解编码器结构。随着网络加深，软掩膜分支的深度也随之加深，使其拥有更好的非线性表达能力，因而能够更好地拟合复杂的胰腺特征。同时，将残差结构应用到软掩膜分支，防止网络退化。软掩膜分支中的编码器单元包含1个最大池化操作、1个残差块和1个连接到相应解码器的远程残差块。软掩膜分支中的解码器单元在残差块和上采样操作之后与对应的编码器张量进行合并,在软掩膜解码器部分之后，添加2个卷积层,1个sigmoid层把输出映射到[0,1]。在残差注意机制中，本文的结构能够增强有效特征和降低主干分支噪声。注意残留机制可以通过主干分支保留原有的特征信息并通过软掩膜分支拟合胰腺器官的有效特征，最后，将主干分支和软掩膜分支相乘再相加，增强有效特征的占重比，关注胰腺的有效特征。其结构如图5。

图5 注意力模块Fig.5 Attention module

1.5 损失函数

在医学图像分割中，Dice[22]通常被用来衡量目标区域和待测区域的重合程度，其值越小，表示两者重合程度越高，分割效果越好，同时能够加速网络的收敛，提升分割精度。因此，本文选用Dice作为损失函数，能够很好地衡量输出掩模与真实掩模的差距。其定义为

(4)

(4)式中：X为预测输出，Y为真实输出。

1.6 实现细节

本文采用CANCER IMAGING ARCHIVE公开胰腺数据，其中，包含了82个病人的腹部增强的三维CT图像(512×512×D(180～465))，并且对该数据集进行了四折交叉验证。切片用标签的包围框裁剪，得到胰腺部分的原始图像[23]。然后将这些图像转换到[-100,240]的亨氏单位(Hounsfield unit，HU)范围之中。考虑到胰腺的共同强度分布，本文将图像缩放到[0,1]。本文使用标签对原始图像进行标记，选出含有胰腺部分的切片，然后通过全零填充将图像标准化为192×256×160。在进行实验时，对学习率、批大小和训练迭代次数进行调参，并尝试了多种激活函数。最终得出了网络的最优参数构成，学习率设置为0.000 01,epoch设置为10，batchsize设置为5，激活函数使用Relu。为了提高实验结果的准确性，避免产生训练集依赖，本文采用了四折交叉验证。

2 实验结果及分析

本文在传统U-net网络上分别加回环残差、注意力模块、残差块和回环残差注意力得到ringed residual U-net，attention U-net，residual U-net和RRA U-net，在CANCER IMAGING ARCHIVE数据集上进行训练，并对其做四折交叉验证，得到的各个网络结构结果以及与基于阈值检测的区域生长法的结果对比如表1。(Dsc是与Dice相似的系数，Dsc=2(|X∩Y|)/(|X|+|Y|))

从表1可以看出，本文的RRA U-net的分割效果显著高于其他网络，平均的Dsc值最高，达到87.53%，在最坏的情况下Dsc值有80.99%，相较于其他方法具有更好的鲁棒性。本文的RRA U-net网络中的回环残差和注意力机制，即在原始U-net基本架构上的每个节点添加一个残差自回环，并在上采样和下采样的桥梁之间加入监督机制，以得到更能拟合胰腺形状信息的特征。在胰腺分割中，本文的注意力机制模块能够很好地描述胰腺的形状，并使胰腺和周围区域有较好的分割。本文的网络具有较好的鲁棒性，能够在极端情况下的测试样例中获得明显优于其他方法的结果。

表1 对比结果Tab.1 Comparison results %

基于传统阈值分割的区域生长方法也有着较好的分割效果，平均Dsc达到76.08%。基于阈值分割的区域生长方法较直接的区域生长方法能够更准确地把握各个器官的位置，滤除噪声，加上种子点选取合适就能够较好地分割出胰腺，有着较高的准确率，但由于胰腺的边缘灰度值较其他器官对比不明显，加上种子点的选取依靠一定的经验，不能自适应进行选取，相较之下，本文提出的网络不仅在自适应上要显著优于传统的区域生长方法，而且在分割准确率上也要优于传统的区域生长方法。具体效果见图6。其中，MASK代表标记图像，NIH代表CT图像，数字代表第几张切片，UN代表U-net，RRN代表ringed residual U-net。

图6 传统方法与基于U-net的各种网络的效果对比Fig.6 Effects of traditional methods and various networksbased on U-net are compared

本文的网络与U-net相比，在平均Dsc上提高了7.83%，在最小Dsc上提高了6.46%，并且具有更低的标准差，对差的样本有较好的识别效果，因此，具有更好的鲁棒性。随着网络深度的增加而带来的过拟合现象，可由提出的残差块来消除这一现象。通过简单增加网络深度就能提高网络性能，使得网络参数更易于优化，并且可以通过增加相当大的深度来拥有更强的非线性拟合能力，更容易拟合胰腺特征。因而残差网络在进行胰腺分割时获得了较好的效果，平均Dsc值可以达到85.30%。Roth[24]提出的多尺度残差U-net加入了多尺度卷积模块，则更进一步地优化了网络，增加了网络对有效信息的保存，减少了因卷积而引起的特征丢失现象，因而在平均Dsc上获得高于残差U-net网络0.53%的百分比。本文针对胰腺分割存在难以捕抓图像的细节特征以及难以很好地保留胰腺的形状信息的问题，提出了RRA U-net，对网络进行深化的同时加上监督机制，增加网络对胰腺的灰度值与背景的区分和形状等的约束能力，使得网络能更好地分割出胰腺。综上所述，RRA U-net不仅在准确性上得到较大的提升，且提高了网络的健壮性。最差和最好结果及对应切片结果如表2，其中，#前的数字代表第几张切片，#后的数字代表分割结果。

表2 最差和最好结果及对应切片Tab.2 Worst and best results and their corresponding slices %

在RRA U-net上分割效果最好的病例4在不同网络下的分割结果如图7。其中，RRUN代表ringed residual U-net，AUN代表attention U-net，RRAUN代表RRA U-net。由于胰腺具有形状不确定性以及组织变异性的特点，从4号病例分割结果可以看出，这4种网络模型(U-net, ringed residual U-net, attention U-net，RRA U-net)都有不同程度的欠拟合，而本文提出的网络能够在一定程度上减小这种问题带来的影响，因此，具有更强的鲁棒性。表2中的4种网络结构中，本文的最大Dsc仅略低于U-net，但本文的网络在训练上时间耗费更低且收敛更快。例如，U-net训练完四折交叉验证需要将近4 h的时间，而本文的网络只要3 h。

图7 在RRA U-net的最好分割结果(病例4)下的各个网络的分割结果对比Fig.7 Comparison of the segmentation results of each networkunder the best segmentation result of RRA U-net (case 4)

在RRA U-net上分割效果最差的病例15在不同切片下的分割结果如图8。从图8可以看出，本文的attention U-net以及ringed residual U-net出现了不同程度上的过分割现象，而对于传统的U-net则是同时出现了过分割和欠分割的现象，导致这些问题出现的主要原因是对胰腺边缘特征难以提取完整，无法准确地把握胰腺的形状信息。在表2中对比的5种网络的分割结果以及基于阈值检测的区域生长法，本文的RRA U-net有更高的分割准确率，其最差分割准确率有80.99%，而Attention U-net的分割准确率有78.11%，Ringed Residual U-net的分割准确率有78.96%，基于阈值检测的区域生长法的效果最差，只有70.08%。在6种结构中，本文的RRA U-net分割结果更接近于实际的掩模。

图8 在RRA U-net的最差分割结果(病例15)下的各个网络的分割结果对比Fig.8 Comparison of the segmentation results of eachnetwork under the worst segmentation result ofRRA U-net (case 15)

3 结束语

由于胰腺具有形状难以描述以及灰度信息与周围的环境难以相区分开的问题，为了提高胰腺分割结果的精度，本文提出了RRA U-net分割方法。该方法首先对网络的每个节点引入回环残差结构，不仅解决了本网络结构加深带来的过拟合问题，也对胰腺特征的提取更加完整，然后在上采样和下采样的桥梁间加入注意力模块，对特征提取进行监督，能够更好地提取出胰腺中更抽象的特征以便和背景区分，很好地描述出胰腺基本的形状特征。本文在Ronneberger等[22]提出的U-net网络结构上构造回环残差结构，并引入监督机制，因此，对胰腺分割具有更好的鲁棒性。本文的方法对胰腺数据集进行分割，平均Dsc为87.53%，优于目前最先进的方法。本文方法对胰腺特征的提取仍不完全，以后会向损失函数这一方面改进。