基于三重注意力的脑肿瘤图像分割网络

2022-05-18 07:23宋金淼薛安懿段晓东
中国生物医学工程学报 2022年1期
关键词:残差注意力卷积

韩 阳 宋金淼 薛安懿 段晓东*

1(大连民族大学计算机科学与工程学院,辽宁 大连 116600)

2(大数据应用技术国家民委重点实验室,辽宁大连 116600)

3(大连市民族文化数字技术重点实验室,辽宁大连 116600)

引言

脑肿瘤是一种在脑组织中非自然分裂和不正常生长的异常细胞,发病率较高,死亡率超过3%,严重危害人体的健康[1]。其中,脑胶质瘤是脑肿瘤最常见的恶性肿瘤之一,可进一步分为高级别胶质瘤和低级别胶质瘤。核磁共振成像(magnetic resonance imaging,MRI)作为一种典型的非入侵式的脑肿瘤成像技术,可产生高分辨率、无损伤、无颅骨伪影的脑影像,为医生的临床诊断提供准确的信息,是鉴别脑肿瘤的重要技术之一[2]。由于脑肿瘤形状多异、位置大小分布不均和边界复杂等因素,目前脑肿瘤图像的分割工作主要还是由专家手动进行不同专家对脑肿瘤图像的分割结果存在较大的差异,耗费时间长,误判率较高,严重影响患者后续的治疗。综上所述,研究高效的脑肿瘤图像分割网络,对临床诊断和治疗脑肿瘤具有非常重要的意义。

近年来,以AlexNet[3]、SegNet[4]和ResNet[5]为代表的深度神经网络已经广泛应用于各种计算机视觉任务。基于深度神经网络的图像分割方法,能够高效地完成自动分割脑肿瘤图像的任务。基于深度学习的脑肿瘤图像分割方法主要是2012年提出的全卷积神经网络(FCN)[6],基于FCN 的脑肿瘤图像分割网络是一种端到端的语义分割网络,但是FCN 割裂了像素与像素之间的关联信息,导致图像分割结果不够准确。DeepLab[7]通过加入金字塔卷积来提取图像全局信息,以此提高图像的分割精度。Ronneberger[8]等提出了一种对称的全卷积神经网络U-Net,通过跳跃连接,融合了浅层和深层的图像特征信息,提升了医学图像分割任务的性能。为了更好地提高图像分割的性能,已经有很多研究将注意力机制嵌入到深度神经网络中。例如,Hu 等[9]提出了一种基于通道注意力的挤压激励注意力网络。CBAM[10]是将两个注意力机制的模块通过级联方式连接起来,嵌入到网络中。DANet[11]则是将空间注意力模块与通道注意力模块并联连接,分别捕获空间维度和通道维度中的特征依赖关系。综上所述,为了解决分割网络对脑肿瘤图像分割精度不足的问题,本研究旨在通过组合局部和全局的特征信息,提出了一种融合三通道注意力的脑肿瘤图像分割网络(triple attention module,TA-Net)。

1 材料和方法

1.1 材料

1.1.1 图像数据集

采用公开的BraTS2018[12]和BraTS2019[13]脑肿瘤图像分割数据集进行性能评估。这两个数据集是由MICCAI 脑部肿瘤分割比赛发布的,BraTS2018数据集包括285 个患者病例,210 个样本来自高级别神经胶质瘤患者,75 个样本属于低级别神经胶质瘤患者。BraTS 2019 数据集在BraTS 2018 训练数据集的基础上,增加了49 例高级别神经胶质瘤患者,低级别神经胶质瘤患者增加了1 例。

对于每个患者有4 种MRI 方式,即T1 加权(T1)、T2 加权(T2)、液体衰减反转回复(Flair)和T1 加权对比度增强(T1ce),以及真实分割图(ground truth,GT)。脑肿瘤分割需要分3 个部分:全部肿瘤(whole tumor,WT)、增强肿瘤(enhance tumor,ET)和核心肿瘤(tumor core,TC)。标签分为4 类:健康区域为标签0,坏死性和非增强性肿瘤区域为标签1,肿瘤周围水肿区域为标签2,增强型肿瘤区域为标签4。一个MRI 脑肿瘤图像实例如图1所示,其中每种颜色代表一个肿瘤类型:红色代表坏死性和非增强性肿瘤区域,绿色代表肿瘤周围水肿区域,黄色代表增强型肿瘤区域。

图1 脑肿瘤图像实例。(a)Flair;(b)T1;(c)T1ce;(d)T2;(e)GTFig.1 Brain tumor image example. (a)Flair;(b)T1;(c)T1ce;(d)T2;(e)GT

1.1.2 数据预处理

由于脑肿瘤图像结构的复杂性以及噪声的影响,数据预处理是提高脑肿瘤图像分割性能至关重要的步骤。在这项工作中,本研究对原始MRI 脑肿瘤图像进行了数据预处理。在BraTS 2018、2019 数据集中,每个3D MRI 图像数据的尺寸为240 像素×240 像素×155 像素,将3D 脑肿瘤图像沿轴向切割为一系列2D 脑肿瘤切片图像,并从每个2D 切片图像中提取大小为128 像素×128 像素的切片图像,然后采用Z-score 方法[14]对切片图像进行标准化处理,Z-score 方法使用平均值和强度标准偏差处理每个图像,可以将其计算公式表示为

式中,z和z′分别是输入图像和规范化后的图像,μ是输入图像的平均值,δ是输入图像的标准偏差。

1.2 深度残差模块

卷积神经网络的结构对图像分割的结果有很大影响,为解决网络结构加深带来严重的梯度消失而导致分割网络性能变差的问题,本研究采用残差网络思想进行改进[15]。残差网络由多个残差模块连接构成,残差单元结构如图2所示。

图2 残差单元结构Fig.2 Residual element structure.

假设神经网络的输入是x,期望的输出是H(x),在浅层网络上添加一个恒等映射层y=x;将输入x通过连接直接传输到后面的网络层,并对输出结果进行叠加。此时需要学习的不再是一个完整的输出H(x),而是函数值H(x)和x的差值,即残差单元F(x)= H(x)- x。

在传统的卷积神经网络中,通过使用多个卷积操作来提取图像特征,如图3(a)所示。本研究借鉴残差结构,将分割网络结构的编码器和解码器中原有的卷积模块替换为深度残差模块,结构如图3(b)所示。深度残差模块有效地减少了网络训练过程中梯度消失的影响,促进了图像特征信息的提取,解决了图像分割网络中特征信息提取不全的问题。

图3 原始卷积模块与深度残差模块的结构比较。(a)原始卷积模块;(b)深度残差模块Fig.3 The structure comparison between the original convolution module and the depth residual module.(a)The original convolution module;(b)Depth residual module

1.3 图像分割网络

基于三重注意力的脑肿瘤图像分割网络使用深度残差模块,替换原始图像分割网络结构中的编码层和解码层,能够在加深网络训练的同时,解决梯度消失等问题。通过在分割网络中引入三重注意力模块,让网络更好地学习重要的特征信息,抑制冗余特征信息,提升对脑肿瘤图像的分割性能。

本研究的TA-Net 网络结构如图4所示,由编码层、解码层、桥接部分和跳跃连接组成,其中输入为MRI 脑肿瘤图像的4 个模态。编码层由卷积层、深度残差模块和最大池化层构成,包括卷积操作、ReLU 激活函数和BN 正则化;深度残差模块的残差连接用于连接特征图的浅层和深层语义特征信息;通过下采样操作降低特征图的尺寸,特征图的通道数随着尺寸的降低而增大。解码层由深度残差模块和上采样操作构成,对来自编码层的特征图进行上采样操作,通过上采样操作能够得到与原始图像尺寸相同的特征图。桥接部分用于连接编码层和解码层。跳跃连接将编码层的浅层特征与解码层相对应的深层特征进行级联映射,实现特征图的融合。然而,在编码层提取的原始特征信息不仅噪声大而且有很多的冗余特征信息,进而影响脑肿瘤图像分割的准确性。本研究在对编码层的特征与解码层的对应特征拼接融合之前,引入三重注意力模块,增强有用的特征信息,抑制不相关区域的特征响应,降低冗余信息的影响,从而提高脑肿瘤图像分割的准确性。

图4 TA-Net 网络结构Fig.4 TA-Net network structure diagram

在现有的注意力机制[16-17]基础上,引入了一种三重注意力模块,有效地建立每个像素通道之间的相互依赖关系,其结构如图5所示。三重注意力模块由3 个平行模块组成,给定一个输入张量χ∈RC×H×w,先将输入x传递到3 个平行注意力模块中,再进行一系列操作。在第一个注意力模块中建立H和C之间的交互关系;首先将输入张量x的H轴与C轴交换,分别通过maxpooling 和meanpooling 将C维度的张量缩减到二维,使其保留实际特征信息的丰富表示,同时能够缩小网络深度,以便进一步地减少计算量;然后通过大小为1×1 的卷积,再经过正则化处理,将输出的张量通过sigmoid 激活函数生成H×C交互注意力权值;最后将输出的H轴与C轴交换,保持和输入一致。同时,在第二个注意力模块中建立W和C之间的交互关系;首先将输入张量x的W轴与C轴交换,同样进行maxpooling 和meanpooling 操作,将C维度的张量减少到二维;然后通过大小为1×1 的卷积再经过正则化处理,将输出的张量通过sigmoid 激活函数生成W×C交互注意力权值;最后将输出的W轴与C轴交换,保持和输入一致。同理,在第三个注意力模块中建立W和H之间的交互关系,直接将输入张量x通过maxpooling和meanpooling 操作,将C维度的张量缩减到二维;然后再通过1×1 的卷积和正则化处理,将得到的输出结果通过sigmoid 激活函数生成W×H交互注意力权值;最后通过取平均值的方式,将3 个平行注意力模块生成的张量聚集在一起。

图5 三重注意力模块结构图Fig.5 Triple attention module structure diagram

1.4 训练和测试

实验的硬件环境:CPU 为Intel(R)Xeon(R)Gold 6128 2.30 GHz,内存大小为256 GB,GPU 为NVIDIA V100;软件环境:Windows Server 2012 R2,Python3.6,CUDA9.0,CUDNN7.1,使用Pytorch 深度学习框架。在网络训练阶段,输入的图像包括预处理好的脑肿瘤图像及真实分割标签,将BraTS2018和BraTS2019 训练集中的80%作为训练集、20%作为验证集。网络训练初始时学习率设为0.000 1,动量0.9,迭代的批量大小设置为16,训练迭代期为300 次,使用Adma 优化器进行优化,衰减系数为0.000 1,采用Early Stopping 策略机制来确定合适的迭代次数。

采用交叉熵损失函数[18]分别检查每个像素,将预测图像的每个像素与真实标签进行比较,交叉熵损失函数定义为

式中,N为原始图像中所有像素点的数量,pi表示预测结果中第i个像素的概率,gi表示真实标签中第i个像素的真实类别。

在网络训练过程中,使用交叉熵损失函数进行优化,有效地解决了网络中梯度消失问题,使网络能够更快更稳定地运行。

1.5 性能评估指标

为了验证本研究提出的基于三重注意力的脑肿瘤图像分割网络性能,将其与 U-Net[8]、DANet[11]、ResUNet[19]和Attention-UNet[20]4 种网络进行对比实验。由于临床上的实际应用,评估指标通常将肿瘤结构分为3 个区域进行图像分割性能评估,包括全部肿瘤(whole tumor,WT)、增强肿瘤(enhance tumor,ET)和核心肿瘤(tumor core,TC)。

为了对所提出的图像分割网络进行评估,采用Dice 系数(dice similariy coefficient,DSC)、查准率(Precision)、查全率(Recall)和Hausdorff 距离(HD)作为性能评价指标,相关指标计算公式如下:

式中:TP 为正确检测是正样本的样本数量,FP 是负样本检测错误为正样本的样本数量,FN 是正样本检测错误为负样本的样本数量;Dice 系数是用来衡量预测分割结果与真实分割结果之间的相似程度,Precision 是正确预测为脑肿瘤分割的像素总数占被预测为脑肿瘤的像素总数的比例,Recall 是指被正确预测为脑肿瘤的像素总数占实际为脑肿瘤的像素总数的比例。

Hausdorff 距离(HD)可以通过下式计算:

式中,X表示真实结果图像,Y表示预测结果图像,dXY和dYX表示预测分割图像与真实分割图像之间的单向Hausdorff 距离。HD 为dXY和dYX中的最大值,是预测分割图像和真实分割图像之间的最大不匹配程度,该值越小表示网络分割图像越接近真实标签图像、图像分割效果越好。

2 结果

表1展示了4 种网络和本研究提出的网络在Dice 系数的脑肿瘤图像分割实验结果。可以看出,在Dice 系数指标方面,本研究的分割网络在WT、TC 和ET 等3 个区域上面优于其他3 种网络的实验结果。实验结果显示,在WT、TC 和ET 区域,DSC值达到了85.20%、87.13%、80.89%。

表1 5 种网络在Dice 系数(DSC)下的脑肿瘤图像分割结果Tab.1 Brain tumor image segmentation results of five kinds of networks in Dice coefficient (DSC)

表2展示了4 种网络和本研究提出的网络在Precision 指标下的脑肿瘤图像分割实验结果。可以看出,在Precision 系数指标方面,本研究的分割网络在WT、TC 和ET3 个区域上面分别为89.09%、90.95%、80.42%,均优于其他3 种网络的实验结果。

表2 5 种网络在Precision 指标下的脑肿瘤图像分割结果Tab.2 Brain tumor image segmentation results of five kinds of networks in precision

表3展示了4 种网络和所提出的网络在Recall指标下的脑肿瘤图像分割实验结果。实验结果显示,在Recall 系数指标方面,本研究的分割网络在WT、TC 和ET3 个区域上面达到88.70%、92.34%、85.24%,相比其他3 种网络Recall 指标均有小幅度提高。

表3 5 种网络在Recall 指标下的脑肿瘤图像分割结果Tab.3 Brain tumor image segmentation results of five kinds of networks in Recall

表4展示了4 种网络和本研究提出的网络在Hausdorff 指标下的脑肿瘤图像分割实验结果。可以看出,本研究的分割网络在WT、TC 和ET3 个区域上面Hausdorff 系数指标达到2.523 9、1.569 6、2.749 5。虽然整体肿瘤区域、坏疽肿瘤区域和增强肿瘤区域分割效果均优于U-Net[8]和ResUNet[19]网络,但是在增强肿瘤区域上的分割效果与DANet[11]和Attention-UNet[20]指标相比没有提升。

表4 5 种网络在Hausdorff 指标下的脑肿瘤图像分割结果Tab.4 Brain tumor image segmentation results of five kinds of networks in Hausdorff

3 讨论

本研究的主要贡献概括为3 个方面:

1)提出了一种端到端的脑肿瘤MRI 图像分割网络(TA-Net),不仅提取了更丰富的上下文图像特征信息,而且有效地提高了脑肿瘤图像分割的精度。

2)TA-Net 在全卷积网络中引入一种三重注意力模块和残差模块,以这种方式有效地连接图像深层和浅层信息,以突出重要的特征信息。一方面,残差模块增强了特征信息的表达能力,有助于编码过程中图像特征的提取;另一方面,三重注意力模块在解码过程中更加关注脑肿瘤图像的细节信息,提高脑肿瘤图像分割细节的精度。

3)TA-Net 在BraTS2018、BraTS2019 和脑瘤分割基准上,对TA-Net 进行了广泛的评估。实验结果表明,具有三重注意力模块的分割网络性能优于典型的脑肿瘤图像分割网络。

本研究提出基于三重注意力的脑肿瘤图像分割网络,在Dice 系数、Precision、Recall 和HD 等4 种脑肿瘤临床评估指标上,图像分割的整体性能均好于其他4 种网络。本研究的分割网络的最大优势在于,提出的三重注意力模块可将图像的上下文语义特征信息传输得更密切,可大幅度减少特征信息得丢失,在解码过程中更加关注脑肿瘤图像细节信息。

相比传统的图像分割网络结构U-net,除了组合图像局部和全局特征信息以外,还参考了以Attention-UNet 和DANet 为基础的网络结构。这些网络结构在U-net 解码过程中插入通道或空间注意力模块,而注意力模块能够更好地捕获图像重要的特征信息,提高图像分割的准确性[21]。从表1~3可以看出,Attention-UNet 和DANet 的各项指标明显高于U-net 的相应指标,但是与Attention-UNet 的分割性能相比,DANet 的分割性能没有明显的提升。由表4可以看出,DANet 的Hausdorff 指标明显减少,这是因为增加了空间注意力模块,该模块能够有效处理图像细节问题[21],因此本研究提出的网络在HD 指标上评分数值明显减小。所提出的三重注意力模块看似比DANet 网络的注意力模块复杂,但采用的是像素通道之间的相互依赖关系,相比DANet 和Attention-UNet 等添加注意力模块的分割网络,并没有增加计算时间。

图6为6 种分割网络在脑肿瘤MRI 图像高级别胶质瘤和低级别胶质瘤患者上的图像分割结果。第一行为1 例高级别胶质瘤的脑肿瘤患者图像分割结果,第二行为1 例低级别胶质瘤患者的脑肿瘤患者图像分割结果。从左到右,每一列依次是U-Net网络分割结果、DANet 网络分割结果、ResUnet 网络分割结果、Attention-UNet 网络分割结果、真实标签分割结果和本研究图像分割网络结果。可以看出,U-Net 只能大致定位脑肿瘤所在的位置,而以UNet 为基础的网络,如ResUnet 网络,分割出的脑肿瘤图像轮廓和形状较为清晰,这是由于ResUNet在网络中加入了残差结构,使网络有效地联系图像的语义信息,从而能够突出图像重要的特征信息,有助于编码过程中图像特征的提取。因此,本研究网络在此基础上添加了深度残差模块,能够更好地联系图像局部和全局特征信息。然而,从图6中可以看出,ResUNet 存在一些多分割出的图像散点,导致图像分割结果不准确。同样,虽然DANet 和Attention-UNet 网络分割的脑肿瘤图像整体分割得比较清楚,但是来自编码层的浅层特征信息噪声大,图像边缘信息毛躁,带有很多冗余信息,容易影响脑肿瘤图像分割的精度。

图6 5 种网络图像分割结果Fig.6 Five network image segmentation results

本研究提出的三重注意力模块能够联系图像局部与全局特征信息,并且在编码层中使用深度残差模块,充分提取脑肿瘤图像特征信息,使图像分割网络获得与真实标签结果相近的图像分割结果,相比ResUnet 和Attention-UNet 网络,分割出很少的冗余图像信息,具有良好的脑肿瘤图像分割性能;在加深网络训练的同时,没有出现梯度消失等问题。

4 结论

针对脑肿瘤图像分割网络缺乏联系局部与全局特征信息而导致的图像分割精度低等问题,本研究提出了一种基于三重注意力的脑肿瘤图像分割网络。通过实验比较,表明本研究提出的脑肿瘤图像分割网络在性能和分割精度等方面均优于其他网络。然而,本研究所提出的分割网络仍存在一定的局限性;脑肿瘤MRI 原始图像为3D 医学图像,使用2D 网络结构进行图像分割会丢失部分图像信息,从而影响图像分割的准确率。因此,研究基于3D 脑肿瘤图像分割网络,是未来脑肿瘤图像精确分割的重点。

猜你喜欢
残差注意力卷积
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于残差学习的自适应无人机目标跟踪算法
如何培养一年级学生的注意力
卷积神经网络的分析与设计
基于深度卷积的残差三生网络研究与应用
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法