改进的V-C-Net卷积神经网络脑肿瘤图像多层次分割实验

2022-12-07 13:31莫修源吴丽丽陆志翔
软件工程 2022年12期
关键词:分块注意力损失

莫修源,吴丽丽,陆志翔

(1.甘肃农业大学理学院,甘肃 兰州 730000;2.信息科学技术学院,甘肃 兰州 730000;3.中国科学院西北生态环境资源研究院中国科学院内陆河流域生态水文重点实验室,甘肃 兰州 730000)

1 引言(Introduction)

脑胶质瘤的产生是大脑和脊髓胶质细胞发生癌变引起的,是一种常见的原发性颅脑肿瘤,近年来在我国的发病率不断升高[1]。脑核磁共振图像是对脑胶质瘤的常用观察方式[2],随着医学成像技术的快速发展,借助算法客观地分析脑肿瘤图像,已经成为现代医学研究的关键问题。

脑核磁共振图像相对于常规图像,其边界分割较为困难主要源于存在容积效应、高噪声、低对比度及遮挡等问题,并且脑核磁共振图像中通常含有较高比例的不规则小区块分割目标,相对于大尺度分割目标,小尺度区块目标具有成像体积小、细节特征缺失等特点,所以针对小尺度区块分割的精确度往往会偏低。近年来,学者尝试从多个角度解决小尺度目标分割难的问题,本文针对V-Net模型[3]进行改进,提出通过改进的联合损失函数提升网络模型对病变点的分割效率,同时试图通过添加时间与空间的双注意力机制解决脑肿瘤边界分割困难的问题,最终得到一个对脑肿瘤分割性能更优的神经网络模型。

2 实验方法(Experimental method)

2.1 图像分割模型改进

如图1所示,本文所改进的基础网络模型为V-Net模型,该模型常应用于3D医学图像的分割实验,有编码和解码两条对称的路径,编码器由卷积层、池化层及残差链接构成,对输入的图像进行压缩,采用下采样的操作,解码器通过对图像的反卷积恢复图像的大小,并实现像素点级别的分割[4]。同时,该模型通过编码和解码部分的特征融合结构把浅层语义特征和深层语义特征相结合,使模型加强对图像的细节特征提取,实现像素到像素的分割效果。

图1 改进的V-C-NET模型结构示意图Fig.1 Structure diagram of improved V-C-NET model

卷积神经网络在对图像数据的通道特征学习过程中,卷积核计算通道的局部感受野[5]忽视了特征图的前后层连接信息,在感受野较小的情况下,网络丢失信息严重。注意力机制可以增大模型的感受野,同时丰富信息的结合,为了使网络更加关注脑肿瘤图像病变部分的特征,在编码器和解码器交接位置添加了联合注意力模块,减少网络模型关注与脑肿瘤分割无关的信息,加强对脑肿瘤微小特征的关注程度,最终增强模型对图像有效特征的提取效果,实现对脑肿瘤图像更精准的分割。

2.1.1 模型下采样与上采样编码模块

首先输入大小为128×128×64的图像块,通过一个大小为5*5*5的卷积核进行卷积操作,并设置步长为1,填充Padding为2的填充操作使通过卷积层后图像的大小不变,得到通道数为16的特征图,然后通过一次残差连接融合特征,融合特征后使用大小为2*2*2的卷积核、步长为2的卷积操作聚合图像特征,使特征图的大小压缩为原来的一半。之后,重复下采样过程直至得到大小为8×8×4、通道数为256的特征图。

在解码部分,对压缩路径得到的结果进行一次反卷积处理,使特征图大小变为16×16×8、通道数变为128通道,然后将其与压缩路径中经过残差连接后大小为16×16×8、通道数为128的特征图进行拼接,得到大小不变,通道数为256的特征图,之后将拼接后的特征图经过三次卷积和一次残差链接操作完成上采样过程。重复上采样过程直至得到大小为128×128×64、通道数为32的特征图,之后通过一个1*1*1的卷积核卷积处理减少通道数,得到通道数为3的大小不变的特征图完成图像分割。

2.1.2 注意力机制模块

注意力机制是通过网络训练计算输入数据对输出的分割结果的权重大小,计算图像各个子区域被关注的程度高低,通过赋予各个区域或者通道不同的权重,从而增加受关注区域的显著特征。

通道注意力机制[6]对网络输入的特征层,分别进行一次全局平均池化和全局最大池化的操作来生成两个特征向量,并对经过池化操作后的两个特征向量矩阵,利用共享的全连接层处理,学习通道维度的特征和各通道的重要性,将经过全连接处理后的两个特征向量矩阵相加,用sigmoid激活函数激活,便获得了输入特征层每一个通道的权值矩阵,然后将原输入特征层与权值矩阵相乘,就得到了添加通道注意力权重的特征层,如图2所示。

图2 通道注意力机制Fig.2 Channel attention mechanism

空间注意力机制[7]对输入的特征层,在每一个特征点的通道上取最大值和平均值,之后将获得两个结果进行堆叠操作,并通过大小为1*1*1的卷积核卷积操作调整通道数为1,之后通过sigmoid激活函数激活,便获得了输入特征层每一个特征点的权值矩阵。同样,将这个权值矩阵与原输入特征层相乘,就得到了添加空间注意力权重的特征层,如图3所示。

图3 空间注意力机制Fig.3 Spatial attention mechanism

如图4所示在V-Net模型下采样编码与上采样编码部分添加CBAM混合注意力机制[8],就是将通道注意力机制和空间注意力机制相结合,对输入的特征层先添加通道注意力机制后再添加空间注意力机制。脑肿瘤图像是灰度图,通道间的灰度值区分度较小、灰度不均匀、对比度低及边界模糊,因此需要多方面考虑空间信息和通道信息,从而有效弥补网络对图像特征提取不充分的缺点。通过对模型添加CBAM混合注意力机制赋予中间特征图不同的权重,充分利用有效信息的同时抑制无用信息,最终使特征图中有效的区域权重增加,无效的区域权重变小,有效提高了模型分割的精度。

图4 CBAM混合注意力机制Fig.4 CBAM attentional mechanism

2.2 损失函数的改进

损失函数是影响网络分割性能的重要因素,是用来优化预测值和标准值的误差函数,通过反向传播到先前的神经网络层,用来更新和优化模型的权重参数[9]。通过联合分割任务中常用的三种损失函数,使改进的损失函数与网络训练次数相联系,提升脑肿瘤图像分割的精度。

2.2.1 基于区域和目标距离的损失函数

交叉熵损失函数是基于区域计算的损失函数[10],该损失函数会检查图像中每个像素点,通过对比网络输出与标签真实值的差距计算损失,本文用来计算三维数据的损失,交叉熵损失函数如式(1)所示:

式(1)中,p表示网络预测的图像中某像素属于分割目标的概率,g表示该像素点的标签真实值。

Dice系数[11]是一种传统的用于评估分割性能的度量指标其原理是基于区域计算的损失函数,用来评估图像标签真实值和预测图像之间的拟合度,也是一种像素级的测量,其范围在0—1,当Dice系数等于1表示完美重合。Dice损失函数如式(2)所示。

BD损失函数[12]是一种计算目标距离的损失函数,通过区域积分的方式计算预测结果与标签边界之间的距离,如式(3)所示。

其中,G表示图像真实标签的边界,边界上的点与预测边界上的点相对应。

2.2.2 改进的混合损失函数

交叉熵损失能提高图像分割的精度,保证脑肿瘤区域和背景均匀分割,Dice损失函数计算损失时忽略了图像背景,可以有效地对目标区域计算损失,BD损失函数计算的是轮廓空间的距离,关注预测分割结果和标签图像之间的区域,训练过程中不断减小边界部分的分割错误。将交叉熵和Dice损失这种基于区域的损失函数与BD损失这种基于目标距离的损失函数结合,能够很好地解决分割任务中前景与背景不均衡导致的问题,重要的是基于距离的损失函数解决了基于区域的损失函数在样本不均衡状况下发挥不稳定的问题,区域损失函数能让训练过程更加稳定,能够有效分割脑肿瘤这类小样本。本文试图通过混合的损失函数把三种损失函数的优势相结合。改进的混合损失函数如式(4)所示:

其中,α作为超参数控制三种损失函数在联合损失函数中的权重,通过在实验过程中根据实验结果好坏得出,随着训练次数的增加应逐步提高BD损失函数在混合损失函数中的比重,进而有效提高目标边界的分割效果,我们制定了超参数α调整表,见表1。

表1 超参数调整表Tab.1 Adjustment table of super-parameter

三种损失函数的结合弥补了各自的不足,可以最大化不同损失函数在训练中的作用,有效解决了脑肿瘤图像分割中目标的像素比例小且分割目标有重叠和嵌套的问题,通过改进的联合损失函数使网络更关注较小的病变区域,并在保留图像所有信息的情况下优化网络,实现模型对小目标、多层次的精确分割。

3 脑肿瘤数据介绍与预处理(Introduction and preprocessing of brain tumor data)

3.1 Brats脑肿瘤数据集介绍

Brats脑肿瘤数据集有285 个病例,有t1、t2、t1ce、flair四个模态[13]和人工手动标注的肿瘤标签数据如图5所示。多模态是利用不同的核磁共振成像模式生成的,利用不同的模态图像进行分割实验,可以有效地提升分割准确率,同时不同的模态也增加了分割实验的难度。t1、t2模态是因为进行核磁共振成像时电磁波的物理量不同,所以产生了两种不同的序列,t1脑肿瘤图像中白质、灰质、脑脊液颜色区分明显,所以t1模态图像容易看出各种断层结构,t2脑肿瘤图像信号与大脑中水含量有关,病变部分的t2信号要强于周围的正常脑组织,所以t2模态图像更容易看出大脑病变的区域,t1ce模态是在做核磁共振成像之前把造影剂打入血液,使脑肿瘤图像中供血丰富的地方变亮,其是病变组织的可能性就越大,flair模态是进行核磁共振成像时常用的序列模态,名称为液体衰减反转回复序列模态。

图5 BraTs脑肿瘤多模态数据Fig.5 BraTs brain tumor multimodal data

对脑肿瘤图像做三个部分的分割,即浮肿区域(ED)、增强肿瘤区域(ET)、坏疽区域(NET)[14],然后这些区域合并为3 个嵌套的子区域,即WT=ED+ET+NET 区域,TC=ET+NET 区域,和单独的ET区域相当于对脑肿瘤图像的每个像素点做四分类任务。

3.2 3D重叠分块预处理

核磁共振脑肿瘤图像是一个三维数据结构,图像像素大小为155×240×240,将四种不同模态的图像和肿瘤对应的标签数据图像前后共加入5 个黑色切片,使图像像素大小都变为160×240×240,方便分块处理,并对脑肿瘤数据四种不同模态的图像通过减去均值除以标准差的方式[15]进行标准化处理,通过图像数据的归一化方便训练模型。

脑肿瘤数据中黑色为背景像素,在整个图像数据中占据较大比例,并且背景像素对于肿瘤分割没有任何帮助。为了让网络更好地注意到肿瘤区域,可以通过裁剪的方式减小黑色背景信息,同时减少网络训练的数据量,提升网络的性能。

由于硬件资源的限制,脑肿瘤图像不能完整地输入到网络中,需要对图像数据和对应的标签数据进行分块处理[16]。经过裁剪后的图像和标签数据大小为160×128×128,传统的分块方式是从深度方向上分为5 个32×128×128大小的分块,分块是独立的每个分块没有重叠的部分,并且分块后的大小和完整图像是倍数的关系,通过模型预测的结果进行直接拼接,就可以变成完整的图像。传统的分块方式简单,但存在一个问题,在每个分块中层与层的结构关系模型可以学习到,但只学习了一个分块中的结构关系,块与块之间是断开的,网络模型无法学习完整的3D图像结构。本文提出一种新的分块办法,让分块与分块之间有相互重叠的部分,这样可以让分块与分块之间相互联系。块的大小变为64×128×128,分块移动的步长为32,最终分为大小为64×128×128的4 个分块且分块与分块之间有一半重叠部分,这样就可以使网络完整学习图像的3D结构,如图6所示。

图6 重叠分块处理Fig.6 Overlapped block processing

将经过标准化和分块处理后的脑肿瘤图像数据的四个不同的模态合并成四个通道,保存后的数据形状为(64,128,128,4)。同样,对相应的标签进行分块,然后将WT、TC、ET分割区域合并成三个通道,数值为0或1,保存后的数据形状为(64,128,128,3)作为模型学习的标签。

4 脑肿瘤分割实验(Brain tumor segmentation experiment)

4.1 实验环境介绍

实验通过Pytorch的深度学习框架实现,使用Pycharm编译器,GPU是NVIDIA GeForce GTX 1650Ti,CUDA是11.0版本,操作系统是Windows 10,编程语言使用Python 3.8,在实验中超参数Epoch设为100,这是通过实验发现的最佳值,Adam的学习率初始化为0.0001,学习率衰减以0.1的倍数变化,并且最小学习率设置为e-5。为了防止过拟合,采用“早停”的训练策略,当损失函数值稳定后并在十轮训练中没有变化即停止训练。

4.2 评价指标

为了评估改进的模型对脑肿瘤的分割效果,也方便将改进的V-C-Net与3D U-Net等其他模型进行比较,实验结果通过Dice系数(DSC)、交并比(IoU)、敏感度(Sensitivity)、精确率(Precision)及豪斯多夫距离(HD)五个性能指标进行评价[17],其评价公式如式(5)—式(9):

4.3 实验结果及分析

为了验证改进的V-C-Net模型在脑肿瘤分割上的性能,将其与FCN模型、3D-Unet模型、传统V-Net模型进行脑肿瘤图像分割实验对比分析,表2中列举了不同的模型在脑肿瘤分割实验中的结果,四种模型的五项评估指标详见表2。

表2 脑肿瘤分割指标评价表Tab.2 Evaluation table of segmentation index of brain tumor

从表2的五项评价指标中我们可以看出,通过添加联合注意力机制改进的V-C-Net模型,在各个指标中均具有更好的表现,对脑肿瘤图像做三个部分的分割,即浮肿区域、增强肿瘤区域、坏疽区域,每个部分的分割都优于其他三个模型,在测试集上的平均Dice系数达到90.78%,平均交并比系数达到89.68%,平均敏感度达到91.70%,平均精确率达到96.48%,平均豪斯多夫距离达到0.451。

3D-Unet模型和传统V-Net模型具有深入特征融合结构,对于脑肿瘤病变区域的分割融合不同深度的语义信息,因此分割精度明显优于FCN模型,但是传统V-Net对脑肿瘤图像的所有特征都进行分割计算,不仅造成计算资源的浪费,在脑肿瘤边缘轮廓与脑部图像对比度低时,分割效果并不好,通过添加联合注意力机制和改进损失函数,改进的V-C-Net方法在平均Dice系数和交并比上对比传统V-Net,分别提升了1.24%和0.66%,平均敏感度和平均精确率分别提高了1.77%和1.52%。在改进V-C-Net模型的基础上又改进了模型损失函数,使得模型更关注脑肿瘤病变区域的细微边缘信息,大大降低了把正常脑组织图像像素误分割为脑肿瘤像素的概率,使网络模型的预测结果和图像标签之间的最大不匹配度更小,相比传统V-Net模型,其豪斯多夫距离减小0.3266。由以上结果可知,改进的V-C-Net模型有着更强的优越性和竞争力。

图7展示出了不同分割模型在测试集上的分割效果图。图7(a)、图7(b)分别是脑肿瘤分割的原图和对应标签图,图7(c)—图7(f)分别为FCN网络模型、3D-Unet网络模型、传统V-Net网络模型和改进的V-C-Net网络模型得到的脑肿瘤分割效果图。从图7(c)中可以看到,FCN模型对脑肿瘤坏疽区域中心位置的定位不错,但是出现漏检和过检的现象,我们可以明显观察到模型对浮肿区域和正常脑组织没有辨识全面,出现漏检现象,对增强肿瘤区域和浮肿区域有混淆。3D-Unet模型分割的脑肿瘤边缘轮廓信息比FCN清晰,对整体浮肿区域的识别较为完整,对脑肿瘤坏疽中心位置的分割较为清晰,分割效果有了一些改善,但不是很精确。传统V-Net网络模型的分割效果优于3D-Unet网络模型,对脑肿瘤浮肿区域、增强肿瘤区域分割明显,但对脑肿瘤中心坏疽区域识别过多出现过检现象。相比其他方法,改进的V-CNet网络模型能够更好地分割脑肿瘤细小、模糊的边缘轮廓,能充分识别浮肿区域、增强肿瘤区域,并对脑肿瘤中心坏疽区域精确分割,明显改善了过分割和欠分割现象[18],得到了与标签最接近甚至超过标签的效果,具有很好的分割性能。

图7 模型分割效果图Fig.7 Model segmentation effect diagram

损失函数收敛得越快,则说明模型学习的参数与对脑肿瘤病变区域正确分割的参数越接近,模型学习的效率越高,模型起始学习参数越小,说明模型对脑肿瘤区域分割的起始精度越高,学习时间更短。图8是改进的V-C-Net模型与其他三种分割模型对脑肿瘤区域分割过程的损失函数收敛图,共进行100 轮训练。从图8中我们看到改进的V-C-Net模型比其他三种模型损失函数起始值更低,并且收敛速度更快,进一步证实了改进的V-C-Net模型有着更强的优越性和竞争力。

图8 损失函数收敛图Fig.8 Loss function convergence diagram

4.4 消融实验

同时,我们通过消融实验,研究CBAM混合注意力块和改进的联合损失函数对整体实验结果的影响,分别设计了只添加CBAM混合注意力机制的V-Net网络将损失函数改为交叉熵损失函数和在原始V-Net基础上只添加改进的联合损失函数的神经网络进行对比实验,其实验的结果如表3所示。

表3 改进V-C-NET神经网络的消融实验Tab.3 Ablation experiment of improved V-C-NET neural network

从表3中可以看到,在只添加注意力模块的情况下,脑肿瘤浮肿区域、增强肿瘤区域、坏疽区域三个分割模块相对于传统V-Net神经网络,豪斯多夫距离的值分别下降到0.8145、0.6219、0.7514,在精确率方面分别提高到96.41%、94.91%、95.62%,这是因为脑肿瘤图像是灰度图,通道间的灰度值区分度较小,对比度低及边界模糊,通过添加注意力模块的同时考虑空间信息和通道信息有效弥补网络对图像特征提取不充分的缺点,提高了模型分割的精度,以及模型对分割边界的准确率。

同时,在原始V-Net模型的基础上只添加改进的联合损失函数实验中,脑肿瘤浮肿区域、增强肿瘤区域、坏疽区域三个分割模块相对于传统V-Net神经网络,豪斯多夫距离的值分别下降到0.4124、0.2968、0.6775,在精确率方面分别提高到97.17%、94.82%、95.36%,这是因为提出的联合损失函数中交叉熵损失能提高图像分割的精度,保证脑肿瘤区域和背景均匀分割,同时Dice损失函数计算损失时忽略了图像背景,可以有效地对目标区域计算损失,同时超参数控制BD损失函数在计算中的比重使得模型根据训练次数的增加而更关注轮廓空间的距离,能更好地预测分割结果和标签图像之间的边界,并在训练过程中不断减小边界部分的分割错误,提高分割精度与减少分割边界距离。

最后我们注意到,在同时添加注意力模块与改进联合损失函数的V-C-Net网络中,脑肿瘤三个分割模块相对于传统V-Net神经网络,各个指标具有更好的表现,对脑肿瘤图像做三个部分的分割,即分割为浮肿区域、增强肿瘤区域、坏疽区域,每个部分的分割都优于单独添加的其他两个模型,在注意力模块和联合损失函数的优势互补中,模型在测试集上的Dice系数、交并比、敏感度、精确率和豪斯多夫距离五个性能指标平均值分别为90.78%、89.68%、91.70%、96.48%、0.451,实验结果表明改进的V-C-Net模型可以更好地对脑肿瘤病变部分进行分割。

5 结论(Conclusion)

本文针对传统V-Net模型无法有效地集中注意力到病变区域,造成模型分割困难与边界分割的精度低等问题,提出了一种改进的V-C-Net模型。通过实验结果分析得到在传统V-Net模型中加入CBAM混合注意力机制,同时使用改进的混合损失函数,提高了模型分割精度,在Dice系数、交并比、敏感度、精确率和豪斯多夫距离五个性能指标中的表现都优于同级别神经网络模型,在脑肿瘤分割实验中得到了更精确的分割图。本文的实验为深层卷积神经网络分割3D医学图像时出现的边缘分割不够精确、分割目标较小而背景因素过大等问题提供了解决思路和方案。

猜你喜欢
分块注意力损失
让注意力“飞”回来
胖胖损失了多少元
分块矩阵在线性代数中的应用
玉米抽穗前倒伏怎么办?怎么减少损失?
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
反三角分块矩阵Drazin逆新的表示
基于自适应中值滤波的分块压缩感知人脸识别
一般自由碰撞的最大动能损失
基于多分辨率半边的分块LOD模型无缝表达