基于多层融合注意力的乳腺肿瘤图像分割方法

2023-07-21 07:50:20王宇昕付晓薇赵思宇

计算机技术与发展 2023年7期

王宇昕,付晓薇,赵思宇,陈芳

(1.武汉科技大学计算机科学与技术学院,湖北武汉 430065;2.智能信息处理与实时工业系统湖北省重点实验室,湖北武汉 430065;3.武汉科技大学校医院超声影像科,湖北武汉 430065)

0 引言

乳腺癌是女性最常见的恶性肿瘤疾病之一,已经严重威胁到了女性的身心健康,尽早确诊是防治乳腺癌的关键[1]。在多种乳腺癌成像技术中,超声成像因其成本低、无辐射且信息采集实时成为了乳腺癌检测的首选方法,对其早期诊断和治疗具有重大意义。医生通过形态学和纹理特征判断超声乳腺图像中肿瘤的位置、尺寸和形状,以此确定肿瘤的良恶性。但诊断结果依赖医生的临床经验,存在一定的主观性,易导致漏诊与误诊[2]。

为此,计算机辅助诊断系统被广泛应用于乳腺癌的临床诊断。肿瘤区域的自动分割是该系统的关键步骤,分割结果的质量直接影响诊断结果的准确性和可靠性[3]。然而,精确的肿瘤分割需要经验丰富的临床医生进行手动标注,过程耗时且影响诊断效率。另外,由于超声图像中存在大量散斑噪声,导致肿瘤边缘较为模糊,且不同个体的肿瘤形状不一,为肿瘤区域的自动分割带来了极大的挑战。因此,超声乳腺肿瘤图像的分割具有重要的研究意义和临床价值。

1 相关工作

目前,研究人员对超声乳腺肿瘤图像的分割方法进行了大量研究。Horsch等人[4]首先采用一种基于阈值的分割算法,通过设置初始参数对超声乳腺肿瘤图像进行阈值处理。但该方法忽略了空间特征,分割结果受噪声影响较大。Feng等人[5]提出一种自适应的模糊C均值(AFCM)聚类方法,通过设置初始聚类区域的数量和噪声容忍水平对乳腺超声图像进行分割。此方法考虑了空间特征,在一定程度上克服了噪声敏感问题。Cai等人[6]提出了一种基于相位的活动轮廓模型(PBAC),使用结合边界和区域信息的能量泛函对乳腺肿瘤的边界进行提取。这些传统方法受人为初始参数设置影响较大,存在一定的局限性。因此,将传统分割方法应用于超声乳腺肿瘤分割的效果并不理想。

随着深度学习技术的快速发展,大量的卷积神经网络(CNN)模型已应用于图像分割任务中。与传统方法相比,基于CNN的方法无需手工设计提取特征,通过学习多层次的特征信息,即可对图像的深层特征进行自动提取[7]。全卷积神经网络(FCN)[8]将传统CNN的全连接层替换为卷积层,实现了端到端的像素级分割。但该方法细节保留不充足,导致分割结果较粗糙。为此,Ronneberger等人[9]在FCN的每一层间引入跳跃连接,将细粒度的浅层特征与粗粒度的深层特征结合起来,提出了具有对称编-解码结构的U-Net模型。其中,编码部分提取特征图高分辨率的局部特征,用于获取图像的上下文信息,解码部分用于还原各层的特征图,表达图像的全局特征。编-解码结构间的跳跃连接能有效补充细节信息,有利于提高图像分割的质量。

对于具有较少数据样本的医学图像,U-Net能够对其进行模型训练并实现分割[10]。Almajalid等人[11]最先将U-Net应用到超声乳腺肿瘤分割中,但受U-Net中感受野大小固定的影响,分割后的图像细节仍存在部分缺失。Zhou等人[12]设计了具有嵌套结构和密集跳跃连接的UNet++,根据不同规模的数据集,对多尺度特征进行不同层次的提取。在医学图像处理中,注意力机制可使网络专注于感兴趣区域的学习[13]。

因此,近年来的医学图像分割模型大多结合U-Net与注意力机制进行改进。Zhuang等人[14]提出RDAU-Net用于分割乳腺肿瘤图像,结合注意力门(AG)模块[15]、ResNet[16]和扩张卷积[17],以提升网络对肿瘤特征的学习能力。Vakanski等人[18]在U-Net的编码部分引入显著性图,使用改进后的AG模块将注意力集中在肿瘤显著性高的区域上,但该方法在一定程度上依赖先验知识,容易错误筛除显著性高的图像。Byra等人[19]提出Selective Kernel U-Net(SK-U-Net),通过一种通道注意力机制动态调整网络感受野大小,有效利用不同尺度的空间信息,使得分割结果得到了较大的优化。Zhu等人[20]设计了残差多尺度模块用于获取更大的感受野,并在U-Net的跳跃连接部分结合挤压激励(SE)模块[21],在通道上融合不同层之间的特征信息,能够使分割结果保留更多的肿瘤细节信息。这些研究在一定程度上均提高了分割精度,但对于边缘模糊、形状变化较大的超声乳腺肿瘤图像,仍无法得到令人满意的效果。

鉴于此,基于U-Net,结合空间注意力和通道注意力,该文提出一种多层融合注意力(Multi-layer Fusion Attention,MLFA)的方法,以实现噪声强干扰下的超声乳腺肿瘤区域的精确分割。

其主要优势有:

(1)借鉴深度学习中迁移学习的思想,在U-Net的编码部分使用预训练模型ResNet-34,提高网络的特征提取能力,以更好地区分肿瘤与背景区域;

(2)针对噪声强干扰下肿瘤边缘模糊的问题,引入MLFA模块对相关联的深层特征和浅层特征进行空间和通道维度上的自适应融合,使网络聚焦于局部肿瘤特征的学习,保留更多的肿瘤边缘细节信息;

(3)在公开的超声乳腺肿瘤数据集上与其他分割网络进行比较,验证了该方法具有较好的图像分割性能。

2 方法

2.1 网络结构设计

在编-解码结构的网络中,编码路径提取特征的准确性会直接影响后续解码路径分割的精度。但由于图像特征的差异性,同时改进两种路径并不能显著提高分割精度。因此,该文对U-Net的编码部分和跳跃连接部分进行改进,即在编码部分使用预训练模型ResNet-34[16]的网络参数进行特征提取,同时在跳跃连接部分引入MLFA模块,融合不同层次的特征,加强网络对特征的传递与利用,提升了模型的灵敏度和分割精度。

网络的总体架构如图1所示,分为编码部分和解码部分。在编码过程中,输入图像首先经过一个7×7卷积(步长为2,填充边距为3)进行通道加倍,再使用2×2最大池化进行下采样,特征图尺寸减半。然后,进入ResNet-34的四个残差块组合,维度分别是64、128、256和512,使用残差块的数量分别是3、4、6、3。除前两层外,每增加一层,特征图尺寸减半,通道数翻倍。

图1 提出的分割网络结构

在解码过程中,编码末端输出的特征图经过双线性插值的上采样操作后,与来自第4层的同尺度特征图共同输入到MLFA模块中,得到增强语义信息后的特征图。随后,继续经过两组由3×3卷积(步长为1,填充边距为1)、批归一化(BN)和ReLU激活组成的标准卷积模块。剩余层数均采取了上述操作,每增加一层,特征图尺寸加倍,通道数减半。对最后一层的特征图,使用上采样操作和3×3卷积,将特征图通道数降为1,尺寸恢复至输入图像大小。经过Sigmoid函数激活,映射出每个像素的前景和背景概率。若概率大于0.5则为前景肿瘤区域,反之则为背景,最终实现超声乳腺肿瘤的二值分割。

2.2 ResNet

CNN通过堆叠卷积层来增加网络深度,从而提取到具有丰富语义信息的特征。然而,随着网络深度加深,训练模型时易出现梯度消失现象,影响网络的分割效果。ResNet通过引入残差块,直接将原始输入信息传至下一层,在加深网络层次的同时,避免了网络性能的退化。

残差块的基本结构如图2所示。其中,x代表残差块的输入特征,F(·)代表卷积操作。残差块的输出可以表示为:H(x)=F(x)+x。该文使用去除全连接操作的预训练模型ResNet-18、ResNet-34以及ResNet-50作为特征提取器进行对比实验,分别由图2中不同数目的基本残差块构成,网络参数如表1所示。实验中发现,ResNet-34模型的分割效果优于其余两种模型,具体见实验部分。为此,使用ResNet-34作为超声乳腺肿瘤分割网络的特征提取器。

表1 ResNet模型参数

图2 基本残差块结构

2.3 MLFA模块

在深度卷积神经网络中,相邻层间的特征信息具有相关性[20]。浅层特征包含高分辨率的位置信息,深层特征包含低分辨率的全局信息。但是,U-Net中传统的跳跃连接操作仅能实现浅层信息的简单融合,更深层的信息未充分利用,造成浅层特征与深层特征之间存在语义鸿沟。为此,该文设计了MLFA模块,将其运用在跳跃连接部分,对不同层次的特征进行空间与通道维度上的融合,从而使模型更加聚焦于肿瘤特征的学习。该模块结构如图3所示。

图3 MLFA模块结构

在MLFA模块中,包含空间注意力模块(SAM)和通道注意力模块(CAM)两个部分。首先,将浅层特征图FL∈RC×H×W和深层特征图FH∈RC×H×W共同输入SAM,得到空间级特征图FS∈RC×H×W,突出浅层特征的感兴趣区域,弱化不相关的背景区域。同时,将FH输入CAM,对通道特征进行动态权重分配,表达深层特征不同通道的重要程度,得出通道级特征图FC∈RC×H×W。最后,将两个模块的输出的特征图相加进行融合,得到输出特征图Fout。

2.3.1 空间注意力模块

在SAM中,首先,将FL与经过上采样后的FH分别通过一个1×1卷积进行相加融合。然后,经过一个ReLU激活函数和一个1×1卷积,将通道数降为1。此时,特征图中的每一个像素都是该像素在全部通道方向上的一个特征值。最后,对特征图进行Softmax操作,生成注意力权重图Fα∈R1×H×W,再与FL相乘,即可得到空间级特征图FS。空间注意力可由公式(1)和(2)表示:

Fα=σ1(Conv1×1(σ0(Conv1×1(FL)+

Conv1×1(FH))))

(1)

Fs=FL×Fα

(2)

其中,Convi×i(·)代表卷积操作,i代表卷积核大小;σ0为ReLU激活函数;σ1为Softmax激活函数。以下公式参数同式(1)。

2.3.2 通道注意力模块

深层特征包含丰富语义特征的同时分辨率较低,因此采用通道注意力,使模型更关注特征的通道信息。首先,使用卷积核大小为3×3、扩张率各为1和2的两个扩张卷积分支对输入的特征图进行分裂,得到两个具有不同感受野大小的特征图Fr1∈RC×H×W和Fr2∈RC×H×W,如公式(3)所示:

(3)

其中,Convi×i,r(·)代表扩张卷积操作,i代表卷积核大小,r代表扩张率。

然后,将两个特征图进行相加融合,再进行全局平均池化(gap)操作,得到具有全局感受野的特征。通过一个缩减维度的全连接(fc)提取特征,得到压缩后的特征z∈Rd×1,如公式(4)所示:

z=w0(gap(Fr1+Fr2))

(4)

其中,w0∈Rd×C代表全连接的权值,d代表输出维度。

最后,根据不同感受野的特征聚合信息,通过softmax函数产生两个权值,分别映射到Fr1和Fr2各自的对应通道,同时将Fr1和Fr2分别与两个权值相乘。最终,将各自通道上的特征图进行相加,得到对通道信息动态选择后的特征图Fc,可由公式(5)表示:

Fc=Fr1×σ1(z)+Fr2×σ1(z)

(5)

MLFA模块的最终输出结果Fout如公式(6)所示:

Fout=Fs+Fc

(6)

3 实验

3.1 数据集与预处理

实验超声乳腺肿瘤数据集共有791幅,来自两个公开的超声乳腺数据集UDIAT[22]和Dataset BUSI[23]。UDIAT中包含163幅超声影像,其中110幅是良性肿瘤,53幅是恶性肿瘤,平均图像大小为760×570像素。BUSI收集了628幅20～75岁女性的超声乳腺肿瘤影像,其中包含419幅良性肿瘤和209幅恶性肿瘤,平均图像大小为500×500像素。两个数据集中的所有样本均有一个病灶,且都带有手工标注的分割标签。

为了平衡数据集的良恶性分布,该文对两个数据集进行混合分类处理。将二者混合后按7∶1∶2的比例随机划分成训练集554张、验证集79张、测试集158张,其中良性与恶性肿瘤分布均以2∶1的比例保持不变。在实验中,图像尺寸统一设置为128×128大小。

3.2 评价指标

采用Dice系数、IoU、Precision和Recall作为评估分割模型性能的指标,计算公式分别如下:

(7)

(8)

(9)

(10)

其中,TP代表被正确分割的肿瘤区域,FP代表被误分割为肿瘤的背景区域,FN代表被误分割为背景的肿瘤区域。Dice系数是统计中衡量二元分类模型精度的指标,值越接近1,分割结果越准确。IoU是比较有限样本集之间相似性和差异性的指标,值越大,相似性越高。Recall反映所有真实样本中预测为正样本的比例。Precision反映所有分割结果中预测为正的比例。这些客观评价指标对医生进行乳腺癌的病理诊断具有很好的分析价值。

另外,采用FLOPs作为评估模型复杂度的评价指标。FLOPs为浮点运算次数,用于衡量模型的计算量。

3.3 模型训练

使用Python环境下的Pytorch深度学习框架,构建网络模型并完成实验。服务器硬件配置为Intel(R)Core(TM)i9-9900K CPU @ 3.60 GHz,GPU 显卡配置为Nvidia GeForce RTX 2080,操作系统为Ubuntu 18.04。实验中使用he normal初始化网络参数,batch_size为8,epoch为100。模型优化器为Adam。初始学习率为0.001,采用多步长衰减策略进行衰减。损失函数使用Dice Loss[24],其适用于目标尺寸变化较大的图像分割,并在训练过程中对难以学习的样本进行有针对性的优化,从而缓解样本分布不均衡带来的负面影响,提升模型的性能。该损失函数如式(11)所示:

Diceloss(P,M)=1-Dice(P,M)=

(11)

其中,P代表模型分割的预测像素值,M代表签像素值。

为了减少过拟合,并在有限训练样本数量下进行分割,对训练集所有样本进行数据增强,包含以50%的概率进行水平翻转、竖直翻转以及仿射变换等操作,增强后的训练集扩充至原来的十倍。训练过程中使用相同的参数设置,同时通过验证集对结果进行监督,并取在验证集上损失最小的模型作为分割模型进行测试。

3.4 实验结果与分析

为了验证ResNet-34提取特征的能力,在U-Net的编码部分使用层数不同的ResNet模型进行对比实验。结果如表2所示,使用ResNet-34得出的分割结果要优于使用ResNet-18与ResNet-50得出的结果。

表2 ResNet模型的对比结果

另外,为了验证文中所提的注意力机制的有效性,将两个结合通道注意力和空间注意力的模块CBAM[25]和SCSE[26]分别添加到U-Net的跳跃连接部分,与MLFA模块进行对比。表3为三种注意力机制的对比实验结果,MLFA模块在各项指标上均优于CBAM和SCSE,证明了文中多层融合注意力机制的有效性。

表3 注意力机制的对比结果

将改进模型与U-Net[9]、UNet++[12]、Attention U-Net[15](A-U-Net)、SK-U-Net[19]和RDAU-Net[14]五种分割网络模型进行对比实验,结果如表4所示。与对比模型相比,文中模型在五项指标上均有不同程度的提高。相较于其中效果最好的Attention U-Net,文中模型在Dice、IoU、Recall和Precision上分别提升了2.41、2.51、1.67以及2.16百分点。同时,文中模型的FLOPs为3.05G,较Attention U-Net减少了40%,说明文中模型在算法复杂度上具有较大优势。

表4 不同模型在指标上的分割结果

总体来说,文中模型在保证准确性的同时,在性能上也取得了较好的表现。

图4为文中模型的分割可视化效果对比。其中,图(a)是测试集中的4幅受散斑噪声干扰较大的原始超声乳腺肿瘤图像,图(b)是图(a)对应的标签图像。对于肿瘤边界较为明显的乳腺超声图像,例如第1幅图,五种模型均能划分出肿瘤的大致区域。其中SK-U-Net、RDAU-Net与文中模型在分割结果明显更接近于标签图像。但对于边缘复杂或者小目标的乳腺肿瘤区域,例如第4幅图,由于周边干扰因素较大,对比模型均存在将部分易混淆的背景区域误分割为肿瘤区域的情况。可以直观看出,文中模型较其他模型分割效果较好,对于小目标以及噪声干扰大的超声图像鲁棒性更强,在分割肿瘤边缘较复杂的超声图像时更接近标签图像。

图4 不同模型的分割结果对比

4 结束语

针对超声乳腺肿瘤图像中散斑噪声较大、肿瘤边缘模糊以及形状复杂等问题,基于U-Net提出了一种多层融合注意力的分割方法。在保持U-Net对称结构的基础之上,在编码部分引入预训练模型ResNet-34,对输入的图像特征进行提取。同时,在跳跃连接部分引入MLFA模块,通过混合注意力机制对图像的深层特征和浅层特征进行自适应融合与增强,进一步提升了网络的分割性能。通过实验证明,该方法较其他已有方法抗噪声干扰更强,对于不同尺寸、边缘复杂的乳腺肿瘤都有较好的分割效果,分割结果的精度得到了有效提高。在未来的研究工作中,将着重结合改进的损失函数提出更高效的分割网络,以实现更高精度的超声乳腺肿瘤图像的自动分割。