基于改进的DeepLabV3+肺实质分割网络

2023-08-26 08:37尹强彭刚宋文广曾威
电脑知识与技术 2023年20期
关键词:深度学习

尹强 彭刚 宋文广 曾威

关键词:语义分割;深度学习;MobileNetV2;DeepLabV3+;肺实质分割

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2023)20-0001-07

0 引言

肺癌是常见的恶性肿瘤之一,我国肺癌无论在发病率还是死亡率上都超过了世界平均水平[1]。因此,肺癌的早期筛查是改善生存和预防的最有效手段[2]。临床上使用最普遍的肺癌医学检查手段[3]是CT(Com?puted Tomography)、MRI(Magnetic Resonance Imaging)、PET(Positron Emission Computed Tomography)、CXR(Chest X Ray),其中CXR已被广泛证明可以在早期阶段显示病理结果。相较于CT,CXR因为其低成本、低辐射等优势,被大多数人所接受[4]。在肺癌的筛查和诊治中,排除无关主体的干扰,将肺实质从图像中分割出来是最初始和关键的阶段[5],它是后续任务的预处理步骤[6]。

传统的医学图像分割方法主要包括基于阈值、区域生长、聚类、数学形态学等方法[6-7]。这些方法普遍存在过度依赖人手工特征提取、效率低下、准确度低等问题。相较于传统分割方法,深度卷积神经网络(DCNN) 拥有自学习优势且无须进行手动特征提取,节省了大量人力物力成本,效果更好,因此被广泛地应用在CAD(Computer-Aided Diagnosis) 辅助诊断领域[8]。Long等人[9]提出的FCN全卷积神经网络开启了深度学习的语义分割时代。但因为过大的上采样,图片丢失了大量的细节信息,分割结果平滑且模糊[3]。Ronneberger等人[10]提出了對称编解码网络U-Net,通过编码部分获取高层的语义信息,解码部分通过跳跃连接融合浅层的空间维度和像素位置信息,实现高层语义信息和浅层空间位置信息融合,提升分割效果,即使训练少量的数据就可以获得良好的鲁棒性[5]。而医学分割任务中因为图像稀缺、标注成本高等原因,U-Net 被广泛应用于医学领域的图像分割任务。Skourt等人[11]将其应用在肺部CT图像分割中,取得了95%的Dice score。Zhang等人[12]结合多尺度残差结构和密集连接,改进U-Net结构,在肺部分割中获得了98%的Dice score。为了解决过大的下采样压缩图像造成图像边缘轮廓信息损失,O Gómez等人[13]通过改进U-Net结构,加入了胸部X光分割技术中几乎不使用的空洞卷积和实例归一化操作,在JSRT数据集上对肺部、心脏、锁骨进行分割,并取得了较好的结果。基于U-Net改进的网络结构普遍存在忽视目标物体的多尺度信息、无法分辨特征的重要程度、存在大量的参数和网络训练时间长等问题。

在一些移动设备和嵌入式设备应用场景中,复杂而又庞大的模型占用内存大,存在部署过程中内存不足的问题,难以被实际应用。因此,针对庞大的网络参数,轻量级CNN 网络Mo?bileNet[14-16]系列被提出,深度可分离卷积的应用,在保证准确度的情况下,显著减少参数量,加速网络训练过程。因为其小巧且高效,被广泛应用于移动端或嵌入式设备中。针对目标物体的多尺度和对称语义算法忽略像素空间一致性的问题,Chen等人[17]提出了DeepLabV3 网络,空洞空间金字塔池化(ASPP)的使用,同时兼顾捕捉不同大小的尺度信息,解决了物体的多尺度分割和像素空间一致性问题,但无法弥补连续下采样导致的边界信息损失。Deep?LabV3+[18]通过在DeepLabV3的基础上增加一个解码器部分,引入低层边界信息,弥补边界损失,提升分割效果。为了捕获和理解不同特征图的通道和空间重要信息,基于通道和空间的注意力机制被广泛应用到网络中。郭宁等人[19]基于U-Net网络架构,在网络中解码部分引入注意力机制来凸显目标区域,以抑制背景像素的干扰,在LUNA 数据集上获得了较好的结果。 燕杨等人[20]将注意力机制应用在U-Net网络中,对视网膜血管进行分类,实现了视网膜A/V的精准分类。

基于上述关联研究,为了同时兼顾轻量化和高准确率,本文采用MobileNetV2[15] 代替原来的Deep?LabV3+中的Xception作为骨干网络进行特征提取,降低模型的复杂度和参数量;通过级联ASPP 模块和PPM模块,充分提取全局上下文信息。为了最大限度地利用不同层级的特征信息以及对丢失边界信息的补偿,在网络的解码过程中,充分融合高层和浅层的特征信息。同时,为了突出特征图中不同通道和空间的重要性,加入相应的注意力机制模块,融合后得到更加准确的分割结果。最后,为了平衡数据集中假阴性和假阳性的比例,引入Tversky损失函数,提高肺实质分割的敏感度和分割的准确率。

1 模型构建

1.1 改进的DeepLabv3+网络结构

1) 编码部分改进

首先将编码部分的骨干特征提取网络改为轻量级的MobileNetV2[15],将编码部分末端的ASPP模块中三个不同扩张率的扩张卷积改为深度可分扩张卷积,在充分提取特征和基本不损失精度的情况下,极大地减少模型的参数量,提高网络模型训练的效率。同时,为了更大限度地提取全局信息,通过并联PPM模块,采用不同的池化核大小进行全局上下文语义信息提取,最后将二者提取的全局信息进行融合,获取丰富的全局语义信息,具体的改进结构如图1所示。

编码改进部分具体操作如下:首先,将下采样16 倍的高层特征图分别送入改进的ASPP模块和PPM模块中,网络输出两个不同通道数的feature map,采用1×1卷积分别对这两个通道进行通道调整,然后将调整后的两个特征图拼接,降维并进行特征融合,得到高层丰富的语义特征信息。

2) 解码部分改进

原始的DeepLabv3+的解码部分只利用了下采样4次的特征图信息,导致信息大量丢失和无法充分利用,因此,为了弥补浅层信息的损失并充分利用高浅层信息,横纵向通过借鉴U-Net的跳跃连接结构,形成横纵向跳跃连接结构,充分融合深浅层的特征信息。该结构在获取丰富语义信息的基础上,极大程度减少边界位置信息损失,提升分割的精度。

解码改进部分具体操作如下:首先融合骨干网络下采样1/4、1/8、1/16得到的特征图,得到一个中间特征层。具体操作步骤是:将下采样16倍的特征图加入通道注意力机制,上采样两倍后,与加入空间注意力机制的下采样8倍的特征图进行拼接,并采用3×3深度可分离卷积对拼接的特征图进行通道和空间上信息的融合。随后再将下采样4倍的特征图加入空间注意力机制,为了不削弱高层语义特征信息同时,丰富浅层空间位置信息,采用1×1的卷积将通道升维后,使用3×3深度可分卷积融合上面上采样2倍的特征层,完成信息融合。至此,得到了一个拥有高层和次高层语义和位置信息的中间特征层。纵向特征信息拼接融合完成后,再横向拼接来自ASPP和PPM提取的高层丰富语义信息,使用3×3深度可分离卷积进行特征融合。相较原来横向只融合下采样4倍的特征层来说,这样更加有效地利用了不同层级的特征信息,增强了像素之间的关联性,让分割效果更加准确。

为了更好地弥补浅层位置信息损失,在解码部分完成首次横向跳跃连接后,再次融合下采样2倍的特征层。对该特征层加入空间注意力机制、调整通道为原来的两倍,上面的融合特征层上采样2倍,利用深度可分离卷积融合特征并调整通道,充分融合高层语义信息和浅层空间位置信息。最后通过调整输出特征图的尺寸和通道,得到预测结果。具体的改进结构如图2所示。

1.2 主干特征提取网络

在MobileNetV2中,延续使用了深度可分离卷积,在保证准确率的情况下,降低模型参数,加速网络的训练过程。由于深度可分离卷积中的DW卷积输出结果的通道数和原通道数保持一致,而当通道数较低时,无法充分提取特征信息且卷积核的参数大部分为0,因此MobileNetV2采用倒残差结构。首先提升输入特征图的维度并使用ReLU6进行特征非线性化处理,随后采用3×3的DW卷积和ReLU6激活函数充分提取特征和对特征进行非线性化处理,最后通过1×1卷积进行特征融合和降维。为了避免非线性激活函数对低维特征信息的影响[14],结构最后改用线性激活函数进行激活(线性瓶颈结构)输出,大量的倒残差结构结合深度可分离卷积,极大地降低了模型复杂度,让模型更加轻量。

1.3 空洞卷积

空洞卷积的提出是为了解决传统图像分割时,为了获取更大的感受野,连续使用下采样或大尺度的卷积核来提取特征,导致特征图尺寸下降过大,损失边界信息,从而影响分割效果的问题。在普通卷积的基础上,根据不同的扩张率在参数间注入空洞(填充0),扩大了卷积核的尺寸,增大了感受野,无须学习新的参数,维持了特征图的分辨率。

k表示空洞卷积核的大小,k′表示等效普通卷积核大小,d 为扩张因子,Si 表示前面层步长的乘积。通過分析可以得出,步长和卷积核的大小越大,网络就会拥有更大的感受野。基于此,空洞卷积通过注入参数0的方式增大了卷积核的尺寸,从而让网络整体感受野得到提升。因此对于语义分割中频繁的下采样损失空间位置信息来说,空洞卷积是一种很好的解决办法。为此,在ASPP结构中,通过将不同扩张率的扩张卷积并联,可以同时提取不同尺度的信息,让分割结果更加准确和高效。

1.4 深度可分离卷积

深度可分离卷积(Depthwise Separable Con?volution)分为两个阶段,首先对特征图进行通道层面的特征提取,然后在第一步的基础上进行特征融合。前者实现了空间相关性的映射,后者实现了跨通道相关性的映射。

同样是输入图像为H×W×C 的特征图,普通卷积图5(a) 所需参数量为 H1×W1×C×3,对于深度可分离卷积图5(b) ,参数量仅为(H1×W1×C+1×1×C×3),参数量大约为传统卷积的1/3。深度可分离卷积使用更少的参数进行学习,并可以达到类似普通卷积的效果,大大地降低了模型的复杂度。

1.5 注意力模块

在计算机视觉中,注意力机制和人脑处理信息类似,将注意力聚焦到重要区域,排除无关主题干扰,从而将算力资源聚焦到重要的位置区域[21]。一般而言,注意力机制通常分为通道注意力(Channel Attention)机制、空间注意力(Spatial Attention)机制以及二者结合的混合通道和空间的注意力机制[22](CBAM)。

CAM(通道注意力模块),关注的是特征的类型。从全局出发,提取重要特征。对输入特征图(H×W×C) 的每个通道进行最大和平均池化得到两个不同的特征描述(1×1×C),接着,分别送入两个共享的全连接层,一个神经元个数为C/r,另一个神经元个数为C,完成两次全连接后进行加和操作,然后经过Sigmoid 激活函数得到权重系数,其值在0~1,代表不同通道的重要程度。最后对每个通道乘积得到的权值,得到全新的特征。在本文模型中,对于高层的特征图采用通道注意力机制,突出重要全局特征信息,具体操作流程如图4(a)所示。

SAM(空间注意力模块),关注的是特征的位置。从局部出发,在特征矩阵中选择有意义的特征。同样是对输入特征图进行两个池化操作,得到两个不同的特征图(H×W×1)描述,将两个特征进行拼接后,经过卷积操作和对特征进行非线性激活后得到权重系数,最后对原特征矩阵赋予相应的权重,得到全新的特征。在实验中,对浅层特征图采用空间注意力机制,突出局部重要特征,具体的操作流程如图4(b) 所示。

2 实验结果与分析

2.1 实验环境

实验在Linux 服务器下进行,具体配置如表1 所示。

2.2 实验数据和预处理实验数据集来自日本放射线技术协会开源的标准数字图像数据库(JSRT[23]数据集)。该数据集由247张图像组成,图片的尺寸为2 048×2 048,位深度为24,格式为.IMG,其中包括154肺结节图片和93张无肺结节图片。肺部图像对应的掩膜图像(Ground Truth)来自SCR[24]database,它提供了胸部X光中各解剖结构(肺部、心脏、锁骨)对应的掩膜图像,分辨率为1 024×1024。为了提升分割效果,在分割前对图像进行预处理和数据增强操作,这里主要使用的预处理方法为:图像格式转换、图像分辨率调整、图像滤波以及图像对比度调整,最后在此基础上对图像进行增强处理。

首先,对数据格式和分辨率进行调整,将原图和标签的分辨率调整为512×512,位深度为8、模式为L 的.png格式图片,方便网络进行训练。其次,对图像进行滤波处理,由于X光的颗粒噪声分布服从高斯分布,因此利用高斯滤波对图片进行滤波处理,减少噪声对识别主体的干扰。为了更好地突出主体和背景,增加对比度,抑制噪声,采用限制对比度的自适应直方图均衡法(CLAHE) 对原图进行变换处理,相应处理后的图像如图5 所示。

為了让模型更具备泛化性,对原始的数据集分别进行水平、垂直镜像翻转以及水平左右随机旋转5°处理,经过处理过后的图片数量会变成原来的4倍,增强数据如图6 所示。数据增强[25]后,按照6:2:2的比例,将增强数据集随机划分为训练集、验证集和测试集。训练时设置初始学习率为1e-3,batch-size为4,一共训练60个epoch,采用Adam优化器对网络参数进行更新。

2.3 评价指标

实验中采用不同的评价指标在数据集的验证集上进行评价。包括骰子系数(DSC)、交并比(IoU)、灵敏度(SE)和准确率(ACC)指标,计算公式如下。

式中,p 代表预测的值,g 代表真实值,通过设置超参数α 和β 的值来调整二者的权重。为了更好地抑制假阴性,在网络训练中,β 取0.7,α取0.3。

2.5 对比分析

1) 不同损失函数对比分析

为了验证TverskyLoss 对假阴性的抑制效果,实验分别采用BCELoss和TverskyLoss函数进行实验,实验结果如表2所示。

由表2分析可以看出,当使用Tversky作为损失函数时,在其他指标接近的情况下,显著地提高模型的灵敏度,肺实质分割的效果更好。因此,本文采用Tversky作为模型的损失函数。

网络训练稳定后,训练集、验证集的训练损失、准确率如图7、图8所示。

2) 不同卷积模块对比分析

为了验证深度可分离扩张卷积在基本不影响结果精度的情况下,显著减少模型参数、加速网络训练的效果,在原始的MobileNetV2 骨干网络中,将ASPP 中并联的扩张卷积改为深度可分离扩张卷积在相同实验环境下进行实验,实验结果如表3所示。

通过分析可知,在ASPP模块中使用深度可分离空洞卷积后,模型参数变为原来的64.2%,训练时间缩短了5%,整体IoU相比原来仅降低了0.31%。由此可得出,深度可分离卷积在基本不损失精度的情况下,显著减少了模型参数,加速了模型的训练学习的过程。

3) 不同模块消融实验对比分析

因此,为了验证改进的MobileNetV2 模块并联PPM模块、加入注意力机制、融合多跳跃连接的有效性,在ASPP模块中并联扩张卷积为深度可分离扩张卷积的实验条件下,进行消融实验,实验结果如表4 所示。

通过比较分析表中第2、3、4和最后一行,可以得出,注意力机制和多跳跃连接、融合PPM模块可以使网络分割效率分别提升0.29%、0.29%、0.22%。对比第一行和最后一行,可以得出,同时加入这三个改进可以使网络分割准确率提高0.76%,模型的分割效果最好。同时,由于改进模块中深度可分离卷积的应用,模型的参数量相较未加入这些模块的网络参数量降低了15%。由此可见,将PPM模块、注意力机制和多跳跃连接应用到本文模型中,不仅能够降低模型的参数量,还能充分提取全局信息、融合更多特征信息,提升网络的分割效果,保证图像分割的完整性。

4) 不同骨干网络对比分析

为了验证DeepLabv3+在不同骨干网络上的表现效果,分别使用ResNet-50、Xception和改进的Mobile?NetV2作为骨干特征提取网络在相同实验条件下进行测试,分别验证它们在数据集的验证集上的交并比、模型参数量和推理时间性能指标,实验结果如表5 所示。

对于ResNet-50和Xception作为主干特征提取网络的DeepLabV3+网络来说,它们的参数量庞大,且效果没有所提算法好。在推理时间上,所提算法与它们接近。测试结果表明,所改进的网络在分割效果、参数量和推理时间上达到了很好的平衡。

5) 不同分割算法对比分析

为了验证本文所提算法的优势,在相同的实验环境下将本文算法与三种不同的分割算法进行对比实验,分别在数据集的验证集上对4个分割网络的IoU 指标和模型的参数量进行评估,实验结果如表6所示。

从表6 中可以看出,所提算法相较原始Deep?LabV3+网络,在参数仅有其6%的基础上,在验证集上的交并比提升了0.17%;相较于早期的FCN-8s来说,所提算法参数小且IoU提升了4.47%;对比U-Net,IoU 有了0.65% 的提升,且参数量只有其1/10 左右。由此可见,所提的算法在保证分割精度的情况下,极大地降低了模型的参数量,分割效果表现更好。

2.6 不同分割算法分割效果

不同分割算法在JSRT验证集上的分割效果如图9 所示。

从图9可以看到,FCN-8s由于过大的上采样导致丢失了很多边界位置信息,对边界位置的识别不够准确,同时存在比较明显的误分割问题。对于U-Net来说,它可以比较准确地识别出边界位置信息,但相较于DeepLabV3+原始网络和改进算法而言,对整体语义信息把握不太准确。相较于原始的DeepLabV3+网络而言,本文提出的算法对边界信息的处理更准确,同时分割效果也更好。

3 结论

本文提出了一种改进的DeepLabV3+网络,使用MobileNetV2作为骨干特征提取网络,将编码部分的ASPP模块中并联的扩张卷积改为深度可分离扩张卷积,同时并联ASPP模块,丰富语义信息提取、减少模型参数量,让网络更加轻量。在解码部分,通过加入注意力机制和跳跃连接,突出不同特征的重要性、融合不同层次的特征信息,提升分割效果。采用Tversky 损失函数平衡了在分割过程中假阴性和假阳性的比例,提高了模型的灵敏度。该算法在JSRT验证集上的IoU达到94.37%,模型参数量仅有12.4MB,更容易部署到移动端。后续工作就是在本文算法分割的基础上,进行肺部结节的识别和检测工作。

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
构建“单元整合、主题牵引”诗歌鉴赏“深度学习”课堂的策略