高钟宇,禹 龙,田生伟,吴卫东,张德志
(1.新疆大学 软件学院,新疆 乌鲁木齐 830091;2.新疆大学 网络中心,新疆 乌鲁木齐 830046;3.新疆维吾尔自治区人民医院,新疆 乌鲁木齐 830000)
全卷积神经网络在医学图像分类、分割和检测方面表现出卓越的性能.其中具有编码解码结构的U-Net[1]网络在医学图像处理方面表现出色,多种基于U-Net[1]网络结构的变体网络也都在此基础上获得了性能提升.Fu等[2]改进网络监督策略,提出多尺度深度监督策略用于U型网络的训练,提升了网络训练效果.CE-Net[3]将密集空洞卷积(DAC)和剩余多核池(RMP)集成到U-Net结构中,从而获取到更多具有高级特征的上下文信息.R2Unet[4]使用残差循环卷积模块替换U-Net中基础卷积模块,提升了网络特征提取的能力.U-Net++[5]通过在编码器和解码器之间引入嵌套、密集的跳跃路径序列,来解决编码器和解码器之间的语义鸿沟问题.尽管这些工作都取得了不错的结果,但仍存在着下述问题:现有的模型中多尺度特征提取、融合多集中在模块内部,对于多尺度通道融合的方法研究较少.单模态数据通常使用单通道模型进行处理,这不仅要求单通道模型对多尺度信息敏感,而且模型设计是一个巨大的挑战.受启发于Transform[6]中并行多通道模式,本文构建了多通道网络,将复杂的分割任务进行拆解,使单通道处理工作分摊到多通道中进行,不仅使各通道处理任务时更加专一,而且可以获得更多的不同尺度的特征表示.对比单通道模型,多通道模型在每个通道之中都可以产生丰富的尺度特征.通过将不同通道中的多尺度特征进行结合,可以克服单通道成像技术的局限性.
为了解决上述问题,本文设计了一种自适应动态卷积模块(Dynamic Selective Kernel Module,DSC)来构建多通道并行U型网络.DSC模块具有两种模式:发散模式(Dynamic Selective Kernel Module Branch Model,DSC BM)与集束模式(Dynamic Selective Kernel Module Aggregation Model,DSCAM).在网络编码阶段通过DSCBM模块提取输入特征中不同尺度的特征信息,再将相应尺度信息发送到对应通道中进行处理,从而形成不同尺度的处理通道.在解码阶段通过逐层收集这些不同尺度通道中所产生的低维特征与上采样得到的高维语义特征,通过DSC AM模块逐级解码,完成语义分割.
所设计的多通道并行U型网络(MCPU-Net)的网络架构如图1所示.MCPU-Net遵循U-Net[1]的编码解码结构,主要由编码阶段与解码阶段组成.在编码阶段内部,网络通过多通道逐层卷积将输入图片编码成高维特征,解码阶段利用这些高维特征通过逐层解码生成像素级的分割掩码.同时,通过引入跳跃连接将浅层的语义特征输送到后续层中补充因多层卷积而丢失的细节信息.因此,网络结构主要由两个部分组成:3个并行的4级编码器和5个解码器,共9个阶段,每个阶段都使用DSC BM或DSC AM进行填充.
图1 网络总体架构
动态卷积模块由三个部分组成:多路分裂、压缩和选择分散或选择聚合.多路分裂操作将输入特征映射到不同核大小的路径,这些路径由不同大小的卷积核处理得到.压缩操作将这些不同路径的信息进行聚合,获得具有全局信息的特征表示.选择分散或选择聚合操作根据所获得的全局特征进行分散或聚合不同大小内核处理得到的特征图.为了叙述方便,在1.2.1节与1.2.2节使用双分支结构举例说明,所设计的动态卷积模块很容易扩展到多分支情况.
1.2.1 动态卷积-发散模式(SC_BM)
在发散模式中主要将输入特征拆解为不同尺度的特征信息,再输送到相应通道中进行处理,具体过程如图2所示.
图2 动态卷积-发散模式
多路分裂:对给定的输入特征X∈RW×H×C,通过F 1与F 2操作F 1:X→X1∈RW×H×C、F 2:X→X2∈RW×H×C得到特征X1与X2.F 1、F 2操作由分组卷积、BatchNorm和ReLU操作组成.分组卷积的卷积核都为扩张卷积,卷积核大小为3,扩张率为2i(i=0,2,4···).通过这种方式得到2个不同尺度的特征图X1与X2.
压缩操作:为使模块具有拆解功能,需要汇总所有分支中的特征信息生成全局信息,使用全局信息来指导对各路径中特征的加强操作.具体过程如下:首先,通过逐元素相加操作F 3融合各分支的结果得到特征X3.
其次,通过全局平均池化操作生成各分支的信道级统计数据作为各分支的全局信息X1→Xavg1∈R1×1×C、X2→Xavg2∈R1×1×C、X3→Xavg3∈R1×1×C.Xavg中第C个元素的计算方法是通过计算Xavg中第C个通道上所有W×H个值的平均值得到的:
将得到的特征Xavg1、Xavg2和Xavg3在W维度上进行合并得到特征Favg,并用卷积核大小为(3×1)的卷积对其处理得到特征S:
式中:Conv表示卷积核为(k×1)大小的卷积操作,k为分支个数,Cont表示在W维度上进行合并操作.
最后,通过使用Z∈R1×1×L特征来更精确地指导模块进行选择性强化.计算方法如下:
式中:δ是ReLU操作,β是BatchNorm操作,f c表示全连接操作.模块对于维度缩放比例进行了控制,L表示输出通道数,由以下方法计算得到:
式中:C表示输入的通道数,k表示分支个数,d默认为32.
选择分散:在全局特征Z的引导下,通过一个跨通道的软注意力来选择性地强化不同路径中的特征.具体方法为:Z特征通过全连接操作得到描述各分支特征的注意力图A,B∈R1×1×C,并对得到的每个注意力图在通道方向上使用了Softmax运算.
式中:f c表示全连接操作,a与b为经过Sof tmax运算的分别描述F 1与F2的注意力特征图.Ac与Bc表示的是在通道方向上A特征的第c个数值和在通道方向上B特征的第c个数值,在双分支的情况下ac+bc=1.特征图Fout1与Fout2是F 1与F2通过和各自的注意力特征图a与b逐元素相乘得到的:
式中:Fout1=[Fout11,···,Fout1C],Fout2=[Fout21,···,Fout2C],{Fout1c,Fout2c}∈RW×H,“×”表示逐元素相乘.
1.2.2 动态卷积-集束模式(SC_AM)
集束模式主要用来调整卷积模块的感受野大小,其中多路分裂、压缩操作与SC_BM类似.通过多路分裂获取具有不同频射大小的特征图,再通过压缩操作获取关于所有分支的全局信息,最后通过选择聚合将不同分支中的特征图非线性地聚合在一起.由于多路分裂与压缩操作与SC_BM相同,这里只介绍选择聚合操作,如图3所示.
图3 动态卷积-集束模式
选择聚合:由Z特征通过全连接操作得到描述各分支的注意力图A,B∈R1×1×C.在多分支的情况下,多路获取的特征之间存在冗余,通过跨通道的软注意力来适应性地选择不同分支中的信息进行融合.对得到的每个注意力图在通道方向上使用了Sof tmax运算.
式中:f c为全连接操作,a与b为经过Softmax运算的分别描述F 1与F 2的注意力特征图.Ac与Bc表示的是在通道方向上A特征的第c个数值和在通道方向上B特征的第c个数值,在双分支的情况下ac+bc=1.特征图Fout1与Fout2是F1与F 2通过和各自的注意力特征图a与b逐元素相乘得到的,最后将Fout1与Fout2逐元素相加得到Fout:
式中:Fout=[Fout1,Fout2,···,Foutc],Foutc∈RW×H,“+”表示逐元素相加.
医学图像数据中病变区域的尺寸可能存在极大的变化,因为数据的多样性,选择一个固定的卷积内核变来处理数据是不合适的.因此,本文选择IVD-Net[7]中扩展的卷积模块来获取全局信息与局部信息.通过在这种扩展的卷积模块之后串联所设计的动态卷积模块来实现自适应动态卷积模块.
1.3.1 自适应动态卷积-发散模式(DSC BM)
通过在扩展卷积模块之后串联SC_BM模块以实现自适应动态卷积-发散模式.如图4所示,对于任意输入特征X∈RW×H×C,首先,经过(3×3,dil=1)卷积操作,得到特征Conv1∈RW×H×C,3×3是指卷积核大小为3,dil=1是指卷积扩张率为1.其次,将得到的Conv1特征输入到多个并行的扩充卷积中分别进行运算得到不同尺度的特征.卷积模块的参数分别为(1×1,dil=1)、(3×3,dil=1)、(5×5,dil=1)、(3×3,dil=2)和(3×3,dil=4).然后将这些多尺度特征在通道方向进行合并得到Conv3∈RW×H×5C,并使用(1×1,dil=1)卷积对Conv3的通道进行压缩得到Conv4∈RW×H×C.将Conv4输入到SC_BM模块中得到分别描述不同尺度的信息特征Conv51,Conv52,Conv53∈RW×H×C.为了缓解因网络过深导致梯度消失的问题,在每个路径上都进行残差连接.将特征Conv1分别与每个路径中的特征Conv51,Conv52与Conv53逐元素相加得到Conv61,Conv62,Conv63∈RW×H×C.最后,将这些特征分别送到卷积(3×3,dil=1)中运算,得到各路径的输出特征Conv71,Conv72,Conv73∈RW×H×C.值得注意的是,在整个模块内部,除了合并操作使特征Conv3的通道数达到输入特征通道数的5倍,其余运算所得到的特征尺寸都与输入特征X∈RW×H×C的尺寸相同.各运算过程公式如下:
图4 自适应动态卷积-发散模式
式中:conv(N×N,dil=k)表示卷积操作,N表示卷积核大小,k表示扩张率,SC_BM表示动态卷积 发散模块,“+”表示逐元素相加.
1.3.2 自适应动态卷积-集束模式(DSC_AM)
通过在扩展卷积模块之后串联SC_AM模块以实现自适应动态卷积-集束模式,如图5所示.首先,通过与DSC_BM相同的方式获得特征Conv4,与之前不同的是使用SCAM来对Conv4进行处理,得到输出Conv5∈RW×H×C.然后,在此通道上使用残差结构得到Conv6∈RW×H×C,再经过卷积(3×3,dil=1),得到最终输出Conv7∈RW×H×C.
图5 自适应动态卷积-集束模式
式中:SC_AM表示动态卷积集束模块.
多尺度特征融合技术在语义分割领域运用十分频繁,因为不同尺度的特征对于不同尺寸的目标具有不同的敏感程度.具有大感受野的特征对于尺寸规模大的目标识别度更好,小感受野的特征对于小尺寸目标处理更精准[8−9].网络中处于不同深度的特征其抽象语义信息也是不同的,浅层特征注重提取纹理、颜色等细节信息,深层特征注重提取高级的语义信息[10].因此,充分利用不同深度的特征并将它们进一步融合处理,对于提高网络性能是十分必要的.本文设计了一种多通道并行网络架构,将传统的单通道特征提取过程扩展到多通道中进行.由于通道固有的深度与复杂的结构,可以很好地完成特征提取任务.通过使用DSC_BM模块将输入特征当中不同尺度的特征进行分流,从而减轻单一通道处理多尺度特征的压力,再将不同尺度的特征输入到相应的通道中进行处理,这样复杂的多尺度特征处理问题就转移到通道中进行解决.由于每个通道都只对同一种尺度的特征进行表示学习,通道的专一性与任务相关性就得到提升,从而会获得更加优秀的特征表达.最后将这些多尺度特征从各个通道中获取,在解码阶段与上采样特征融合以获取更准确的分割掩码.
1.4.1 网络编码阶段
如图6所示,网络编码部分划分为5个阶段.本文使用通道1来举例说明各阶段内模块的输入输出格式以及网络内部的连接方式.其余通道的输入输出格式以及内部连接方式与通道1类似.
图6 多通道并行架构
Stage1:输入为原始图片,使用Input表示.其中黄绿蓝表示三个不同尺度的通道.在通道1中输入Input经过DSC_BM模块得到3种不同尺度的特征,使用F 3、F 5和F 7表示,不同颜色代表所属不同模块.在阶段末尾收集在第一阶段内产生的3个F 3尺度的特征并用逐元素相加的方式进行组合.将组合后的特征使用最大池化(MP)操作进行处理作为本阶段通道1的输出.第一阶段内的各通道输出通用公式如下:
式中:Stage1-Out1th表示第一阶段通道1的输出,MP表示最大池化操作,F 3[N]表示来自通道N的F 3特征,N与通道数相同.值得注意的是,网络的通道数是由DSC BM模块分支数决定的,如果要构建多通道网络,就要使用对应分支数的DSC BM模块进行构建.
Stage2:通道1的输入为Stage1-Out1th,经过DSCBM模块后得到3个不同尺度的特征F 3、F5和F7.与上一阶段相似,收集本阶段内部所有的F 3特征进行逐元素相加.将相加后的特征与Stage1-Out1th在通道方向上进行合并,并将合并后的特征使用最大池化操作进行处理作为本阶段通道1的输出.第二阶段内的各通道输出通用公式如下:
式中:Cont表示在通道方向上进行合并.
Stage3:通道1的输入为Stage2-Out1th,与之前处理类似,Stage2-Out1th经过DSCBM模块后得到3个不同尺度的特征F3、F 5和F 7,收集相同尺度特征并进行逐元素相加,将相加后的特征与Stage2Out1th在通道方向上进行合并,最后将合并后的特征使用最大池化操作进行处理作为本阶段通道1的输出.第三阶段的各通道输出通用公式如下:
Stage4:通道1的输入为Stage3Out1th,本阶段主要将各通道获得的多尺度特征进行融合,故使用DSCAM对输入特征进行处理.将融合后的各多尺度特征T 1、T 2和T 3逐元素相加,并与上阶段各通道的输出特征在通道方向上进行合并,最后将合并后的特征使用最大池化操作进行处理作为本阶段的输出.第四阶段的输出通用公式如下:
Stage5:将Stage4Out输入到DSCAM模块中进行处理得到各尺度融合特征,并将其上采样作为本阶段的输出特征F 5.
1.4.2 网络解码阶段
解码阶段主要将编码阶段产生的各尺度特征进行收集,并通过逐层解码获得最终的分割掩码.本节以Stage6为例,举例说明第六阶段内的输入输出格式,其余阶段输入输出格式与Stage6类似.在Stage6中首先获取与解码阶段对应深度的编码阶段Stage4中各DSC AM模块输出特征F 4 3、F 4 5和F 47,然后将其逐元素相加后与Stage5阶段的输出F5在通道方向上进行合并,并将合并后的结果使用DSCAM模块处理,最后将处理后的特征进行上采样作为本阶段的输出.输入输出公式为:
式中:DSC AM表示DSCAM处理模块,UP为上采样操作.特别注意的是,由于在Stage7、Stage8和Stage9中,与之对应的编码阶段的处理模块为DSCBM,所以在获取多尺度特征时,需要先将DSCBM模块中各分支所有的输出特征进行相加作为本模块的输出特征,再将各通道特征进行融合.
本文在ISIC2017数据集上进行了实验[11],并对所提方法进行评估.通过与目前先进的网络模型进行比较,实验结果表明:MCPU-Net在ISIC2017数据集上具有更好的分割结果.在接下来的章节中,将首先对数据集和评估指标进行介绍.然后通过一系列的消融实验,验证所提出的动态卷积模块、多通道并行架构的有效性.最后与一些先进的网络模型进行比较,验证所提模型的有效性.
本文使用ISIC2017挑战数据集对模型进行训练和测试.该数据集取自2017年举办的Kaggle皮肤损伤分割竞赛.该数据集共由2 750张图像组成.包括2 000张训练图像、150张验证图像和600张测试图像.ISIC2017数据集中的所有皮肤镜图像已被皮肤科医生分类为良性痣、脂溢性角化病或黑色素瘤.此外,ISIC2017数据集提供了原始皮肤镜图像及其真实二值掩模,这些图像均由皮肤科医生手动标注.数据集中图像分辨率范围从540×722到4 499×6 748像素不等.由于医学皮肤镜图像的大小变化,大多数ISIC2017数据集的长宽比为3︰4.为了评估所提出的方法的性能,采用了ISIC推荐的几个指标,即准确性(Acc)、敏感性(SE)、特异性(SP)、Jaccard指数(JI)和骰子系数(Dice).它们的计算公式分别为:
式中:TP和FP分别代表真阳性和假阳性;TN和FN分别代表真阴性和假阴性.
本文通过PyTorch(深度学习框架)框架搭建所提模型,通过在NVIDIA Tesla V100 GPU上进行训练来实现所设计的方法.实验数据统一缩放至224×224大小,优化器选择Adam,学习率设置为2×10−4.同时,将批处理大小设置为5,并在网络末端采用多损失函数融合的方法(IoU loss+交叉熵混合损失函数).在被监测的指标没有进一步的显著变化之前(至少50个epoch),保存训练的最佳参数,并预测测试数据.最后,以0.5的阈值对所有预测结果进行阈值化.
2.3.1 自适应动态卷积模块消融实验
为了验证自适应动态卷积模块的有效性,通过构建具有不同通道数的MCPU-Net进行消融实验.由于MCPUNet中通道个数由DSC BM模块的分支数决定,所以在编码阶段使用DSC BM-2、DSC BM-3与DSCBM-4分别来构建2通道MCPU-Net-2网络、3通道MCPU-Net-3网络和4通道MCPU-Net-4网络的编码部分.在解码阶段由于使用DSCAM模块来融合多尺度特征,而DSCAM模块内部具有多分支结构,故也对其分支数进行了消融.使用DSCAM-1、DSC AM-2与DSC AM-3分别表示1分支DSC AM、2分支DSC AM和3分支DSCAM.将具有不同分支数的DSCBM与DSCAM模块进行组合构建具有不同通道数的MCPU-Net,并在ISIC2017数据集上进行实验,结果如表1所示.
表1 通道数与分支数消融对比
如表1所示,选择不同分支数的自适应动态卷积模块来构建网络,所获得的网络性能差异是明显的.通过增加自适应动态卷积模块的分支数,模型的性能呈上升趋势,并在使用DSC BM-3与DSCAM-3组合时JI指标达到最大.
固定DSCBM分支数时,DSC AM不同分支数对模型性能有不同程度的影响.如表1所示,DSCBM分支数固定的情况下,与DSCAM-1分支比较,随着分支数的增加,模型的JI指标分别增加0.005与0.008(DSC BM-2)、0.005与0.009(DSC BM-3)、0.003与0.008(DSC BM-4).这说明增加DSCAM模块的分支数,模型区分病变区域与正常皮肤的准确度得到提升.在DSCAM模块内部通过融合更大尺度的特征,使网络在空间维度上注意到跨度更大的像素点之间的联系,从而更好地区分病变与非病变区域.同时,对具有不同分支结构的MCPU-Net分割结果进行了可视化表示,以便直观地表现不同分支结构的组合对分割结果产生的影响.如图7所示,Image表示原始皮肤镜图片,GT表示对应分割标签,N-n表示使用DSC BM-N与DSCAM-n的组合所构建的MCPU-Net网络.如图7第3行3-1、3-2和3-3所示,随着DSCAM分支数的增加,模型对病变区域识别范围逐步扩大.通过增加DSC AM分支数,模型对病变区域的识别准确性得到提高,识别范围扩大.
固定DSC AM分支数时,随着DSCBM分支数的增加,模型的性能也在逐步上升,并在分支数为3时达到最大.在DSCAM分支数为3的情况下,使用DSC BM-3比DSC BM-2的模型JI指标增加0.007.在DSCAM分支数为2的情况下,使用DSCBM-3比DSC BM-2的模型JI指标增加0.006.在DSCAM分支数为1的情况下,使用DSCBM-3比DSC BM-2的模型JI指标增加0.006.这说明增加DSCBM模块的分支数,网络中不同尺度特征的数量增加,模型区分正负样本的准确性得到提升,这对于具有挑战性的数据集来说是必要的.如图7第1行2-1与3-1所示,增加DSCBM模块的分支数,模型在恢复分割边界时,将正常皮肤与病变区域难以区分的边界进行准确恢复.这是由于模型通道数不同,在解码阶段所融合的浅层特征的数量也是不同的.3-1通过融合更多的浅层细节信息,在恢复边界信息时比2-1更加准确.通过实验证明,本文设计的自适应动态卷积模块对网络性能的提升是有效的.
图7 消融模型实验结果
值得注意的是,自适应动态卷积模块的分支数并不是越多越好.将DSC BM模块的分支数扩展到4时,模型性能出现大幅下降,这可能是浅层信息中所包含的噪音导致的.模型通道数的增加导致在解码阶段引入更多的噪音,从而影响最终的分割结果.
2.3.2 网络架构消融实验与DSCAM对比实验
在多模态领域,多数网络同样使用具有多通道架构的网络来处理图像.例如HyperDense-Net[12]通过改变各通道输出数据顺序的方式来构建多通道网络,其方法如图8所示.为了将所提多通道网络架构与传统多通道网络架构进行比较,将使用HyperDense-Net的方式构建的网络与使用本文所设计的DSC BM模块构建的网络进行比较.由于使用DSC BM模块搭建网络会使网络中参数量增加,从而影响对比结果.为了降低干扰,本文使用HyperDense-Net的方式构建网络时,在编码阶段将DSC BM模块全部替换为DSCAM模块,所构建的网络记为HyNet,并将MCPU-Net网络中解码阶段的DSCAM模块全部去除,记为MCP-AM.实验结果表明:本文所提出的网络架构优于传统多通道网络架构.如表2所示,MCP-AM与HyNet相比,JI指标提高0.003,Acc指标提高0.002.为了进一步对网络架构进行对比,还将HyNet在解码阶段也插入DSC AM模块记为HyNet+AM,与MCPU-Net相比除了在编码阶段MCPU-Net使用DSC BM构建网络,HyNet+AM使用HyperDense-Net的方式构建网络之外,其余网络部分完全相同.由表2可知,MCPU-Net与HyNet+AM相比,JI指标提高0.005,Dice指标提高0.004,SE指标提高0.012.同时实验结果也证明了DSC AM模块的有效性,MCPU-Net网络去除DSCAM模块后,JI指标下降0.011,Acc指标下降0.003.HyNet+AM在去除DSCAM模块后,JI指标下降0.009,Acc指标下降0.006.
为了证明DSC AM模块可以方便地插入到网络中提高模型性能,将DSCAM模块、传统通道注意力模块、传统相关注意力模块、传统通道与相关注意力模块的组合分别插入到U-Net[13]网络所有的跳跃连接中,并分别记为U-Net+AM、U-Net+C、U-Net+R和U-Net+C+R进行比较,传统注意力模块结构如图8所示.结果如表2所示,所提出的DSCAM模块对于U-Net网络性能的提升是巨大的,U-Net网络在插入DSCAM模块后,JI指标提升0.020,Acc指标提升0.009,Dice指标提升0.015.与传统的注意力模块相比,U-Net网络插入DSCAM模块比插入传统的通道注意力模块在JI指标上提高0.005、Acc指标上提高0.006、Dice指标上提高0.003;插入DSC AM模块比插入传统相关注意力模块在JI指标上提高0.009、Acc指标上提高0.005、Dice指标上提高0.005;插入DSC AM模块比插入传统注意力模块与相关注意力模块的组合在JI指标上提高0.001、Dice指标上提高0.002.上述实验充分证明了本文所提出的网络架构与DSC AM模块的有效性.
表2 分支结构消融与DSC AM模块消融结果
图8 HyperDense-Net连接方式与传统注意力模块
2.3.3 不同分割模型对比实验
将MCPU-Net与现有的一些分割方法进行了比较,结果如表3所示.所评估的模型包括CENet[3]、DANet[14]、Deeplabv3+[9]、DoubleU-net[15]、HRNet[16]、Unet++[5]、PSPNet[17]、R2Unet[4]、ResUNet[4]、SCSEUNet[18]、Seg Net[19]和IVD-Net[7],所有的对比网络均参考了原论文的配置进行实现.此外,由于IVD-Net是多模态模型,在实验中为使模型能够训练,将各模态数据替换为多个相同的输入图片进行训练.
表3 与一些分割模型比较结果
如表3所示,以往的模型对于复杂度高和具有挑战性的数据集,如ISIC2017数据集并没有得到很好的分割效果.这些模型中CENet的JI指标达到0.760、Acc指标达到0.934,这是由于CENet使用了优秀的上下文提取模块,并且使用大量的跳跃连接为网络提供丰富浅层细节信息,这也证明了融合浅层信息的重要性.DANet通过使用双通道并行注意力模块跨空间建模像素之间的联系,有效解决局部感受野的问题,其JI指标达到0.761.R2Unet使用循环卷积模块作为基本的处理模块,并使用U-Net架构构建网络,其JI指标达到0.760.相比之下,MCPUNet不仅使用并行的多通道编码器为网络提供充足的浅层特征,而且使用DSC AM模块更好地融合这些特征,使所提模型在复杂和具有挑战性的ISIC2017数据集中取得最好的结果.
为了更好地展现网络的分割效果,本文将各网络的输出结果进行了可视化表示,如图9所示.Image为输入皮肤镜图像,GroundTruth为对应分割标签,其余列为不同模型分割结果.在这些分割模型中,CENet的分割结果与MCPU-Net十分相似,但是对病变区域的边界及中等大小目标的处理不如MCPU-Net,这可能与MCPUNet中引入更大感受野的卷积结构有关.在小目标处理上,DANet容易将与肤色相近的像素误认为病变区域(如图9第5行第5列),这可能是由于浅层信息不足,导致网络未能准确地对病变区域边界的阴性与阳性进行区分.在R2UNet模型中,由于自定义的高效处理模块,在正负样本差异大时表现良好,但在病变区域与正常皮肤区分度小的区域,病变区域的边界处理模糊.
图9 不同分割模型的分割结果
为了进一步对网络中各通道输出特征进行分析,将MCPU-Net编码部分中步骤2与步骤3的各分支输出特征进行了可视化表示,如图10所示.颜色亮度高代表激活数值大,颜色亮度低代表激活数值小.其中:第1列表示输入与预测结果,第2∼4列为第一通道中DSC BM各分支输出特征,第5∼7列为第二通道中DSCBM各分支输出特征,第8∼10列为第三通道中DSCBM各分支输出特征.
图10 特征图可视化结果
如图10所示,对比第1行中各通道输出特征图发现,第一通道各分支主要关注与任务相关的纹理信息,而第二、第三通道各分支主要对病变区域的边界信息感兴趣.对比第3行中各通道输出特征图发现,第一通道各分支主要关注全局纹理信息,而第二、第三通道各分支主要关注病变区域的纹理信息.这证明了多通道并行架构中,不同通道对于处理任务具有不同的关注点.并且在同一个通道中,不同分支所关注的特征也是有差异的.在第1行通道一中,第一分支由于具有小感受野,对于全局纹理有较高的响应度;第二分支具有中等感受野,对图中偏左部分响应度高;第三分支具有大感受野,对图中偏右部分响应度高.同样的情形,在第3行通道一中也有体现.由于不同分支具有不同的响应区域,故各分支所提取的特征存在差异,这些具有差异的特征信息,确实可以增加网络中特征信息的种类与数量.
提出了一种多通道并行的网络架构用于皮肤癌病变区域分割,它可以增加网络当中特征信息的总量.具体来讲,本文设计了DSC BM模块用来构建多通道并行网络,多通道网络可以增加网络中特征信息的总量,为解码阶段提供大量优质的浅层特征,在解码阶段使用DSC AM模块融合获取的浅层特征,从而获取更加精准的分割结果.同时通过大量实验证明,使用DSC BM模块构建网络的方法与DSC AM模块的有效性.所提出的DSC AM模块可以有效地嵌入到各种端到端网络中以提升网络总体性能.