陈旋,蔡宇佳,冉文兵,张利
(贵州大学 大数据与信息工程学院,贵阳 550025)
皮肤癌是常见的致命癌症类型之一,约占癌症病例的三分之一,其早期诊断尤其重要。皮肤镜是检查皮肤病变最重要的技术之一,可以捕获皮肤的高分辨率图像。然而,即使在有经验的皮肤科医生中,仅用人类视觉检测黑素瘤可能是主观和不准确的。尤其是皮肤病变的大小、形状和颜色变化很大,毛发的存在会部分覆盖病变,破坏局部环境,一些病变与正常皮肤的对比相对较低,导致模糊边界,使开发计算机辅助诊断(Computer Aided Diagnosis,CAD)系统获得准确和突出的组织级分割极具挑战性。
卷积神经网络作为计算机视觉领域的主要技术,已经成功地应用于医学图像分类[1-2]、分割[3-4]和检测任务[5-6]中。自2015 年提出FCN[7]后,吸引了大量的研究者进入语义分割邻域。其中,UNet[8]就是在FCN 的基础上最获成功的改进语义分割模型之一,目前已成为医学图像分割领域应用最为广泛的模型,以U-Net 为骨干网络的变体[9-10]在各种医学图像分割任务中取得了一系列可观成果。例如,UNet++[10]通过重新设计跳过连接以利用图像分割中的多尺度,由此来实现不同语义尺度的特征融合,并对固定深度的U-Net 网络进行改进。Alom 等人[11]提出的基于U-Net 网络和递归残差卷积神经网络的模型,通过短跳跃连接来加强特征融合。Jha 等人[12]使用ResNet 和DeepLabv3+作 为UNet 的主干网络来完成息肉分割任务。Oktay 等人[13]提出的Attention Unet 模型,使用门控注意力来过滤掉特征图中不相关的反应。Isensee 等人[14]提出nnU-Net 实现自适应医学图像语义分割。Res-UNet[15]模型将残差模块与U-Net 相结合来实现特征融合,完成了视网膜分割任务。但目前技术均偏向于基于纹理、而不是结构边界来提取特征,这就限制了CNN 获取目标区域形状信息的能力,使得当前的技术不能很好地进行皮肤病灶分割。
针对上述算法存在的一些局限性,本文基于UNet 网络框架,提出一种融合挤压和激励机制并用CRF 来做分割后处理的算法。通过融合SE 模块自适应地为特征重新分配权重,关注重要特征、同时抑制无关特征,并利用CRF 来保持目标区域的结构边界,实现边界精确定位。
本文的主要贡献如下:
(1)提出了一种结合挤压激励机制和条件随机场的皮肤病图像分割模型SECU-Net,将概率图形模型与深度学习模型结合.
(2)挤压和激励机制(SE)[16]使得模型能够自适应地重新校准通道特征,突出重要特征。同时CRF[17]能细化分割。
(3)在具有挑战性的ISIC2017 数据集上验证了所提出模型的有效性。
分割是医学图像分析中识别和定位疾病、监测形态变化、提取鉴别特征以便进一步诊断的关键。皮肤癌的早期诊断对彻底清除体内恶性肿瘤至关重要。其中,基于人工智能的分割方法因其良好的准确性、鲁棒性和可靠性而被广泛探索和采用。在过去的几年里进行了大量的研究。例如,Nasr -Esfahani 等人[18]提出了一种新的密集全卷积网络(DFCN),利用新的密集池层对病变区域进行分割。Mirikharaji 等人[19]提出了从噪声中分割皮肤病变的方法,通过空间自适应的重加权方法,在损失函数中运算处理干净的和噪声的像素级注释,提高深度网络对噪声标注的鲁棒性。Wang 等人[20]提出了一种新的边界感知转换器(BAT),通过边界注意门(BAG)提供大量的空间信息来捕获更多的局部细节。Basak 等人[21]提出了一种新的皮肤病变分割框架,称为多焦点分割网络(MFSNet),通过聚焦于多个尺度的图像信息产生最终的分割掩码。MFSNet采用Res2Net 骨干,用于获取深度特征,以获得分割掩码的全局特征图。尽管上述基于CNN 的方法取得了成功,然而,由于分割皮肤病变在大小、形状、质地、位置和边界方面存在巨大差异,使得此类分割任务是颇具挑战性的。
概率图形模型结合CNN 已经成为语义分割邻域的基线模型。作为模型的有效组件,CRF 在解决定位问题、产生准确的语义分割结果和恢复对象边界方面有着明显优势。Rother 等人[22]使用CRF 来平滑噪声分割图。Chen 等人[23]使用双线性插值将特征映射放大到原始图像分辨率,此后应用一个完全连接的CRF 来细化分割结果,更好地捕获对象边界。Kamnitsas 等人[24]结合全联CRF 提出了一种高效的卷积神经网络,在脑部分割病变中实现更结构化的预测。Krähenbühl 等人[25]提出一个全连通CRF模型的近似推理算法,其中成对边缘势由高斯核的线性组合来进行定义。Szummer 等人[26]使用图切割来学习CRF 的最大间隔学习方法,包括结构化输出支持向量机、近似边际推理和基于梯度的优化方法来学习CRF 中的参数。虽然CRF 与神经网络结合已成为图像语义分割领域较为成功的范例,然而,CRF 还没有得到在医学图像分割应用上的验证。
受以上研究启发,本文提出一种能够自适应为特征分配权重和细化分割结果的网络模型。主干网络采用U-Net 模型,来进行特征提取。然后利用SE模块来重新校准通道特征。最后利用CRF 模块来细化分割。
整体网络结构主要由CNN 和CRF 两部分组成。模型框架设计如图1 所示。这里拟展开研究论述如下。
图1 SECU-Net 模型概述图Fig.1 Overview of the SECU-Net model
模型采用U-Net 作为骨干网络。U-Net 网络是全卷积神经网络结构,初始卷积组中有64 个滤波器,卷积滤波器大小为3×3,平均池化滤波器大小为2×2,通过收缩网络和扩张网络构成一个U 型结构,对输入样本进行特征提取。该结构可以使得模型能依赖较少的训练样本获得较好的分割准确度。通过沿着扩展路径使用一系列上采样层来生成与原始图像相同分辨率的分割图,U-Net 沿着扩展路径重复地将不同层次的特征通道串联起来,并在扩展路径的最后一阶段基于大量的特征通道生成最终的分割图。同时,长跳跃连接可使得解码端能利用浅层特征图,丰富了特征信息。
SE 模块是一个计算单元,将卷积运算的输出结果进行处理,重新为不同的特征自适应地匹配权重,如图2 所示。
图2 SE 模块Fig.2 SE module
SE 可以建立输入X∈映射到特征U∈RH×W×C的变换上,将该变换定义为Ftr:X→U,Ftr是一卷积操作。通过全局平均池化的方式将全局空间信息挤压到一个通道。压缩后的特征向量z∈RC,对于z中的第c个元素zc,计算方式如下:
接下来通过2 个非线性完全连接层将uc重新校准。参数化表示如下:
其中,δ表示ReLU函数;W1∈;W2∈。最后得到重新的输出为:
SE 模块通过全局平均汇集来排除空间依赖性,从而通过显式建模通道之间的相互依赖性,学习信道特定描述符来重新校准通道,提高对相关特征的灵敏度,自适应地重新校准通道特性响应。
CRF 是一种判别类图形模型,适用于空间信息或相邻状态影响当前预测的任务。在本节中,将简要描述CRF 的公式,具体描述以及符号表达遵循文献[17]。在图像分割任务中,所有像素被分为多个不同的类{1,...,C},其中C是类的数量。每张图像I(在本文中,I是皮肤镜图像)中所有像素的取值χi构成一组随机变量χ={χ1,...,χN},N是图像中像素的数量。模型训练时,χi被转换成长度为C的分类向量,χi满足全局马尔可夫性。由先验吉布斯分布表征的全连接成对CRF 模型P(X,I):
其中,ζ=(V,Ε)是描述随机场X的无向图,φ是每个团的势函数。通过最大后验概率(MAP)估计X,其最小化相应的吉布斯能量E(X=x |I):
其中,i和j的范围从1到N。式(5)的第一项是一元势函数,由分类器为每个像素独立计算,该分类器在给定图像特征的标签分配上产生分布。式(5)的第二项是二元势函数,表示为:
其中,μ(χi,χj)是描述不同类别对之间交互影响的标签兼容性函数;ω(m)是不同k(m)的线性组合权重,并且是标签兼容性函数;K是核的总数。每个k(m)是具有特定特征向量f的修正高斯核:
其中,fi和fj是任意特征空间中像素i和j的特征向量。每个核k(m)由对称的正定精度矩阵Λ(m)来表征,该矩阵定义了相应的形状。在语义分割中,通常使用强度(I)和位置特征(p)的组合:
其中,外观核由ω1控制,平滑核由ω2控制。参数θα、θβ和θγ控制相应特征空间的影响。通过来自CNN 特征图的新特征向量来更新随机场X。
本文采用ISIC2017皮肤病数据集[27]。ISIC2017 是Kaggle 竞赛公开的数据集,是皮肤癌诊断领域最知名的数据集之一,该数据集包括2 000张图像和带注释的掩模。每个样本的原始尺寸为576×767 像素。以7∶2∶1 的比例将所有数据集随机划分为训练集、测试集和验证集。数据样本如图3 所示。图3(a)~图3(e)皆为数据集样本示例。图3(a)~图3(e)中,第一张为原始图像,第二张为对应的真实值。可以看出,皮肤病病灶具有面积和颜色变化大、结构边界不清晰以及毛发覆盖等特点,为分割带来巨大挑战。
图3 数据样本Fig.3 Data samples
本次实验基于Ubuntu18.04 系统,使用NVIDIA GTX 2080Ti GPU 在公共Pytorch 框架上实现本文设计提出的网络,实验将所有数据集的图像大小统一调整为512×512。图像中的所有像素值都归一化为0~1。对于数据扩充,通过将所有的数据进行水平翻转、垂直翻转以及混合水平与垂直翻转的方式,各种图像变换可以缓解过度拟合问题。通过结合广泛的图像采集条件,提高了模型的鲁棒性,对网络进行训练时,批次大小设置为4,初始学习率设置为10-6,使用ReLU激活函数。
为了综合评估本文提出方法的性能,采用5 个常见的语义分割度量评价指标,包括:准确性(Accuracy,AC)、敏感性(Sensitivity,SE)、特异性(Specificity,SP)、F1-Score、精 确率(Precision,PC)以及Jaccard相似性(JS)。下面将给出阐释解析如下。
(1)准确性(AC)。显示正确预测的百分比,该值可由如下公式计算求出:
其中,TP(True -Positive)表示真阳性,即诊断为阳性的阳性病例;TN(True -Negative)表示真阴性,即诊断为阴性的阴性病例;FP(False -Positive)表示假阳性,即诊断为阳性的阴性病例;FN(False -Negative)表示假阴性,即诊断为不利的阳性病例。
(2)特异性(SP)。衡量模型正确识别的FP的比例,该值可由如下公式计算求出:
其中,式(11)中各项的数学含义同式(10)。
(3)敏感性(SE)。衡量模型正确识别的预测TP的比例,该值可由如下公式计算求出:
其中,式(12)中各项的数学含义同式(10)。
(4)F1-Score。是精度和召回率的加权平均值,该值可由如下公式计算求出:
其中,式(13)中各项的数学含义同式(10)。
(5)Jaccard相似性(JS)。用来衡量预测值X和真实值Y之间的相似性,该值可由如下公式计算求出:
其中,式(14)中各项的数学含义同式(10)。
3.3.1 消融研究
为了充分说明网络中不同模块对分割性能的影响,对不同网络结构的性能进行比较,见表1。表1中,“The proposed”表示U-Net 融合SE 和CRF 两个模块、即SECU-Net 网络模型。仍需指出的是,表1中的粗体表示最优结果。
表1 不同网络结构的性能比较Tab.1 Performance comparison of different network structures
由表1 可知,U-Net 基础网络能获得不错的分割结果,但各项指标都不是很高,通过融合SE 和CRF 模块,其中F1、SP、AC以及JS指标,均有明显的提升,表明提出的SE 模块和CRF 模块对病灶特征有更好的提取能力。最后将两者结合,可以明显地观察到SECU-Net 提高了预测分割结果与真实掩码的重叠区域,保留了更多的病灶边界信息,充分验证了本文分割算法的有效性。
3.3.2 不同算法对比分析
为了验证所提出SECU-Net 网络的性能,在ISIC2017 数据集上将本文模型与有代表性的其他分割网络进行了比较。包括U-Net[8]、AttU-Net[28]、DAGAN[29]、TransUNet[30]以及 MedT[31]。其中,TransUNet 是基于Transformer 的方法。
ISIC 2017 数据集上的性能比较结果见表2。表2中,粗体表示最优结果。由表2 可以明显看出,拟提出模型能获得较好的综合性能。F1分数为0.860,SE为0.878,AC为0.924,JS为0.754。与经典的U-Net 网络模型相比,F1分数高出3.4%,SE高出0.3%,SP高出2.5%,AC高出1.9%,JS高出5.0%。一方面证明所提出方案的有效性。另一方面,UNet 网络是SECU-Net 的主干网络,这也证明了改进策略的有效性。
表2 ISIC 2017 数据集上的性能比较Tab.2 Performance comparison on ISIC 2017 dataset
3.3.3 定性结果分析
为了更直观地显示改进算法的病灶分割效果,除以上的定性分析外,图4~图6 给出了SECU-Net网络的定性分割结果,从视觉上能直接观察到,在面对各种复杂情况下的皮肤病病灶分割时,本文模型都能取得较好效果。图4 是列举SECU-Net 网络在面对目标区域形状和面积变化大的情况下的分割,图5 是列举SECU-Net 网络在面对目标区域颜色变化大和毛发存在情况下的分割,图6 是列举SECUNet 网络在面对目标区域边界结构不清晰情况下的分割。图4~图6中,各图皆为不同的测试像本,每一行由左到右分别代表输入测试样本原始图像、真实值(GT Mask)和预测分割结果(pre Mask)。可以看出,本文模型能得到质量很高的分割掩码,可以很好地完成形状、面积和颜色变化大,以及毛发存在的皮肤病图形分割任务。
图4 形状和面积变化大的样本分割结果示例Fig.4 Example of samples segmentation results with large variation in shape and area
图5 毛发存在和颜色变化大的样本分割结果示例Fig.5 Examples of segmentation results for samples with large hair presence and color changes
由图6 可以看出,虽然SECU-Net 在处理模糊边界上,局部细节上不能实现很好的分割,但很明显可看出,即使是在样本边界非常模糊的情况下,仍能对目标区域的整个轮廓和边界进行很好的分割,其结果可为临床诊断提供指导。
图6 边界不清晰的样本分割结果示例Fig.6 Examples of samples segmentation results with unclear boundaries
本文提出了用于皮肤病图像分割的SDCUNet,通过在U-Net 网络中添加SE 模块,能自适应地为特征分配权重,即:强化需要关注的特征、抑制无关特征。同时使用CRF 来做后处理,细化分割,提高模型的表示学习能力,从而获得更好的分割性能。实验结果表明,与列举的其他方案相比,SDCUNet 的性能优于其他模型,这一点从表2 即能看出。从定性结果来看,即使是针对颇具挑战性的图像,SDCU-Net 也能产生较好的分割掩码。这一点从图5 中就可以看到。同时,从其他定性结果也可以看出,该模型产生了高质量的分割掩码。在未来的工作中,拟继续探索将SDCU-Net 模型用于其他分割任务中,并探索提升模糊边界分割效果的新方案。
在本文中,提出的SDCU-Net 以U-Net 作为骨干网络,融合SE 模块,并用CRF 来做后处理的皮肤病病灶分割模型。针对皮肤病病灶面积和形状不规则、颜色变化大,以及病灶与背景对比度低等问题,都能实现较好的分割。首先,通过SE 模块处理卷积操作输出的特征层,经过全局平均汇集来排除空间依赖性,从而通过显式建模通道之间的相互依赖性,学习信道特定描述符来重新校准通道,提高对相关特征的灵敏度,自适应地重新校准通道特性响应。同时,CRF 能建模相邻像素之间的关系,为相同属性的像素分配一样的标签,尽管是对具有挑战性的皮肤病样本,SDCU-Net 也能得到良好的分割性能。