基于改进的ResNet50网络的黑色素瘤分类方法

2023-03-04 06:37:20辉,张
计算机技术与发展 2023年2期
关键词:黑色素瘤残差注意力

邓 辉,张 洁

(南京邮电大学 计算机学院,江苏 南京 210023)

0 引 言

皮肤癌是世界上最常见的癌症之一。由于黑色素瘤皮肤癌致命程度较高,黑色素瘤与非黑色素瘤皮肤镜图像之间的识别分类引起了研究人员和医学工作者的极大关注。仅在美国,美国癌症协会估计2022年将新增99 780例黑色素瘤患者,约有7 650人将死于黑色素瘤[1]。培养一名合格的皮肤科医生需要花费较长的时间和资金成本,这在一定程度上也加剧了欠发达地区的医疗资源短缺问题。为了改善这种情况,研发基于皮肤镜检查的计算机辅助诊断系统具有重要意义。

传统医学影像分析的主流方法通常由两个典型模块构成:人工设计的图像特征和模式分类器。常用的特征包括局部二值模式、方向梯度直方图以及尺度不变特征变换等,常用的模式分类器包括K最近邻分类器、神经网络、朴素贝叶斯分类器以及支持向量机等。虽然传统方法在医学图像分析领域中取得了一定成功,但是黑色素瘤与非黑色素瘤存在类间差距小、类内差距大的问题,即便是皮肤病专家也难以凭借肉眼取得较高的识别准确率;其次,由于皮肤表面存在颜色差异、毛发、边界模糊等干扰信息,而且随着医学图像形态种类不断增加以及分辨率的不断提高,越来越多复杂、精细、高级的医学图像分析任务需求被提出,基于手工设计特征的传统方法面临严峻挑战。近十几年来,随着人工智能的迅速发展,深度学习在图像分类、目标检测、自然语言处理、语音识别等方面取得了巨大成功。不过,面临缺乏准确标注的皮肤镜图像以及样本分布极不平衡的情况,将深度学习应用在皮肤病变分类上同时提高诊断准确率是一项意义非凡且兼具挑战的任务。

Pomponiu等人[2]提出了一个皮肤病变分类系统,第一步是进行包含数据增强的预处理,下一步操作是使用预训练的AlexNet卷积神经网络进行特征提取,最后,决定性步骤是通过使用K近邻(KNN)算法实现的。该算法在包含399张图像的数据库上获得了良好的效果,其特异性为95.18%,灵敏度为92.1%,准确率为93.64%。Codella等人[3]为了提取一些特征,也使用了AlexNet卷积神经网络。这篇论文使用了用于皮肤病变检测的最著名的数据库之一,即ISIC数据库,该数据库由2 624幅皮肤镜图像组成,包括黑色素瘤和非黑色素瘤图像。同时,他们使用了来自稀疏编码的特征、低级手工特征和深度残差网络对AlexNet网络的输出进行调整。为了对图像进行分类,使用了支持向量机(SVM),最终准确率为93.1%,特异性为92.8%,灵敏度为94.9%。

Yang等人[4]使用带有CAM(Class Activation Mapping)的多任务CNN来同时诊断和定位皮肤镜图像中的皮肤病变。获得的CAM突出显示了图像中的感兴趣区域(ROI),通常覆盖了整个病变区域。Kwasigroch等人[5]在包含10 000张良性和恶性病变图像的数据库上使用VGG19获得了最好的结果,灵敏度达到95%。他还证明利用在自然图片上预训练的卷积神经网络上提取的特征所训练的线性分类器具有较高的准确性[6],该系统能够成功鉴别多达十种类型的皮肤病变。

胡海根等人[7]针对黑色素瘤分类任务中存在的对比度低、毛发干扰、数据量偏少以及数据不均衡等问题,提出了一种基于掩盖的数据增强与深度残差网络相结合的集成分类方法。第一步是基于掩盖训练图像部分区域对数据进行增强,其次,利用ResNet50进行特征提取,最后,用提取来的特征构建两个有一定差异的分类结构模型,并进行模型集成。实验结果表明,该模型能在样本较少的数据集上取得良好的分类效果,多项性能指标优于ISIC2016挑战赛的前五名。

赵宸[8]提出了一种基于自注意力的样式生成对抗网络和基于SE注意力机制的ResNeXt-50相结合的皮肤癌图像样本生成与分类框架,用来解决以黑色素瘤为代表的皮肤癌分类任务中存在的样本数量、权重不均衡,以及图像质量较差引起的诊断困难等问题。该框架使用基于自注意力机制的样式生成对抗网络对分辨率较低的皮肤癌变图像进行重构,从而得到高质量的皮肤癌变图像。最后使用SE-ResNeXt-50对图像进行分类,更好地提取图像不同层次特征图的信息。实验结果表明,该框架生成的样本图像质量较高,分类BMA高达94.71%,且提高了皮肤病变图像分类的准确性,从而帮助皮肤科医生快速高效地对不同类型皮肤病变进行诊断。

基于上述分析,针对皮肤癌分类任务中深层次网络容易过拟合、黑色素瘤分类准确率不高等问题,该文提出了一种基于迁移学习和改进的ResNet50模型[9]的黑色素瘤分类模型MC-Net。该模型对输入主干进行改进,摒弃了传统的7×7大卷积核,而是采用3×3的卷积核与深度可分离卷积的组合,在保持感受野不变的同时降低参数数量;减少了残差块中的部分BN层和激活层,使用GELU函数代替ReLU函数,并将特征相加后的激活层移到残差块内部,以此来加强模型的特征表达能力;添加了CA注意力机制,除了能捕获跨通道信息,还能捕获方向感知和位置敏感信息,有助于模型更准确地定位和识别重点信息。在上述工作的基础上,利用迁移学习初始化网络模型的部分参数,接着在增强后的数据集上进行训练,通过持续的反向传播来微调预训练的分类模型的权重,进一步提升模型的分类性能。

1 皮肤癌分类方法

该文对ResNet50神经网络模型的输入主干和残差块重新进行了设计,并且引入了CA注意力机制,基于迁移学习方法,使用在ImageNet数据集上预训练好的权重初始化MC-Net模型,冻结除全连接层以外的所有层,然后在皮肤病变数据集上进行训练,微调整个网络。具体过程如图1所示。

图1 皮肤癌分类方法流程

1.1 网络结构及原理

深度网络随着网络层数的不断加深会出现退化问题以及梯度消失问题,虽然残差网络ResNet设计了一种残差模块可以训练更深层次的网络,但是却面临着信息丢失、计算量过大以及复杂度过高等问题。该文以ResNet50网络结构为基础模型,通过改进网络结构以创造新的结构来解决如上问题,并增加了CA注意力机制,提高了皮肤病变分类的准确率。

ResNet50网络主要由输入主干、卷积部分以及输出层组成。网络的输入是大小为224×224的皮肤镜图像,输入主干包括一个步幅为2、通道数为64的7×7大卷积核和一个大小为3×3、步幅为2的最大池化层。卷积部分包括4个后续阶段,分别是Stage1~Stage4。其中,从Stage1开始,每个阶段都由一个下采样模块开头,紧接着是若干普通残差模块,前者是主网络路径上和分支路径上都有卷积层,而后者只有主网络路径上有卷积层,分支路径没有卷积层。Stage4结束后,在最后残差块后面连接了一个平均池化层,网络的最后一层为全连接层。

1.2 改进的深度残差网络

1.2.1 输入主干的改进

通过观察可知,ResNet50网络结构的输入主干主要由一个7×7卷积核和最大池化层[10]组成,且卷积层的计算成本为卷积核宽度或者高度的平方,因此,文中模型将输入主干中卷积核大小为7×7的标准卷积替换成一个3×3的标准卷积和深度可分离卷积[11]的组合,以降低卷积过程中的计算量,并且加深网络的深度,深度可分离卷积和输入主干的结构分别如图2、图3所示。

图2 深度可分离卷积

图3 输入主干

首先,输出通道大小为3的3×3标准卷积,经过批量归一化层后再接上一个最大池化层,然后在池化层输出的特征图上应用深度卷积,在2D卷积中分别使用3个尺寸为7×7×1的卷积核,而不使用大小为7×7×3的单个卷积核,每个卷积核仅对输入层的1个通道做卷积,最终得到大小为224×224×3的输出图像,与原来的深度保持不变。其次是扩大深度,使用大小为1×1×3的卷积核做逐点卷积,每个卷积核对输入图像做卷积后能得到一个大小为224×224×1的映射,经过64次逐点卷积,就可以得到一个大小为224×224×64的输出图像。深度可分离卷积不仅拥有和卷积核大小为7×7的标准卷积相同的感受野,而且改进后的输入主干的参数量仅为原来大卷积核参数量的44.6%,在保证输出信息和原来一致的情况下大幅降低了分类网络的计算成本,加深了网络的深度,提高了模型的分类准确率。

1.2.2 残差块的优化

该文采用三层的残差结构,使用GELU函数[12]代替ReLU函数,防止网络出现“dying relu”的问题。GELU函数受到dropout、ReLU等机制的影响,随着x的降低,它被归零的概率会升高,对于ReLU函数来说,这个界限就是0,若输入少于零就会被归为0,而GELU函数不仅保留了概率性,同时也保留了对输入的依赖性,其近似计算公式如式(1),

GELU(X) =0.5×x(1+

(1)

可以看出,当x越大的时候,就越有可能被保留,x越小就越有可能被归置为0。这一机制为激活函数[13]引入了随机性,有效提高了所训练模型的鲁棒性。文献[14-15]认为过多BN层和激活层可能会对模型性能产生一些不利影响,于是去除了残差块中第一个卷积后面的BN层和激活层,在1×1卷积后接上3×3卷积,以提高模型的特征学习能力。最后,调整GELU函数的位置,将特征相加后使用的激活函数移入残差块内部最开始的位置,加强模型的表达能力。改进后的下采样模块(Conv Block)和普通残差块(Identity Block)的结构如图4所示,MC-Net模型使用所改进的残差块代替原来ResNet50模型中的残差块,分支网络路径保持不变,仅对主网络路径进行调整。

图4 改进后的残差模块

1.3 CA注意力机制

Hou等人[16]认为现有的注意力机制多是采用最大池化/平均池化来对通道进行处理,这会损失图像的空间信息,而且由于轻量级网络负担不起大多数注意力机制的计算开销,导致了注意力机制在轻量级网络中的应用十分滞后。因此,他们提出了一种全新的CA(Coordinate Attention)注意力机制。该机制将位置信息加入到通道注意力中,使得网络能够在避免大量计算开销的前提下参与较大的区域。CA注意力机制的实现方式如图5所示,Coordinate Attention将通道注意力分解为沿着两个不同方向聚合特征的1D特征编码过程,首先,将输入特征图分别沿着宽度和高度两个方向进行全局平均池化;接着,将得到的宽度和高度两个方向的特征图拼接在一起然后送入共享的卷积核为1×1的卷积模块中,并将维度降低为原来的C/r;之后,经过批量归一化处理和非线性激活函数得到形如C/r×1×(W+H)的特征图F,再将特征图分别按照原来的宽度和高度进行1×1卷积分别得到和原来通道数一致的特征图FH和FW,经过Sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重δh和δw;最后,在原始特征图上通过乘法加权计算,得到在宽度和高度方向上带有注意力权重的特征图,如式(2)所示:

yc(i,j)=xc(i,j)×δh(i)×δw(j)

(2)

图5 CA注意力机制模块

本研究在主干网络中融入CA注意力机制,将其置于每个残差模块中的3×3卷积层后,在不显著增加网络复杂度的前提下,提升模型的表征能力。MC-Net模型的完整结构见表1,输入图像的尺寸为3×224×224,In_channels和Out_channels为经过每个Stage的输入和输出通道数,Output_size为图像经过任一Stage后输出的图像大小。

1.4 迁移学习

ResNet50模型参数量较大,而样本数据量较小,如果将其直接在皮肤病数据集上进行训练,往往不能达到最佳的分类效果。通常使用迁移学习来解决这一问题。迁移学习[17]是将学习到的关于A的知识或应用到不同但相关的B上来,从而更好地解决问题B。使用预训练好的权重对网络进行初始化,然后将其迁移到目标数据集上进行微调训练,从而提高分类精度,并且节省了训练时间。该文使用的迁移学习方式是先预训练然后微调,使用在大型数据集ImageNet上预训练好的权重参数代替随机初始化参数对MC-Net模型进行初始化,相较于ResNet50模型,由于MC-Net模型部分结构发生了改变,因此只能迁移二者相同部分的模型参数,余下参数依旧采用随机初始化。然后,冻结模型起始部分层的参数使其不参与训练,在目标数据集上使用较小的学习率重新训练后面的层,得到新的权重。在这个过程中,通过多次尝试找到冻结层和重新训练层之间的最佳搭配。相比训练一个全新的网络,迁移学习有助于网络快速收敛,提升网络的分类效果。

表1 MC-Net的完整结构

2 实验及结果分析

2.1 数据集

原始数据来自黑色素瘤检测的皮肤病变分析竞赛的HAM10000数据集。该数据集由10 015张皮肤镜图像组成,分为黑色素瘤和非黑色素瘤两类,其中包含1 113张黑色素瘤图像和8 902张非黑色素瘤图像。病例包括色素性病变领域所有重要诊断类别的代表性集合:光化性角化病和上皮内癌(鲍恩病)、基底细胞癌、良性角化病样病变、皮肤纤维瘤、黑色素瘤、黑色素细胞痣和血管病变。超过50%的病变经过了组织病理学的证实,其余病例的基本情况是由随访检查、专家共识确认的。

2.2 数据增强

尽管HAM10000数据集中的皮肤镜图像在亮度、颜色、分辨率等方面已经进行了整理和标准化,但是仍然存在毛发遮挡影响诊断结果以及样本分布极不均匀的问题。针对皮肤镜图像中的毛发遮挡信息,引入文献[18]提出的黑素瘤图像毛发遮挡信息的非监督修复算法自动去除原始图像中的毛发遮挡,同时对毛发遮挡部位的信息进行了修复。图6是皮肤镜图像修复前后的对比。

图6 毛发遮挡修复前后对比

由于数据集中样本分布极不均匀,对黑色素瘤组进行数据增强,使得图像数量与非黑色素瘤组相似。根据皮肤镜图像的特性,该文使用了包括随机翻转、旋转、裁剪等在内的传统数据增强方式[19],解决了黑色素瘤组数据量不足的问题,增强了模型的泛化能力。增强后的数据集(包含10 000张图像)变成了含有17 805张图像的平衡数据集,其中包括8 903张黑色素瘤图像和8 902张非黑色素瘤图像。本实验中,将增强后的数据集划分为训练集、验证集、测试集三个独立且互不交叉的数据集,比例为6∶2∶2。

2.3 实验环境及评价指标

实验在Windows10 64位平台环境下运行,基本配置是AMD Ryzen 7 5800X,16 GB DDR4内存,NVIDIA GTX3080 Ti独立显卡,深度学习框架为Pytorch。

采用AC、F1-score作为模型的评估指标,其中AC代表分类的准确度,定义如下:

(3)

F1-score是分类模型查准率和查全率的一种调和平均,其定义如下:

(4)

其中,TP、TN、FP、FN分别代表真正例、真负例、假正例、假负例的样本个数。查准率(P)和查全率(R)能对每个类别进行性能评价。F1值为综合考虑查准率和查全率的评价。一般来说,F1值越高,单个类别分类性能越好。

2.4 消融实验

为了验证所提方法的有效性,同时确定改进的结构在性能改善中所起到的作用,在验证集上进行了消融实验,实验结果如表2所示。

表2 不同结构对分类效果的影响

表2展示了实验中改进的各个模块对实验结果的影响。由实验数据可知,利用3×3标准卷积和深度可分离卷积的组合代替原输入主干的7×7大卷积核时,性能获得了较大提升(AC提升了2.78%),实验中对残差结块进行优化以及添加CA注意力模块时,实验结果均有一定程度提升。当未对数据集使用数据增强时,分类模型的准确率有明显下降,足以验证所提方法的有效性,并且验证了对数据集进行数据增强能够有效提升网络模型的性能。

2.5 对比实验

将文中方法与AlexNet[20]、VGG19[21]、MobileNet-V2[22]、DenseNet-121[23]、EfficientNet-B0[24]等五种主流深度学习网络进行性能对比,以下模型均使用在大型数据集ImageNet上预训练的权重参数进行初始化,结果如表3所示。

表3 不同模型性能比较

结合表2、表3的实验结果可知,提出的皮肤癌分类算法在该数据集上的准确率和F1值显著优于其他网络。在准确率和F1指标上,AlexNet最低,分别是87.2%和87.4%。使用文中方法改进的ResNet在该数据集上的准确率为94.87%,而其他神经网络中准确率最高的是EfficientNet-B0,准确率为93.5%,说明了文中方法具备优异的皮肤癌分类性能。将迁移学习与文中方法结合,准确率进一步提高至95.4%,F1值达到了95.6%。不难看出,将迁移学习与文中方法结合能够有效提升分类模型的性能,不仅降低了训练成本,还能显著加快网络的收敛速度,具有一定应用价值。

3 结束语

针对临床上使用皮肤镜检查黑色素瘤费时、费力的问题,提出了一种基于迁移学习的皮肤癌分类方法:主要是对ResNet-50网络的基本结构进行了改进,网络中添加CBAM注意力机制来增强网络对重要特征的关注程度,并进行迁移学习。首先,使用一个3×3的标准卷积、最大池化层和深度可分离卷积的组合代替原输入主干中的7×7大卷积核,这样做既可以降低卷积过程中的计算量,又可以保持和原来相同的感受野;用Hard-Swish函数代替ReLU函数,同时使用LN替换BN,可以提高网络的表达能力;使用空洞卷积和标准卷积的组合来聚合CBAM注意力中的空间上下文信息,提高对空间特征的编码能力,在感受野保持不变的前提下,减少了参数数量。实验结果表明,该方法在增强后的HAM10000数据集上取得了很好的分类效果,优于其他主流分类网络,结合迁移学习训练后,分类准确率达到96.0%,有效提高了皮肤癌诊断的效果。

猜你喜欢
黑色素瘤残差注意力
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
自动化学报(2019年6期)2019-07-23 01:18:32
“扬眼”APP:让注意力“变现”
传媒评论(2017年3期)2017-06-13 09:18:10
原发性食管恶性黑色素瘤1例并文献复习
A Beautiful Way Of Looking At Things
颅内黑色素瘤的研究进展
癌症进展(2016年10期)2016-03-20 13:15:41
左拇指巨大黑色素瘤1例
平稳自相关过程的残差累积和控制图
河南科技(2015年8期)2015-03-11 16:23:52