李 航 余 镇 倪 东 雷柏英 汪天富
(深圳大学医学部生物医学工程学院,医学超声关键技术国家地方联合工程实验室,广东省生物医学信息检测和超声成像重点实验室,广东 深圳 518060)
黑素瘤皮肤癌是世界上速度增长最快和最致命的癌症之一,占皮肤癌死亡病变的75%[1-2]。早期诊断对于其治疗非常重要,因为在早期阶段这种疾病很容易被治愈[1-3]。为了改善皮肤细胞疾病的诊断效果,临床上引入皮肤镜检查以协助皮肤科医生进行诊断。作为一种无创性的皮肤成像技术,皮肤镜像图像可以为临床医生提供高质量的皮肤病变信息。与传统的临床图像相比,皮肤镜检查图像具有更少的表面反射、更深层次的细节和更低的筛选误差,能够获得更好的可见度和识别精度。由于黑色素瘤皮肤癌比非黑色素瘤皮肤癌更致命,因此黑色素瘤与非黑色素瘤皮肤镜图像之间的区分识别已经引起了极大关注[1-3]。目前,临床上提出了几种启发式的方法,如Menzies方法[4]和CASH方法[5],以增强临床医生辨别黑色素瘤与非黑色素瘤的能力。然而,即使对于经验丰富的专业人士,正确诊断黑色素瘤也是有一定困难的。此外,通过人眼目视检查进行的皮肤镜诊断通常耗时费力,且较为主观。因此,准确性不佳、可重复性差仍然是诊断这种疾病的主要难题。
为了解决这些问题,临床研究提出了许多用于自动分析皮肤镜图像的算法。这些计算机辅助分析模型通常包括以下4个步骤:
1)图像预处理,如去除毛发[6-8]和图像增强[9-10];
2)边界检测或分割[2,11];
3)特征提取,即颜色、纹理、边界梯度、形状相关描述符[2,12];
4)分类(k-最近邻(KNN)),支持向量机(SVM)[2],神经网络,AdaBoost[12]。
大多数现有研究主要集中在特征工程和分类,或多或少都假设输入图像包含条件良好的病变对象。然而,皮肤镜图像可能并不总是包含整个病变区域,或者病变对象仅仅占据图像的很小部分,如图1所示。
图1 皮肤病变的皮肤镜检查图像。黑素瘤与非黑色素瘤(良性)之间类内差异大、类间差异小Fig.1 Dermoscopy image of the skin leisions.Small variations between different classes and large variations in the same class between melanoma and non-melanoma (benign)
由于黑色素瘤与非黑色素瘤(良性)之间的类内差异大和类间差异小(见图1),所以这些人工特征所提供的诊断结果并不能令人满意。此外,这些基于手工特征的方法大多数包含复杂而繁琐的步骤,这导致临床实践中其泛化能力差,适用性低。与依靠人工特征的方法不同,深度卷积神经网络(CNN)等学习方法过去几年在图像识别任务中具有显著性的优势[13-14]。CNN的主要优点是根据给定的训练数据集,自动地学习相应检测或者分类任务所需的特征表达[15],它在许多应用中都能达到最佳的表现性能[16]。然而,CNN需要大量的训练数据进行特征的学习,在医学图像领域,通常存在样本数据缺乏、采集和标注困难的情况。因此,其应用往往存在局限性。有研究[17-18]表明,即使没有经过重新训练,迁移的深度卷积特征也可以用作通用视觉表达,比如在大型自然图像ImageNet数据集[19]上预先训练的CNN特征,在其他很多图像识别任务中也取得了很好的结果。因此,近年来迁移的CNN特征也被应用于皮肤镜图像分类任务。一般情况下,深度表达主要从CNN模型的全连接(FC)层进行提取。虽然高层次的CNN特征具有良好的图像表达和泛化能力,但是这些深层描述符缺乏对局部图像特征的描述。在临床诊断中,局部纹理结构的信息对于皮肤细胞病变的识别至关重要。例如,黑素瘤通常包含多种纹理结构(网状结构、条纹状结构、点状结构等),而良性皮肤细胞损伤则只包含一种纹理结构且呈均匀对称分布。
深度网络中间的卷积层特征可以看作是神经元对于输入图像的局部感知结果,通常包含丰富的局部细节描述信息。基于此,本研究提出了一种基于深度卷积特征的黑素瘤图像识别方法。具体而言,首先将原图像统一调整尺度至256像素×256像素大小,并对其进行预处理,包括图像归一化、数据增强等,然后将其输入到深度为152层的残差卷积神经网络(ResNet-152)中进行特征提取,其中最后一组残差块的输出特征被提取作为局部描述符,再将这些局部特征利用均值池化得到特征向量。在本实验中,使用的预训练卷积神经网络模型首先在大型自然图像数据集ImageNet上预训练,然后复制预训练网络中的参数作为网络中的初始化参数。最后,将得到的特征向量用来训练一个线性支持向量机分类器,进行黑色素瘤与非黑色素瘤的分类。同时,对于所提出的框架,对比不同深度的网络架构以及数据增强技术对分类识别性能的影响。本研究基于公开的ISBI 2016皮肤数据集进行了大量的实验,实验结果证明了所提出方法的有效性,可以在有限的训练数据下更准确地识别黑色素瘤。
本研究是对黑色素瘤与非黑色素瘤的二分类问题,所使用的方法包括残差神经网络、卷积特征提取过程、图像预处理和数据增强方法,整个框架的流程如图2所示。
图2 黑色素瘤识别框架的流程。(a)残差块;(b)深度特征提取,提取中间卷积层特征,并对其使用均值池化得到特征表达;(c)支持向量机分类Fig.2 The flowchart of melanoma identification. (a) Illustration of residual block; (b)Extraction of deep representations, the feature vector is given by transforming the intermediate convolutional feature maps using averaging pooling; (c) SVM classification
CNN模型的深层结构对其特征学习能力至关重要。本研究采用了He等介绍的最新一代卷积神经网络(深度残差神经网络,ResNet-152)[20],在2016年ImageNet大规模视觉识别挑战赛(ILSVRC 2016)中,残差网络取得了第一名的成绩。与经典的CNN结构相比,ResNet-152的主要特点在于引入了残差连接,它能够在训练非常深的网络时解决其性能退化问题。已有研究证明,残差连接可以加速深度网络的收敛,并通过大幅度提高网络深度来保持准确率的提高。一般来说,深度残差网络由一组残差块组成,每个残差块包含几个堆叠的卷积层(将修正线性单元(Relu)和批归一化层作为卷积层附属)。具有恒等映射的残差块可以表示为
hl+1=Relu(hl+F(hl,wl))
(1)
式中,hl和hl+1分别是第l个残差块的输入和输出,Relu(·)是修正线性单元函数,F表示残差映射函数,wl是残差学习单元的参数。
具体来说,当F(hl,wl)的通道(尺寸)和hl不相等时,通常应用线性投影φ来匹配尺寸,因此式(1)可以进一步转换为
hl+1=Relu(φ(hl)+F(hl,wl))
(2)
图2(a)表示了一个基本的残差块,可以参考文献[19]得到更多的细节。
在本研究中,利用了ResNet-152模型,并且残差网络在ImageNet上进行了预先训练。ResNet-152和ResNet-101模型相比基本的ResNet-50结构有更多的残差块堆叠,详细信息如表1所示。另外,还比较了几种不同的CNN架构(即VGGNet-16、AlexNet),具体可参考第2部分。
表1 本研究中使用的Res-152架构Tab.1 Architecture of Res-152 used in this study
考虑到图像特征,图像预处理对深度表示的性能有很大的影响。
1)图像大小。CNN通常使用固定和方形大小的图像作为输入(如227×227或224×224)。在常规情况下,将图像进行尺度大小的调整,使得所有图像具有相同的大小并且裁剪成所需的尺寸,以进行训练或特征提取。例如,在AlexNet中,在CNN训练期间,所有图像在进入网络之前都会被调整为227×227,但这会导致皮肤病变对象发生形变,而形状轮廓信息是皮肤细胞损伤类型判别的重要依据。在这项研究中,对于皮肤数据集,将这些图像沿着最短边尺寸调整到一个统一的尺度(256),同时保持长宽比,从而保证皮肤病变部位的原有形状结构信息得到更好的保留。然后,将调整好尺度的图像输入到预训练的CNN中。
2)图像归一化和增强。通常,在CNN处理之前,通过减去在整个训练数据集上计算出的平均像素值来对图像进行归一化。然而,数据集中的皮肤病变图像的光照、肤色和视角差异很大,减去统一的平均值并不能很好地标准化个体图像的光照,最近的研究也论证了这种影响。为了解决这个问题,通过减去在单个图像上计算出的通道平均强度值(表示为per-channel-mean)来对每个皮肤图像进行归一化。具体地,给定一张皮肤图像X,计算归一化图像Xnorm为
(3)
式中,u(XR)、u(XG)、u(XB)为分别返回3个颜色通道的平均像素值。
虽然卷积神经网络具有极强的特征表达能力,但是训练数据量过少将会使CNN训练困难,容易过拟合,抑制CNN学习能力。因此,为了避免因有限的训练数据而引起的过拟合问题,采用了基于旋转和平移的实时数据增强技术。在训练期间增加数据,同时网络正在对GPU上的一大批数据进行训练,下一批数据将以多进程的方式在CPU上生成。具体来说,将每个缩放的图像旋转4个角度(0°,90°,180°和270°),然后在旋转的图像上随机添加像素平移(偏移在-10和10像素之间),得到一系列增强的子图像,实验结果见表2。
表2 CNN识别结果Tab.2 Recognition results with different CNN models(%)
给定预训练的网络模型,首先通过上述操作来处理输入的皮肤病变图像。缩放图像的短边固定为256(即S=256),对于第i张图像Xi,将其输入至预训练的CNN模型。在第l层卷积层中,得到wil×hil×dl空间特征图Mil,其中wil和hil分别表示宽度和高度,dl是当前特征图的深度或通道。为了方便描述,Nil=wil×hil。值得注意的是,对于具有不同尺寸的输入图像,所得到的特征图的大小可以不同。在特征图Mil中,每个位置c=(cx,cy),1≤cx≤wil的激活处,得到dl维度向量fil,c∈dl,即本研究中的局部深度特征。因此,得到每个图像Xi的局部深度特征表达式为
Fil={fil,(1,1)},…,fil,c}∈Nil×dl
(4)
CNN的不同卷积层往往具有不同的性质。一般而言,低层特征往往包含纹理形状等低层信息,而高层特征则通过不断组合低层级特征得到更为抽象化的语义特征。在特征迁移的过程中,高层级特征往往和预训练的数据集有关,考虑到预训练数据集和皮肤数据之间的差异性以及深层特征的表达能力,在本研究中提取网络的最后卷积层特征。
最后,特征向量通过对提取的卷积特征利用均值池化进行计算,得到
(5)
本实验利用在大型自然图像ImageNet数据集上预训练的深度残差网络(Res-152)提取特征,并对其使用均值池化操作得到特征向量,然后用支持向量机建立分类模型,从而对黑色素瘤与非黑色素瘤进行自动识别分类。在实验中,采用平均精度(mAP)、准确度(Acc)、ROC曲线下面积(AUC)、灵敏度(Sen)和特异性(Spec)评价分类性能。
1.4.1实验设置
1)数据集。使用公开的皮肤病变图像ISBI 2016挑战数据集验证所提出的方法。该数据集基于国际皮肤成像协作(ISIC)档案[https://isic-archive.com/],是最大的、公开的皮肤镜图像数据集。2016皮肤镜图像视觉竞赛发布的数据集包含了1 279幅皮肤病变图像,其中相应的类别标签被预分割成900幅训练集图像和379幅测试集图像。数据集中有两种病变类别:黑色素瘤和非黑色素瘤。其中,248幅黑色素瘤图像(训练集中的173幅图像,测试集中的75幅图像)作为正样本,1 031幅非黑色素瘤图像作为负样本。经过数据增强后,共有28 800幅图像作为训练集获得分类器模型。在实验中,SVM分类器[2]的超参数通过对训练数据使用5折交叉验证获得,其中惩罚因子C为10,终止条件的允差采用默认值0.001。
2)评估和实施。对于评价的性能指标,采用平均精度(mAP)、准确度(Acc)、ROC曲线下面积(AUC)、灵敏度(Sen)和特异性(Spec)。对于3种不同的卷积神经网络模型,将利用数据增强技术对数据集扩充所得到的分类结果分别表示为AlexNet-Aug、VGG-16-Aug和Res-50-Aug、Res-101-Aug、Res-152-Aug,而没有利用数据增强技术得到的分类结果分别表示为AlexNet-noAug、VGG-16-noAug和Res-50-noAug、Res-101-noAug、Res-152-noAug。
本实验主要是基于开源库来实现所提出的框架,即用于深度特征提取的Matlab工具包MatConvNet。所有实验都在具有CPU Inter XeonE5-2680 @ 2.70 GHz、GPU NVIDIA Quadro K4000和128GB RAM的计算机上进行。
1.4.2网络类型和卷积特征的实验
1)不同网络架构对分类识别结果的影响。将提出的框架与其他基于卷积神经网络的方法进行比较。在本实验中,采用了3种不同的卷积神经网络模型,除了152层深度残差网络(Res-152)外,还对不同深度的其他几种CNN模型进行性能比较,包括8层的Al-exNet、16层的VGGNet(VGG-16)、50层的Res-50以及101层的Res-101。所有网络模型都在ImageNet上进行了预训练。采用相同的图像预处理以进行公平比较,用随机旋转、翻转和裁剪来增加每幅皮肤图像数据,最终产生了32个子图像。
2)数据增强对分类结果的影响。对数据集进行了有无数据增强的对比实验。
图3列出了不同深度卷积神经网络模型的比较结果,包括各种评价分类结果的指标对比,可以观察到网络架构的深度对识别黑色素瘤与非黑色素瘤之间的差异会产生很大的影响。从图3以及表2中可以看出,Res-152相比其他几个浅层网络能提取判别力更强的特征,具有更好的识别黑色素瘤的性能。对于AlexNet和VGG-16,利用第一个全连接层的激活映射来提取数据特征,作为图像表达。对于Res-50、Res-101以及Res-152,利用了倒数第二层(即最后一组)卷积残差块的2 048个维度的输出来提取图像特征。由实验结果可以知道,从残差网络Res-152提取的深层特征优于从AlexNet、VGG-16、Res-50和Res-101中提取的深层特征。从表2和图3可以看出,在5种不同深度的卷积神经网络模型中,152层的深度残差网络Res-152都具有最佳的识别分类性能表现。实验结果表明,利用的卷积神经网络架构越深,则提取出的图像特征表达会更具判别力。
图3 不同网络架构的实验结果Fig.3 The result with different network architecture
对数据集进行有无数据增强的对比实验,其结果如表2所示。可以看出,在3种不同的网络架构中,没有进行数据增强的分类表现比进行了数据增强的分类结果表现都要差,具体来说,在AlexNet中进行了数据增强后,mAP提升了大约5%;在VGG-16中,mAP增长了大约8%;在Res-50中,mAP提升了大约4.2%;在Res-101中,mAP提升了大约6.8%;在Res-152中,mAP提升了大约12.8%。由此说明,随着神经网络深度的加深,数据增强能够有效增加分类结果的准确性,并且避免过拟合。
将本研究的方法与对黑色素瘤分类识别的已有文献进行对比,所采用的数据集同样是基于公开的皮肤病变图像ISBI 2016挑战数据集。
2.2.1与传统手工特征方法的比较
SIFT描述符是提取手工特征的常用描述符,已被广泛应用。将基于密集采样SIFT(DSIFT)描述符的词袋(Bag of features,BoF)模型与提出的框架进行比较,结果如表3和图4所示。DSIFT-VQ表示基本直方图量化,即图像表示由视觉词的直方图给出。另外两种为基于DSIFT特征的不同编码方式,包括局部特征聚合描述符编码(DSIF-T-VLA-D)和FV向量编码(DSIFT-FV)。可以观察到,当使用深度卷积特征替代DSIFT时,实现了mAP的大约10%的改进,这表明深度卷积特征比低级的手工特征描述符具有更强大的表达能力。
表3 与手工特征方法的对比结果
图4 与手工特征方法的对比结果Fig.4 Comparision results with hand-crafted feature
2.2.2与基于卷积神经网络方法的比较
表4列出了比较结果。对于CNN-SVM来说,利用不同网络架构提取特征,再通过SVM分类。而CNNaug-SVM为利用数据增强技术对数据集扩充,再用CNN模型提取特征输入到SVM分类。可以看到,数据增强可以提高分类结果的准确度。同时,将本研究的分类结果与最新出版的文献[20]和挑战赛中排名第一的方法[21]进行对比。Fine-tuned CNN只对网络进行微调,没有利用SVM分类。CUMED分类方法虽然灵敏性高于本研究的方法,但是其过程和计算的复杂度高,采用的多级方案涉及额外的分段预处理和网络微调。如表4和图5所示,本研究提出的框架在mAP中优于Fine-tuned CNN、CUMED及没有利用数据增强的CNN-SVM这3种方法,分别增长约为2.28%、1.94%和5.91%。
表4 与其他卷积神经网络方法的对比结果
图5 与其他卷积神经网络方法的对比结果Fig.5 Comparision results with other CNN methods
深度神经网络通过组合多层神经元,提取不同层次的特征,不断迭代组合成更高层次的抽象特征,相比传统的手工特征具有更强的特征表达能力和泛化能力。本研究基于深度神经网络,提出了一种新颖有效的方法,用于从皮肤镜图像中自动准确地识别黑色素瘤,并通过广泛的实验来研究其有效性。该方法主要启发于深度网络的卷积层特征,通常包含丰富的区分性特征信息。例如,如图6所示,在预训练的残差网络Res-152中,从不同的残差块的输出提取2D特征图,可以看到提取的特征图清楚地保留了相应局部区域的描述信息。正如在许多文献中所研究的,特征图中的每个激活可以追溯到输入图像的某个局部区域(感受野)。对于卷积层,通常用成百上千的卷积核生成大量的激活图(特征图),以捕获图像的各种特征。因此,可以聚合这些特征图的局部激活值作为特征向量,以构建比手工提取的描述符和直接从CNN全连接层提取的特征更具区分性的表达。与基于端到端训练或微调网络的现有方法相比,本研究的框架仅使用预先训练的CNN作为特征提取器,从而避免了训练过程的复杂性,因此在有限的训练样本下更为实用。以下有几个因素应该注意:首先,应该考虑图像的预处理和归一化;其次,深度学习对训练数据有严格的要求,训练数据不足、需要学习的权重参数过多会导致过拟合等问题。因此,选择适当的CNN架构,同时进行数据增强,对于提取深层卷积特征也是非常关键的。值得注意的是,本研究所提出的框架中,网络只对每个输入图像应用一次,然后从激活图中提取局部深层描述符。
图6 预训练的残差网络Res-152随机捕获一张图片的中间层的特征图。(a)输入图片;(b)~(f)残差网络的第1~5个残差块随机选取的16个通道的特征图Fig.6 Illustration of Pre-trained residual network Res-152 randomly captures a picture of the intermediate layer of the feature map. (a)is the input image, (b)~(f) Randomly selected 16 channels of the feature map of the 1st~5th residual block
本研究所提出的方法虽然取得了一定的成效,但仍然存在一些不足之处。首先,对于迁移问题,原始训练数据对目标任务有重大影响[22]。例如,与其他数据集上预先训练的网络相比,在ImageNet上预先训练的网络可能会产生不同的结果。然而,笔者只调查了在ImageNet大型自然图像数据集上预先训练过的网络,没有更多地了解在其他数据集上预训练的网络结构对黑色素瘤的影响。其次,本研究提出的框架只是在ISBI皮肤数据集上进行测试,并没有在其他的数据集上进行验证,没有进一步验证所提出网络结构的鲁棒性和泛化能力。此外,实验结果中,灵敏度指标主要计算分类器能正确识别出黑色素瘤的结果,特异性是判断非黑色素瘤的指标,由于数据不均衡,黑色素瘤相比非黑色素瘤数据量差距较大,导致特异性相比灵敏性高出大约50%。
在本研究中,提出了一个用于黑色素瘤与非黑色素瘤皮肤镜图像分类的新框架。它从深度残差网络中提取局部卷积特征,形成更复杂的表达。笔者进行了大量的实验来研究可能影响本方法性能的关键因素,包括图像预处理、数据增强、网络架构。同时,在公开的ISBI 2016挑战皮肤病变数据集上显示结果。在未来的研究中,笔者将在更多的数据集上评估这次研究的方法,并提升其在临床实践中的应用。