罗绍猛 文家燕 陈彬
摘 要:瘢痕是皮肤伤口处真皮组织异常增生的疾病,其病理情况主要体现在色泽和血管分布程度,准确、客观的瘢痕评估对其诊治具有关键作用。针对传统评估方式具有主观性较大以及效率低下等问题,研究了一种基于卷积神经网络的瘢痕色泽和血管分布评估算法。首先,收集大量各类型的瘢痕图像制作数据集;其次,分析了GoogLeNet网络模型的结构和优势,并结合瘢痕图像的特点对原模型做出改进优化;最后提出了基于改进网络的双模型评估算法。实验结果表明:改进网络模型较传统GoogLeNet模型参数量减少了65%,但其瘢痕评估性能依然优于后者,也优于AlexNet和ResNet等经典深度学习网络;同时,基于改进网络设计的双模型评估算法进一步提升了识别性能,缩小了误判范围,提高了评估准确性。本文方法可以为瘢痕辅助诊断系统的应用提供新的技术参考。
关键词:瘢痕评估;图像识别;迁移学习;深度学习;GoogLeNet改进模型
中图分类号:R619.6;TP317.4 DOI:10.16375/j.cnki.cn45-1395/t.2022.03.006
0 引言
瘢痕是皮肤创伤后真皮层纤维过度生长的一种现象,常出现在意外受伤、手术或烧伤等皮肤损伤后。瘢痕的临床评估方式与治疗一直是医学研究的热点和难点[1]。在病情诊断、针对性治疗方案制定以及临床疗效判定和比较中,精准、客观的瘢痕评估起着关键作用[2]。
目前的临床瘢痕诊断或评估主要依赖医生的个人经验以及瘢痕评分量表,这两种手段存在一定的主观性,会受到诊断者的熟练程度和观察时所处状态的影响[3]。早期、增生期、消退期和成熟期的瘢痕会呈现各自阶段性的状态特点,临床医生主要根据病灶区域的色泽、厚度、血管分布、柔软度和患者痛痒感等指标进行评估。国际上常用的评估量表有温哥华瘢痕评估量表(Vancouver scar scale,VSS)、患者与观察者瘢痕评估量表(the patient and observer scar assessment scale,POSAS)[4]。相较于POSAS,VSS是更为广泛使用的瘢痕评量方法,其围绕着病灶的色泽、血管分布、厚度和柔软度等4个指标对瘢痕进行描述评估。使用VSS时,由诊断者对患者的病灶进行观察和触摸,并对各项指标分别进行评分。不同评估量表均从瘢痕的各项特征进行估量描述,但由于只依赖肉眼观察和徒手触诊,同一处瘢痕的评估结果可能会存在差异[5]。
色泽和血管分布是评估量表中重点评价的指标,直接反映了瘢痕内组织的供血情况,与瘢痕所处的病理阶段具有直接的关联性。虽然瘢痕有着异于周围皮肤的颜色,但肉眼观察难以区分色泽的细微差异。在临床研究中,利用一些测量仪器对瘢痕色泽和血管分布进行客观采集与评估[6],如使用三刺激值色度计和窄谱反射分光光度计来客观量化、测定瘢痕红斑和黑色素沉淀情况[7]。尽管这种方法客观准确,但专业仪器价格昂贵,使用者需要经过专业培训,较为耗时费力。
随着数字成像技术的进步,数码照片能够较为完整地还原拍摄物的特征,因此,出现了不少借助数字图像对瘢痕进行分析的研究成果。如将RGB格式的数字照片转换成L*a*b*颜色空间对瘢痕的颜色进行客观定量评估[8],在Color Worker软件上进行基于图像的瘢痕色彩测量[9],以及使用ImageJ软件对瘢痕的数字图像进行血管性分布的评估测量[10]。研究表明,深度学习技术在皮肤病图像识别方面有着优良的性能,不仅处理高效,且诊断水平能与专业医生媲美[11-13]。现有文献中的大量研究工作都是关于瘢痕图像分析,而利用深度学习对瘢痕进行辅助评估的研究较为少见。本文探究了深度学习技术在瘢痕评估上的应用,提出了一个适应瘢痕图像的改进GoogLeNet模型和一种基于改进模型的评估算法,为瘢痕诊断提供一种自动、准确和高效的评估方案。
1 实验材料与预处理
文中数据收集于柳州市某三甲医院,照片拍摄于室内照明环境,原始图片像素为6 000×4 000,瘢痕图像数据涵盖了人体四肢、前胸、后背和腹部等身体部位。样本整理流程如图1所示,首先排除病灶模糊、光线不足和反光等低质量照片,然后将原图分块为带有病灶区域的小图,得到不同阶段的瘢痕图像样本数据1 360张。
依据VSS中色泽和血管分布的标准对每一张小图进行分类标注。为简洁起见,将VSS里色泽等级的“正常”“浅度”“深度”标记为P0、P1和P2。而血管分布程度的“正常”“粉色”“红色”和“紫色”分别标记为V0、V1、V2和V3,则一张色泽情况为“浅度”、血管分布程度为“粉色”的瘢痕图像可以标记为P1V1。整理得到的各级别瘢痕样本分布极不均匀,分别为:72张P0V0、85张P0V1、219张P1V1、260张P1V2、300张P2V2、424张P2V3。由于严重的数据不平衡会造成机器学习模型的预测结果偏向具有更多样本的类别,所以对部分数量较少的类别进行数据扩充,扩充方式包括水平垂直翻转、不同角度旋转等[14]。最后将数据集随机划分为70%、15%和15%的训练集、验证集和测试集,用于训练机器学习模型以及验证测试模型的分类性能。各个类别的瘢痕数量如表1所示。
2 GoogLeNet模型及改进
2.1 GoogLeNet模型介绍
提升深度学习网络性能的方法通常是增加网络层次和神经元数量,但这会导致参数过多、计算复杂和梯度弥散等问题。GoogLeNet团队提出了Inception模块,以此构建一个既能保持网络结构稀疏,又能利用密集矩阵的高计算性能的网络模型[15]。Inception模块的结构如图2所示,由1*1、3*3、5*5等3個常用卷积以及3*3池化构成。因为所有的卷积核都对前一层的输出特征图进行计算,而3*3卷积和5*5卷积需要的计算量较大,经过多层堆叠后会造成特征图厚度过大。为了避免该情况,分别在3*3、5*5卷积之前,以及3*3池化之后连接1*1卷积核。这一结构不仅能降低参数数量,还能增加网络的非线性。基于Inception模块的GoogLeNet网络包含3个卷积层和9个Inception模块,虽然22层网络深度超过了16层的VGG网络,但模型参数只有VGG网络的1/36。因此,在计算资源有限的情况下,GoogLeNet网络是比较好的 选择。
2.2 模型改进
虽然GoogLeNet在分类性能上表现优秀,但对于本文研究的瘢痕评估任务,原网络显得复杂冗余。因此,需要对网络进行改进,让其更好地适应瘢痕数据样本。改进模型除了用到常规的卷积和Inception模块,还在分类层之前引入批归一化层(batch normalization,BN),分类层则继续沿用全局平均池化代替全连接层来将特征图转换为特征向量,从而达到减少模型参量和防止过拟合等目的。
2.2.1 全局平均池化层
在卷积神经网络中,通常由若干个卷积层来提取图像特征,得到一个多层的特征图。在分类阶段使用全连接层将所有的特征铺展成一维的长向量,接着逐次降低这个长向量的维度,最后使用softmax进行分类。特征图铺开的长向量维度太低会造成特征丢失,而使用长向量又会造成全连接层的参数过多,使得网络训练速度缓慢。全局平均池化则使用特征图的均值来代替该层的特征信息,原理如图3所示。得到一个与卷积层输出特征图层数相同的特征向量后,把该向量输入softmax层来得到各种类别的概率分布,从而实现分类。这个过程不需要调整参数权值,能显著地减少网络参数。
2.2.2 批归一化层
统一规整的数据更容易让模型学习到数据之间的规律。BN层是深度学习中常用的网络优化方法,将BN层置于网络的激活层之前能避免梯度爆炸或梯度消失问题,从而加快模型的收敛速度,稳定训练过程。该层进行的处理如下:
输入数值集合[B={x1, x2, …, xm}],计算其均值[μB]和方差[σB]:
[μB=1mi=1mxi] , (1)
[σ2B=1mi=1m(xi-μB)2] . (2)
正则化:
[xi=xi-μBσ2B+ε] . (3)
式中:[ε]为偏置,设置为固定值。
输出[yi=γxi+β],其中:[γ]和[β]是需要学习的 参数。
通过以上处理,能将输入数据规整到统一区间,而通过参数[γ]和[β]还原,BN层能够在归一化之后保留原数据的分布,防止模型在训练时产生过拟合现象[16]。
2.2.3 瘢痕分类模型
GoogLeNet是针对大规模多类别数据集而设计的分类网络,对多类别图像分类性能显著。本文结合瘢痕图像的特点,在原始GoogLeNet的基础上设计了一个适用于瘢痕色泽和血管分布程度的分类网络结构。在大型数据集中对多种类别进行分类时,需要网络能够提取到更细致的特征來进行识别,因此,需要模型具有一定的深度来增加表达能力[17]。本文研究的是瘢痕色泽和血管分布的分类任务,在类别数量和特征层次上远小于原始网络解决的分类问题。为适应瘢痕图像样本,对原始GoogLeNet模型做了调整,改进前、后的网络结构分别如图4和图5所示。原始模型中利用9个Inception模块来增加网络的深度和宽度,考虑到瘢痕图像特征的复杂度较低,不需要很深的网络来提取特征,因此,可以对模型进行适当精简。改进模型中使用卷积和5个Inception模块来提取瘢痕特征,在最后一个Inception模块的输出后使用1*1卷积进行特征映射和降维,在该1*1卷积和分类层之间增加BN层以加速网络收敛。分类层则由全局平均池化和Dropout层构成。改进后的网络结构从原模型深度的22层降至16层,将其命名为GoogLeNet-Scar,作为瘢痕评估算法的识别网络。
2.3 基于改进模型的评估算法
使用VSS评估表的瘢痕评估是为了获得描述患者病灶情况的等级分数,该分数由各个子项目得分累加,分数高低对应着瘢痕总体情况的好坏。与多数深度学习识别应用一样,可以利用单个识别网络对瘢痕色泽和血管分布的总分进行预测评估。本文提出一种双模型预测评估算法,首先,训练瘢痕色泽和血管分布总分的评估网络;随后基于该总分评估模型使用迁移学习的方式分别训练色泽评估模型和血管分布评估模型,联合2个模型对同一张图像进行分数评估;最后,将2个分数相加得到瘢痕色泽和血管分布的总分。方法的流程如图6所示。
3 实验与结果分析
3.1 实验环境与参数设置
评估算法实现的硬件环境为:Intel Core i5-7300HQ CPU @2.5GHz,16 GB运行内存,GPU为Nvidia GTX1050。软件环境为:64位Windows10操作系统,MATLAB2020b平台。
训练模型时采用随机梯度下降算法(stochastic gradient descent,SGD)进行优化。设置batchsize为32,初始学习率设为0.001 6,并加入学习率衰减策略,当验证准确率在连续10个迭代轮次中都不上升时,将学习率降低一半。动量参数取0.9,最大迭代轮数(epoch)为150轮。
3.2 评价指标
由于数据集中瘢痕图像样本分布不均匀,单从准确率(accuracy,[A])评价模型和算法的性能难免存在一定偏差,因此,除了准确率,还使用查准率(precision,[P])、查全率(recall,[R])和[F1]值来评估和对比算法的性能,通过式(4)—式(7)进行计算。
[A=NTP+NTNNTP+NFP+NTN+NFN×100%] , (4)
[P=NTPNTP+NFP×100%] , (5)
[R=NTPNTP+NFN×100%] , (6)
[F1=2×P×RP+R×100%] . (7)
其中:[NTP]表示真实类为正,算法预测也为正;[NTN]表示真实类为负,算法预测也为负;[NFN]表示实际为正,但算法预测为负;[NFP]表示实际为负,但算法预测为正。
3.3 结果与分析
模型训练就是通过多轮迭代求解最佳的权重和偏置,使得模型预测值与真实值的差距最小,通常以损失函数描述该差距。本文采用交叉熵损失函数来度量模型预测值和真实值之间的差异程度,可由式(8)计算得到:
[L=-1Ni=1Nc=1Myiclog(pic)] . (8)
式中:[N]为样本总量;[M]表示类别数量;[yic]取0或1,当样本[i]的真实类别与[c]相同时取1,否则取0;[pic]表示样本[i]属于[c]类别的预测概率。
本文在预训练的GoogLeNet上进行改造,获得GoogLeNet-Scar网络,再基于改进的网络模型设计瘢痕色泽和血管分布评估算法。为检验改进网络和算法的性能,在相同数据集上训练了GoogLeNet、ResNet50、SqueezeNet和AlexNet等4种模型进行对比测试。图7所示为各模型训练過程的准确率,损失值随训练的变化如图8所示。
相较于其他深度学习网络结构,改进模型GoogLeNet-Scar网络和原模型GoogLeNet在准确率和损失值方面有突出优势。原模型取得的准确率为93.97%,损失值为0.34,改进模型最终验证集的准确率和损失值分别为94.88%和0.18,分类性能小幅度提升。但是,验证集并不能完全体现模型的泛化能力,需要在测试集中对比各模型的差异。表2展示了各模型在测试集中的表现以及综合性能参数。由表2可以看出,GoogLeNet综合性能高于其他经典模型。尽管改进模型GoogLeNet-Scar在测试准确率上只比原模型提高了1.23%,但在相同运行环境下,处理单张图像的耗时降低了21%,在内存需求上比原模型的需求降低65%,这得益于改进模型参数量的减少,具体如表3所示。减少的权重和偏置参数能加快模型的推理速度,减少存储空间占用。实验结果说明,在降低网络深度以及大幅减少参数量的情况下,改进模型GoogLeNet-Scar依然能保持对瘢痕图像的识别性能。从理论层面分析,卷积神经网络随着深度的增加,网络提取的特征逐渐从简单独立的浅层特征过渡到复杂整体的深层特征[18]。而瘢痕图像的内容并不复杂,可以依靠颜色、纹理、棱角和边缘等浅层次的特征进行分类,故而改进网络对瘢痕图像具有一定适应性。
因此,可以把改进模型应用到本文提出的双模型识别评估算法中,对GoogLeNet-Scar进行微调,通过迁移学习来实现色泽和血管分布2种识别任务,然后联合2个识别的结果对瘢痕图像进行总分评估。双模型算法在测试集实验中的准确率为96.15%,进一步将准确率提高了1.84%。为详细对比算法和改进模型GoogLeNet-Scar的分类性能,在表4中列出了测试集里2种方法对各类型瘢痕图片识别的准确率、查准率、查全率和[F1]值,图9为两者评估结果的混淆矩阵。
由表4可知:相较于单GoogLeNet-Scar模型,双模型评估算法对6种类型瘢痕图像识别的性能均有提高,其中准确率均值提高了0.62%,查准率均值提高1.95%,查全率均值提高1.71%,[F1]值提升1.83%。这表明双模型算法在瘢痕色泽和血管分布评估任务里能够起到优化作用。
虽然二者在平均准确度方面相差不大,但由图9可以观察到,单GoogLeNet-Scar模型进行测试集评估时,将一部分“P1V1”的样本预测成了另外5种类型,并且出现了将真实类为“P2V3”的样本预测成“P1V1”的情况。这意味着单个GoogLeNet-Scar模型的误判区间是多跨度的,即从比较轻微到严重。而双模型评估算法中,误判类别主要集中在真实类的相邻位置,也就是算法进行评估时不会跨越多个程度,即使出现误判,其结果也与真实情况相近,这更贴近临床实际的评估情况。因此,提出的改进模型以及算法在瘢痕色泽和血管分布评估方面有着良好的适应性。
4 结语
本文探索了基于深度学习的瘢痕色泽和血管分布的评估方法,根据瘢痕图像的特点,在GoogLeNet网络的基础上进行了模型改进,设计得到GoogLeNet-Scar深度卷积神经网络模型。与原模型以及其他经典的卷积神经网络相比,改进后的模型不仅在瘢痕图像的识别性能上有所提升,同时在参数量、内存需求以及运行耗时上有着明显的优势。此外,本文提出了一种基于改进模型的瘢痕色泽和血管分布评估算法,用双改进模型对瘢痕进行评估,实验结果表明:双模型评估算法能进一步提高识别的性能,对每种类型病灶的评估的平均准确率达到了98.72%。该方法可以为瘢痕自动诊断系统的开发提供一定参考。本文的研究尚有一些局限,如数据集数量较少和样本分布不均等。未来将收集更多样本数据,同时继续研究在保持识别性能的前提下,如何缩减识别网络的体量,以便于移植和推广到实际的瘢痕临床辅助诊断中。
参考文献
[1] 沈小鹏,李东.瘢痕防治及其研究进展[J].中华临床医师杂志(电子版),2019,13(6):463-467.
[2] 袁妤婷,魏在荣.瘢痕评估方法研究现状[J].中国实用医药,2019,14(2):195-196.
[3] 陈洁,杭菁,韦宗凯,等.超声技术在病理性瘢痕诊疗评估中的研究进展[J].中华超声影像学杂志,2019,28(11):1009-1010,1012.
[4] 柯俐安,杨军.增生性瘢痕无创性评估策略及方法[J].组织工程与重建外科杂志,2016,12(4):262-265.
[5] LEE K C,BAMFORD A,GARDINER F,et al. Burns objective scar scale (BOSS):validation of an objective measurement devices based burn scar scale panel[J].Burns,2020,46(1):110-120.
[6] UD-DIN S,BAYAT A. Non-invasive objective devices for monitoring the inflammatory,proliferative and remodelling phases of cutaneous wound healing and skin scarring[J].Experimental Dermatology,2016,25(8):579-585.
[7] DENG H,LI-TSANG C W P. Measurement of vascularity in the scar:a systematic review[J]. Burns,2019,45(6):1253-1265.
[8] CHEON Y W,LEE W J,RAH D K. Objective and quantitative evaluation of scar color using the L*a*b* color coordinates[J].Journal of Craniofacial Surgery,2010,21(3):679-684.
[9] ANDERSON J C,HALLAM M J,NDUKA C,et al.The challenge of objective scar colour assessment in a clinical setting:using digital photography[J].Journal of Wound Care,2015,24(8):379-387.
[10] TEPLYI V,GREBCHENKO K. Evaluation of the scars' vascularization using computer processing of the digital images[J].Skin Research and Technology,2019,25(2):194-199.
[11] PACHECO A G C,KROHLING R A.An attention-based mechanism to combine images and metadata in deep learning models applied to skin cancer classification[J]. IEEE Journal of Biomedical and Health Informatics,2021,25(9):3554-3563.
[12] HAN S S,KIM M S,LIM W,et al.Classification of the clinical images for benign and malignant cutaneous tumors using a deep learning algorithm[J].Journal of Investigative Dermatology,2018,138(7):1529-1538.
[13] 龍雪,李政林,王智文,等. 基于改进U-Net网络的肺部CT图像结节分割方法[J].广西科技大学学报,2022,33(1):63-70.
[14] YU Z,JIANG X D,ZHOU F,et al. Melanoma recognition in dermoscopy images via aggregated deep convolutional features[J].IEEE Transactions on Bio-Medical Engineering,2019,66(4):1006-1016.
[15] SZEGEDY C,LIU W,JIA Y Q,et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015:1-9.
[16] 韩要昌,王洁,史通,等.基于改进GoogLeNet的遥感图像分类方法[J].弹箭与制导学报,2019,39(5):139-142.
[17] 宋晨勇,白皓然,孙伟浩,等. 基于GoogLeNet改进模型的苹果叶病诊断系统设计[J].中国农机化学报,2021,42(7):148-155.
[18] ZEILER M D,FERGUS R.Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision (ECCV),2014:818-833.
Evaluation algorithm for pigmentation and vascularity of
hypertrophic scar based on improved GoogLeNet
LUO Shaomeng1, WEN Jiayan*1,2, CHEN Bin3
(1.School of Electrical, Electronic and Computer Science, Guangxi University of Science and Technology,
Liuzhou 545616, China; 2. Guangxi Key Laboratory of Automobile Components and Vehicle Technology,
Liuzhou 545006, China; 3. Liuzhou Worker's Hospital (The Fourth Affiliated Hospital of Guangxi Medical
University), Liuzhou 545007, China)
Abstract: Hypertrophic scar is a disease of abnormal proliferation of dermal tissue at skin wounds. The pathological condition of hypertrophic scar is mainly reflected in the degree of pigmentation and vascularity. Accurate and objective scar assessment plays a critical role in diagnosis and treatment. To address the problems of subjectivity and inefficiency of traditional assessment methods, this paper researches an evaluation algorithm for the degree of scar pigmentation and vascularity based on convolutional neural network. Firstly, a large number of hypertrophic scar images of various types were collected to produce a dataset. Secondly, the structure and advantages of the GoogLeNet network model are analyzed, and the model is improved and optimized according to the characteristics of the scar image. Then a dual model evaluation algorithm based on the improved network is proposed. The experimental results show that even if the improved network has 65% less parameters than the original GoogLeNet model, the former still outperforms the latter in the assessment task, and is also higher than other classical deep learning networks such as AlexNet and ResNet. The dual-model evaluation algorithm based on the improved network design further improves the recognition performance, reduces the scope of misjudgment, and increases the evaluation accuracy. This method can provide a new technical reference for the application of scar auxiliary diagnosis system.
Key words: hypertrophic scar assessment; image recognition; transfer learning; deep learning; GoogLeNet improved model
(責任编辑:黎 娅)