基于多任务学习的口腔白斑与扁平苔藓的分割与识别

2020-04-29 00:44管子玉谢飞任文研沈雪敏许鹏飞王和旭
关键词:斑纹扁平苔藓白斑

管子玉 谢飞 任文研 沈雪敏 许鹏飞 王和旭

【主持人語】得益于深度学习的强大能力,近年来人工智能的发展呈井喷态势。 人工智能顶级国际会议AAAI和IJCAI投稿数量逐年攀高, 2019年AAAI的投稿量已超过8 000篇。人工智能与行业领域结合的相关研究也越来越紧密,如电子商务人工智能、金融人工智能、医疗人工智能等。人工智能和医疗行业的结合是近年来的热点话题,人工智能技术可以在医疗领域的诸多方面进行赋能,如辅助诊断、基因分析、智能器械、生产智能调度等。本专栏主要以常见口腔粘膜病的辅助诊断和口腔医疗器械加工系统的智能动态调度作为研究内容,提出创新性的解决方案,为人工智能赋能医疗行业的技术应用深度和宽度做出些许贡献。

【主持人】管子玉,西北大学信息科学与技术学院教授,博士生导师。

摘要:口腔白斑属于癌前病变或潜在的恶性疾患范畴,诊断意义尤为重要;口腔扁平苔藓是一种常见的口腔黏膜慢性炎性疾病。两种疾病的症状相似度高导致利用传统目标识别算法难以准确识别。为此,该文提出了一种基于多任务学习卷积神经网络的口腔斑纹类疾病的目标检测、分割与识别算法。该算法通过改进的Mask R-CNN网络提取口腔斑纹类疾病图像的高维特征,以检测出相关病变的具体位置和精准区域,并识别出病损的种类。算法的改进之处在于图像检测与识别的分支网络利用分割子网络的高维特征以关注病变区域的特征,提高了口腔白斑与扁平苔藓识别的准确性。实验表明,该文所提方法相对于现有传统识别方法和常见多任务学习方法具有更高的准确性和敏感性。

关 键 词:口腔白斑识别;口腔扁平苔藓识别; Mask R-CNN;语义分割;多任务学习

中图分类号:TP391.41

DOI:10.16152/j.cnki.xdxbzr.2020-01-001开放科学(资源服务)标识码(OSID):

The segmentation and recognition  of oral leukoplakia andlichen planus based on multi-task learning

GUAN Ziyu1, XIE Fei2,3, REN Wenyan1, SHEN Xuemin4,XU Pengfei1,WANG Hexu5

(1.School of Information Science and Technology, Northwest University, Xi′an 710127, China;

2.School of Computer Science, Northwestern Polytechnical University, Xi′an 710129, China;

3.School of Computer Science, Xianyang Normal University, Xianyang 712000, China;

4.Shanghai Ninth People′s Hospital, School of Medicine, Shanghai Jiao Tong University, Shanghai 200011, China;

5.Xijing University, Xi′an 710123, China)

Abstract: Oral leukoplasia belongs to the category of precancerous lesions or potential malignant diseases. Lichen planus is a common chronic inflammatory disease of oral mucosa. The similarity of symptoms between the two diseases makes it difficult to identify accurately by using traditional target recognition algorithms. Therefore,  an algorithm for target detection, segmentation and recognition of oral spotted diseases based on multi-task learning convolutional neural network is proposed. By improving Mask-RCNN network, this algorithm can extract the high-dimensional features of images of oral macular diseases, detect the specific location and precise area of related lesions, and identify the types of lesions. The improvement of the proposed algorithm lies in that the bifurcated network of image detection and recognition pays attention to the feature extraction of lesion area by using the high-dimensional features of the segmentation subnetwork, which improves the accuracy of oral leukoplasias and lichen planus identification. Experiments show that the proposed method shows higher accuracy and sensitivity than the existing traditional recognition methods and popular multi-task learning methods.

Key words: oral leukoplasia paralysis; oral lichen planus paralysis; Mask R-CNN; semantic segmentation; multi-task learning

口腔白斑和口腔扁平苔藓都属于口腔斑纹类疾病。其中,口腔白斑属于癌前病变或潜在的恶性疾患范畴,口腔扁平苔藓是一种常见口腔黏膜慢性炎性疾病。口腔斑纹类疾病的主要症状相似度高,导致了扁平苔藓与白斑难以鉴别。目前,临床诊断主要依靠视觉诊断,容易受医生个人主观性以及临床经验影响,还会因为需要进一步病理活检而延长检查周期。快速诊断对减轻病人的痛苦以及降低疾病导致的经济损失尤为重要,计算机视觉近年来在医学图像辅助诊断取得的成绩显而易见。借助计算机辅助诊断实现口腔斑纹类疾病的自动识别分类,可以提高诊断的准确率和效率。端到端的深度卷积神经网络在图像检测与识别方面取得了良好的效果。深度卷积神经网络可以从大量样本中学习到相应有效的特征,避免了复杂的特征提取过程,通过简单的非线性模型从原始图像中提取出更加抽象的特征,高效精准区地分图像[1-2]。

近年来,随着深度学习领域的快速发展,计算机辅助诊断在医疗图像处理中得到了广泛的应用。为实现各类疾病的自动识别,目前,国内外诸多学者利用深度卷积神经网络提取特征等方法进行了很多具有重要现实意义的研究[3-4]。Andre和Brett等人[5]提出分类问题分级处理的深度卷积神经网络,以此识别不同的皮肤疾病,实验表明,该网络模型的性能表现达到了所有测试专家的水平,皮肤癌鉴定水平也达到了媲美皮肤科医生的水平。Chang等人[6]基于迁移学习设计了一个分割神经网络,实现了很高的皮损边界检测准确率和预测精度。李航等人[7]提出了一种基于深度残差网络的黑色素瘤识别算法,构建深度残差网络,提取皮肤图像中表达能力强的高维特征,该网络中的残差学习防止网络模型梯度退化实现了皮肤病黑色素瘤高精度的识别。Gerald和Bartosz[8]首先进行皮肤病变边界检测,将病变从背景皮肤中分割出来,然后,在分类阶段采用一种集成学习的方法处理训练数据中类间不平衡问题,从而提高分类准确率。这些方法均在皮肤癌黑色毒瘤的识别上取得了很好的效果。

深度学习算法在特征自主学习应用于皮肤癌的智能识别任务中表现出非常优异的性能。然而,基于口腔斑纹类皮肤疾病的自动识别分类是一项很有挑战性的工作。一方面,在口腔斑纹类疾病中,发病部位的不固定、病损形态的不规则、临床表现相似都给网络的检测识别能力带来了极大的挑战,特别的是口腔斑纹类疾病种类较多,病损外观类间相似度高和类内差异化大。例如第一类:斑块型口腔扁平苔藓与白斑难以区分,如图1(a)和1(b),两种不同的疾病在舍背部位的病损表现很是相似。第二类:扁平苔藓病损部位在唇部、舌部、两颊几种不同部位顏色与表现区别较大,如图1(b1)和1(b2),扁平苔藓在不同病损位置的临床表现差异大。另一方面,口腔斑纹类疾病图像包含光照不匀,口腔唾液的含量多少以及病人年龄性别等多种原因导致的自身口腔环境等噪声,一定程度上影响了病损的识别,如图1(c),病人口腔病损区域与正常区域极为相似,使得网络的区分难度加大。

为此,本文提出了一种基于改进的Mask R-CNN[9]口腔白斑纹类疾病的目标识别方法。对Mask R-CNN进行改进,以应用于口腔斑纹类疾病的检测、识别及分割。实验结果表明,相比传统的深度学习网络,基于改进的Mask R-CNN网络有更好的甄别能力。

1 数据预处理与模型预训练

传统的深度卷积神经网络模型存在任务单一,训练耗时长,局限于样本容量不足导致的泛化能力差等问题。本文首先针对口腔白斑与口腔扁平苔藓疾病的数据特点进行数据预处理,然后利用预训练模型迁移到我们的数据集上进行网络训练。

1.1 数据预处理

本文所采用的数据集中,口腔斑纹类疾病数据共具有115张图像,数据量相对较少。因此,数据增强[10-11]可以在很大程度上弥补数据不足的问题,能够进一步提高网络的泛化能力和识别性能。本文根据口腔斑纹类疾病图像的光照、口腔环境和视角差异对图像作出如下处理:

1)图像大小的缩放。神经网络通常使用固定大小的图像作为输入, 通常情况下, 将图像裁剪成所需的尺寸大小进行训练或特征提取。例如在VGG网络中, 图像进入网络训练之前都会被调整成为224×224, 这样会导致口腔斑纹类病损区域变形,而形状纹理信息是口腔斑纹理病损判别的重要依据。 因此, 对于口腔斑纹类疾病数据集, 将这些图像进行处理, 较小的图像按照最短边的尺寸采用双边线性插值放大图像到1 024, 较大的图片等比例缩放后从图片中随机剪裁一个1 024×1 024的图片作为输入,最终得到图像大小为1 024×1 024的口腔斑纹类疾病图像训练数据集。这样保证了口腔病损部位原有的结构纹理信息,利于模型训练。

2)数据增强。虽然卷积神经网络具有极强的表达能力,但是,医学图像的数据量过少将会使网络训练困难,容易过拟合。因此,加大训练数据集的数量,使训练模型学习到更多的图像信息,从而提高模型的分类性能和泛化能力。本文通过旋转处理、镜像处理、平移处理和随机剪切4种方式对训练数据进行增强,加大训练数据量。

1.2 模型预训练与迁移策略

深度卷积神经网络训练出成功的模型依赖庞大的数据集,需要巨大的时间资源和计算资源。深度卷积神经网络在计算机视觉和自然语言处理任务中将预训练的模型作为新模型的起点迁移到相关的自定义问题上,利用预训练模型已学习到的强大技能促使新任务更好地拟合[12-13]。在医疗领域数据量受限时,将相关问题学习到的权重作为目标数据的初始参数加以训练,是一个很好的手段。本文采用ISIC2017(国际皮肤成像合作组织提供的最大的可公开获得的皮肤病变的皮肤镜像)训练得到的模型,迁移到我们口腔斑纹类疾病数据进行微调[14]训练。

2 基于改进的Mask R-CNN的口腔斑纹类疾病的分割与识别

2.1 口腔斑纹病识别方法

针对口腔斑纹类数据集,使用单任务分类的深度学习方法进行分类存在如下问题:病损部位形态特点表现相似或者区别甚微的图像网络难以区分,将白斑和扁平苔藓误判为对方或者将病损部位同时判为白斑和扁苔藓。多任务学习能够将多个任务通过底层共享特征信息来互相分享、互相促进、互相补充,提升网络的泛化效果。Mask R-CNN就是一个具有多任务学习能力且表现良好的神经网络,在Faster R-CNN网络分类与目标检测分支的基础上并行的增加了一个分割的分支,并将区域建议网络RPN之后提出候选区域部分的RoIPooling替换成RoIAlign,解决网络输入与输出的像素级的对齐实现[9,15],从而提高了网络模型的效率以及正确性。

本文根据口腔白斑与口腔扁平苔藓的识别依据——病损形态、病理特点、临床表现,设计了基于口腔斑纹理疾病的识别方法。通过该方法,可以有效解决口腔斑纹类疾病由于样本量少造成泛化能力差的问题。该网络模型的基本原理是:首先,通过CNN提取图像共享的、更为一般性的特征信息;然后,利用共享的特征信息进一步提取两个分支特定的特征信息[16];最后,根据分类网络利用本身特征信息以及分割的特征信息共同对口腔斑纹类疾病进行识别。多任务学习模型采用的结构如图2所示。

2.2 改进Mask R-CNN网络的构建

根据网络的设计原理,改进的Mask R-CNN网络主要分为两个部分。第一部分通过硬共享网络[17]获取共享的深层特征图并提取拟候选区域,将拟选区域映射到特征图中,通过RoIAlign层进行池化,作为两个分支的输入,这样的共享网络事实上降低了过拟合的风险[17-18]。第二部分将网络前半部分获取的更为一般性特征信息作为检测识别的分支和分割分支的输入,然后,每个分支网络提取更适合自己任务的特征信息,分类子网络再联合分割分支的特征输入到全连接层,经SoftMax分类输出得到目标类别,同时获得了病损部位的分割图。该网络前半部分使用相同参数的共享网络模型,采用Resnet101为基础网络提取图像深层特征,后半部分包含两个子网络,为检测与识别子网络并分割子网络。

通过实验分析,提取共享特征信息的网络从口腔病人图像中最终得到256个深层特征图序列。将共享网络的特征图序列作为分割子网络与检测识别子网络的输入。将分割子网络最终确定为由5个卷积层和2个转置卷积层组成的CNN网络:

(conv+ReLU)+(conv+BN+ReLU)+

(conv+ReLU)+(conv+BN+ReLU)+

(deconv+ReLU)+(deconv+ReLU)+

(conv+Sigmoid)(1)

分割子网络的前4个卷积层卷积核大小均为3×3,步长为1,每一个卷积层后面加BatchNorm层以加速网络收敛,提高泛化能力[19],激活函数均采用ReLU函数[20]。通过卷积得到了256个特征图信息,再通过一个转置卷积层,卷积核为2×2,步长为2,对前面得到的特征图进行上采样,使其学习到图片的中低层特征丰富特征集,这些特征集对任务的鲁棒性有着积极的作用[21]。最后,采用1×1的卷积核对每个像素语义类别预测。将检测与识别子网络模型最终确定为3个卷积层与两个全连接层组成的CNN:

(conv+ReLU)+(conv+ReLU)+

(conv+ReLU)+(FC+BN+ReLU)+

(FC+BN+ReLU) (2)

检测与识别子网络卷积层的卷积核大小为3×3,步长为1,激活函数为ReLU函數,通过3层卷积获得256个高层特征图,再通过2个全连接层分别做目标检测任务和分类任务输出。

将图像输入到共享网络,学习到的特征表示为F(x),然后将共享特征信息F(x)输入到两个分支网络,检测识别子网络学习到的特征表示为F(x1),分割子网络学习到的特征为F(x2)。口腔斑纹类疾病的分类结果依赖与F(x1)和F(x2),将F(x1)+F(x2)特征图输入到全连接层,最终属于哪类疾病的预测概率可以用式(3)计算,

p(Y=i|x,w,b)=softmax(wx+b)=

exp(wi+bi)∑jexp(wj+bj)。(3)

其中:w为神经网络的权重参数;b为偏置参数;x为输入的图像信息;i为所属类别(口腔白斑、口腔扁平苔藓、其他)。

改进的网络结构整体设计如图3所示。用共享网络提取图像的普适性特征,分别使用两个网络提取各自的高度特征,检测识别子网络利用分割网络的特征信息,高度关注病损部位,对口腔斑纹类疾病的分类具有很大的帮助。综上所述,本文提出的网络根据口腔斑纹类数据的特点能进行良好的识别。

3 实验与分析

3.1 实验设置

由于对口腔斑纹类疾病的相关研究目前还没有公开的数据集。为验证本文提出的方法能够有效地识别口腔白斑与扁平苔藓,我们采集了真实口腔白斑与扁平苔藓患者的图像进行了实验。其中,口腔白斑图像数据86例,口腔扁平苔藓图像79例。并且,由3位专科医生对患者的病损部位进行划线标注,以及通过资质专家对标注进行最终审核确认。本文按一定比例随机划分数据,分别使用70%的图像作为训练数据、10%的图像作为验证数据,剩余的20%作为测试集数据。

本文基于tensorflow和keras平台,采用改进的Mask R-CNN,针对口腔数据对网络进行结构的搭建和模型的训练测试。为验证本文提出方法的优越性,将本文方法与AlexNet,VGG和Resnet在分类结果上对比,与Mask R-CNN在分类与分割结果进行对比。

3.2 实验结果

本文采用的口腔斑纹类疾病图像数据是口腔的不同部位,有的部位难以拍摄,需要辅助工具,且拍摄角度以及光源导致病变部位有些许曝光,因此,造成部分数据病损形态、病理特点有部分差异;此外,由于不同性别、不同年龄以及不同的口腔环境导致拍摄的病损图像差异略为明显,如图1所示。由于口腔斑纹类疾病图像数据的复杂性,对病损区域进行检测、识别以及分割任务存在较大挑战。

本文主要针对口腔白斑及口腔扁平苔藓的辅助诊断问题,利用改进的Mask R-CNN进行口腔病损区域分类识别(口腔白斑、扁平苔藓及其他情况)与分割。现有的关于口腔斑纹类疾病的相关研究极少,因此,本文方法与AlexNet,VGG,ResNet和Mask R-CNN进行对比分析,以验证提出方法的有效性和优越性。前3个网络模型均为单一的神经网络以进行口腔斑纹类疾病的识别。而Mask R-CNN是将标签与分割图的训练数据输入网络,提取特征以进行分类识别并分割出病损区域。实验结果如表1所示,可以看出传统的网络模型对口腔斑纹类数据识别效果不佳,其中,性能最好的Resnet101分类结果仅能达到47.51%。本文使用改进的Mask R-CNN,准确率比AlexNet,VGG,ResNet和Mask-RCNN高出10.95%,11.73%,8.09%,4.25%。

图4为Mask R-CNN与本文提出的方法在口腔斑纹类数据测试集上的分割结果对比图,包含了检测、分类及分割。图中4(a1)和4(a2)的细线为医生确认的病变部位,图4(b1)和4(b2)为测试数据在Mask R-CNN上测试的结果,图4(c1)和4(c2)为测试数据在改进Mask R-CNN上测试的结果。图4中,方框为网络检测到的目标病变区域,方框左上角为病损分类名称,彩色区域为网络分割的病损块。图4(b1)的左图在Mask R-CNN上没有分割出病变区域,图4(b1)的右图以及图4(b2)的两例图像在Mask R-CNN上分割出的病损区域远小于真实病损区域,并且图4(b1)和4(b2)的右图被错误分类。而这几个测试图像在改进的Mask R-CNN网络上都有较好的表现,展示了提出方法的有效性和优越性。

4 结 论

针对口腔白斑与扁平苔藓检测、识别与分割任务,本文提出利用多任务学习的思想,对Mask R-CNN网络进行改进,使得分类网络能够利用分割网络的特征信息,从而在分类过程中更加关注病损部位的特征信息。针对口腔斑纹类疾病病损区域特征的复杂性,本文解决了口腔白斑与扁平苔藓的病损区域难以准确分割与分类识别的问题。实验表明,本文改进的Mask R-CNN网络相对于现有传统的识别方法和相关多任务学习的方法具有更高的准确性和敏感性。

参考文献:

[1] LIU B C, HUO W, ZHANG C, et al. αDiff:Cross-version binary code similarity detection with DNN[C]∥Proceedings of the 33rd ACM/IEEE International Conference on Automated Software Engineering. ACM, 2018: 667-678.

[2] LECUN Y, BENGIO Y, HINTON G. Deep learning[J].Nature, 2015, 521(7553): 436-444.

[3] HAN S S, LIM W, KIM M S, et al. Interpretation of the outputs of a deep learning model trained with a skin cancer dataset[J].Journal of Investigative Dermatology, 2018, 138(10): 2275-2277.

[4] REZVANTALAB A, SAFIGHOLI H, KAIMIJESHNI S. Dermatologist level dermoscopy skin cancer classification using different deep learning convolutional neural networks algorithms[J].arXiv:Computer Vision and Pattern Recognition,2018.

[5] ESTEVA A, KUPREL B, NOVOA R A, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017, 542(7639): 115-118.

[6] CHANG H. Skin cancer reorganization and classification with deep neural network[J].arXiv:Computer Vision and Pattern Recognition,2017.

[7] 李航,余鎮,倪东,等. 基于深度残差网络的皮肤镜图像黑色素瘤的识别[J].中国生物医学工程学报,2018,37(3): 274-282.

LI H,YU Z,NI D, et al. Melanoma recognition in dermoscopy images via deep residual network[J].Chinese Journal of Biomedical Engineering,2018, 37(3): 274-282.

[8] SCHAEFER G, KRAWCZYK B, CELEBI M E, et al. An ensemble classification approach for melanoma diagnosis[J]. Memetic Computing, 2014, 6(4): 233-240.

[9] HE K M, GKIOXARI G, DOLLR P, et al. Mask r-cnn[C]∥Proceedings of the IEEE international conference on computer vision(ICCV). IEEE,2017: 2961-2969.

[10]PEREZ L, WANG J. The effectiveness of data augmentation in image classification using deep learning[J].arXiv:Computer Vision and Pattern Recognition, 2017.

[11]PEREZ F, VASCONCELOS C, AVILA S, et al. Data augmentation for skin lesion analysis[M]∥Lecture Notes in Computer Science. Cham: Springer International Publishing, 2018: 303-311.

[12]YOSINSKI J, CLUNE J, BENGIO Y, et al. How transferable are features in deep neural networks?[C]∥Advances in Neural Information Processing systems,2014: 3320-3328.

[13]LONG M S, CAO Y, WANG J M, et al. Learning transferable features with deep adaptation networks[J].arXiv:Learning, 2015.

[14]ZHOU Z W, SHIN J, ZHANG L, et al. Fine-tuning convolutional neural networks for biomedical image analysis: actively and incrementally[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017: 7340-7351.

[15]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.

[16]彭先霖, 張海曦, 胡琦瑶. 基于多任务深度卷积神经网络的人脸/面瘫表情识别方法[J].西北大学学报 (自然科学版), 2019,49 (2): 187-192.

PENG X L,ZHANG H X,HU Q Y. Facial/paralysis expression recognition based on multitask learning of deep convolution neural network[J].Journal of Northwest University ( Natural Science Edition) , 2019,49 (2): 187-192.

[17]CARUANA R A. Multitask learning[J].Machine Learning,1997,28(1):41-75.

[18]BAXTER J. A Bayesian/information theoretic model of learning to learn via multiple task sampling[J].Machine Learning, 1997,28(1): 7-39.

[19]IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J].arXiv:Learning, 2015.

[20]KIHARA Y, DUAN G, NISHIDA T, et al. A dynamic facial expression database for quantitative analysis of facial paralysis[C]∥2011 6th International Conference on Computer Sciences and Convergence Information Technology (ICCIT). IEEE, 2011: 949-952.

[21]ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, San Francisco, 2010: 2528-2535.

(编 辑 李 静)

作者简介:

管子玉,男,河北邢台人,1982年生,博士,西北大学信息科学与技术学院教授,博士生导师,国家优秀青年科学基金获得者。浙江大学学士,2004年保送攻读博士学位,师从陈纯院士,于2010年6月获得浙江大学计算机科学与技术专业博士学位。2010年至2012年在美国加州大学圣芭芭拉分校从事博士后研究工作。2012年进入西北大学任研究员,2014年1月取得教授职称,同年遴选为博士生导师。2015年获得国家自然科学基金委优秀青年科学基金项目资助,2016年获陕西省青年科技新星称号。研究方向为机器学习和智能媒体计算。在数据挖掘、信息检索、数据管理等领域的顶级国际会议和期刊发表论文50余篇,包括ACM WWW,ACM SIGMOD,VLDB,IEEE ICDE,ACM SIGKDD,ACM SIGIR,IJCAI,AAAI,IEEE TKDE,IEEE TNNLS等。担任领域内知名SCI期刊Neurocomputing和International Journal of Machine Learning and Cybernetics的编委,担任多个顶级国际会议程序委员会委员,如SIGKDD,IJCAI,NIPS,ICML,AAAI等,担任顶级会议IJCAI 2017/2018/2019/2020资深程序委员会委员,是国际会议环太平洋多媒体会议PCM 2016的组织主席。

猜你喜欢
斑纹扁平苔藓白斑
对虾白斑综合征病毒免疫应答研究进展
白斑消褪靠自灸
扁平苔藓的诊断与治疗进展
老守卫斑纹蜂
斑纹游戏的最优解
绕远的斑纹鹿
惹人痒的外阴白斑
维吾尔医治疗85例外阴白斑临床疗效总结
家蚕斑纹茧色特色育种素材创制及应用
泛发性疣状扁平苔藓一例