使用GANomaly网络的面瘫识别应用研究

2022-03-07 02:21王齐陈功胡文昕胡嘉
软件工程 2022年3期
关键词:异常检测深度学习

王齐 陈功 胡文昕 胡嘉

摘  要:周围型面瘫作为一种多为急性发作的临床常见病,治疗上需要准确掌握患者发病状态,以便判断治疗的最佳时机。现有的面瘫治疗方法多依赖于医生对患者临床症状的直观判断,而本文通过研究当前基于深度学习的异常检测方法,并将异常检测生成对抗网络(GANomaly)作用于面瘫图像上,实现正常人脸和面瘫人脸的识别分类,为医生诊断提供辅助工具,可有效提高诊断效率,弥补现有方法的不足。训练后的GANomaly网络可有效分辨出面瘫图像的异常。实验结果表明,基于深度学习的GANomaly网络可有效实现面瘫的诊断识别。

关键词:深度学习;面瘫识别;异常检测;GANomaly

中图分类号:TP39     文献标识码:A

Application Research of Facial Paralysis Recognition based on GANomaly Network

WANG Qi1, CHEN Gong1,2, HU Wenxin1, HU Jia1

(1. School of Artificial Intelligence and Information Technology, Nanjing University of Chinese Medicine, Nanjing 210046, China;

2. Jiangsu Province Hospital of Chinese Medicine, Nanjing 210029, China)

20190616@njucm.edu.cn; wqdlrb@163.com; 20200998@njucm.edu.cn; 20200997@njucm.edu.cn

Abstract: Peripheral facial paralysis is a common clinical disease that is mostly acute. It is necessary to accurately grasp the patient's onset status in order to determine the best time for treatment. Existing facial paralysis treatments mostly rely on doctors' intuitive judgments of patients' clinical symptoms. This paper proposes to study current deep learning-based anomaly detection methods, and apply generative adversarial networks for anomaly detection (GANomaly) to facial paralysis images, so that recognition and classification of normal faces and facial paralysis ones are realized. It provides auxiliary tools for doctors to diagnose, which effectively improve the efficiency of diagnosis and make up for the shortcomings of existing methods. The trained GANomaly network can effectively distinguish the anomalies of facial paralysis images. The experimental results show that the GANomaly network based on deep learning can effectively realize the diagnosis and recognition of facial paralysis.

Keywords: deep learning; facial paralysis recognition; anomaly detection; GANomaly

1   引言(Introduction)

面癱是临床多发疾病,患者发病时会出现口眼歪斜、脸部痉挛、唾液分泌减少等现象。据流行病学显示,近些年来,面瘫发病率不断升高,患病比例约为(11.5—53.3)/10万[1],所以为提高面瘫诊断效率,需要研究建立更多高效的辅助诊疗工具。传统面瘫诊断方法多为利用面部观察或医学检查来判断临床体征,例如REITZEN等人[2]研究发现,使用House-Brackmann[3]分级量表可有效评估患者患病区域和严重程度。此量表作为临床上应用最普遍的评价系统,可根据面部表情动作变化和是否伴有联动或面部痉挛现象,将面瘫严重程度区分为六级,如表1所示。而管子玉等人[4]设计了深度差异性网络模型(Deep Differentiated Network, DDN),实现对面瘫和“假面瘫”的面部特征区分。SONG等人[5]设计了结合图像分类(GoogLeNet)神经网络和人脸识别(DeepID)神经网络的新型卷积神经网络系统,完成面瘫评估分类及其研究[6-7]等,体现了深度学习方法应用到面瘫诊断研究中的有效性。

本文在此基础上,利用面瘫作为一种面部异常疾病,发病时面部图像与正常图像存在明显差异的特点,选择将图像异常检测方法GANomaly应用到面瘫识别中,从而实现从正常人脸图像中检测识别出异常面瘫图像的目的,实现了一种新的基于深度学习的面瘫诊断应用研究。

2  基于深度学习的异常检测方法(Anomaly detection method based on deep learning)

人工智能(AI)技术在医疗影像识别、辅助医疗诊断、智能机器人等医疗场景中得到了较为广泛的应用发展,而目前大部分AI应用中使用较多的技术是深度学习技术。深度学習属于机器学习范畴,实现了利用非监督式的学习算法来获得数据更深层的特征信息。与传统的人工提取不同,深度学习通过建立神经网络来分析学习图像、声音、文本等不同类型数据,实现特征的自动提取。深度学习技术学习能力强大,网络结构复杂,特别是应用于处理图像问题方面,可得到相当优秀的结果。例如生成对抗网络(Generative Adversarial Network, GAN)[8]作为当前比较热门的无监督算法,通过可以生成与原图像高度相似的新图像的生成器模型,以及可以分辨示例为真实还是伪造的判别器模型,来实现图像的生成、图像的转换、图像的分类等应用。本文在解决面瘫诊断问题时,选择使用基于深度学习的异常检测技术,以便获得优良的实验效果。

2.1   异常检测方法

传统的异常检测方法多需要人为设计特征模型,实现复杂算法,以达到分辨异常的目的。随着人工智能技术的发展,越来越多的研究者选择将深度学习方法应用到图像异常检测任务中,从而获得更高的异常检测精度。在这之中,利用图像重构检测异常的方法得到了更为广泛的应用,该方法核心思想在于通过训练神经网络,以不断最小化重构图像与输入图像之间的距离为目的,学习正常图像的分布模式,在检测阶段利用检测原图像和重构图像之间的差异大小实现异常检测的目标。较为典型的应用包括基于自编码器(AutoEncoder)的相关方法,例如变分自动编码器(Variational Autoencoders, VAE)[9]、对抗式自动编码器(Adversarial Autoencoder, AAE)[10]等,以及基于GAN的相关方法,例如深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Networks, DCGAN)[11]、AnoGAN[12]、BiGAN[13]等。

本文选择了在图像识别和分类方面应用较广泛的GAN模型来解决面瘫识别问题,并选择使用检测效果较好的异常检测方法GANomaly[14]来检测识别面瘫图像。该模型的优势在于模型训练是作用于正常人脸图像的,从而仅需要少量的面瘫图像就可以完成测试,这对当前研究面瘫图像量少且难以获得的实验环境是十分友好的。通过实现使用GANomaly网络进行面瘫识别,能够辅助医生有效判断患者患病状态,为面瘫诊断提供辅助诊疗工具,可满足医学治疗的部分智能化需求。

2.2   GAN相关异常检测方法

生成对抗网络GAN于2014 年由GOODFELLOW等人[8]提出,该网络主要包括两个部分:生成网络和判别网络。生成网络G作用于输入的噪声变量,输出重构图像;判别网络D作用于输入的真实图像或重构图像,尽可能地分辨出重构图像,输出判断结果。生成网络会尽可能地生成与真实图像高度相似的图像,从而混淆判别网络,而判别网络会尽可能地分辨输入图像真实与否,两个网络相互对抗,就会得到最佳的生成结果。利用GAN网络这一特性,RADFORD等人[11]提出并评估了一组深度卷积GANs的体系结构,命名为深度卷积生成对抗网络(DCGAN),并通过一系列实验证明对抗性网络可以用于学习图像表示,实现图像生成建模,并且在大多数情况下可以稳定地训练和取得良好的结果。该体系结构主要使用判别器和生成器,并使用批量归一化Batchnorm处理数据,除了输出层使用Tanh外,生成器的其他所有层使用ReLU激活,判别器中所有层都使用LeakyReLU激活。

而在DCGAN网络的基础上,SCHLEGL等人[12]提出了AnoGAN网络用于检测异常,该网络通过在正常图像数据上训练DCGAN,生成得到重构图像,测试阶段通过比对重构图像与原图得到异常区域,计算异常值,通过判别器来分辨异常。KAPLAN等人[13]提出了BiGAN异常检测模型,该模型与AnoGAN有所不同的是,生成网络中分为编码器Encoder和解码器Decoder。编码器通过输入图像x得到编码z,而解码器通过输入编码生成图像,判别器通过不断缩小编码器和解码器之间的分布差异,使编码z与不断接近,从而生成得到最佳的重构图像,并同样通过计算异常值来判别异常。

3  实验方法——GANomaly网络(Experimental method-GANomaly network)

为了得到更好的实验结果,相比于AnoGAN和BiGAN,本文选择了检测准确率更高的GANomaly[14]网络。该网络通过采用编码—解码—编码的网络结构,实现将输入图像映射成一个低维向量,然后重构低维向量生成得到重构图像,附加的编码器将重构图像映射得到潜在变量。模型在训练阶段会不断地最小化低维向量和潜在变量之间的差异,学习得到正常图像的数据分布,判别器根据从该学习数据分布中获得的较大距离度量推断该分布中存在的异常值。

GANomaly网络模型可分为三个部分。第一个部分是作为模型生成器部分的自动编码器网络,该网络首先读取输入图像x到编码器GE,GE利用带有批量归一化batch-norm和激活函数ReLU的多个卷积层,将图像压缩成一维向量z,即,然后通过解码器GD的卷积转置层作用于向量z得到重构图像,即。第二个部分是编码器网络E,除了参数不同,其结构与GE基本相似,主要对重构图像压缩得到,即。第三个部分是判别器网络D,对输入图像x和重构图像进行分类,区分真假。但当测试阶段异常图像传入生成器网络G时,GD无法重建异常,遗漏异常所得到的特征表示就会和z之间呈现差异性,模型通过检测到这种差异性,从而判定输入的图像存在异常。

实验采用三个损失函数训练优化模型,包括对抗性损失Ladv、上下文损失Lcon和编码器损失Lenc。Ladv表示特征匹配误差,可优化图像特征之间的差异,通过计算输入图像与重构图像的特征表示之间的欧式距离,得到判别器网络D的中间层向量:

Lcon表示重构误差损失,通过训练不断减少输入图像与重构图像之间的差异,采用曼哈顿距離计算差异结果,即:

Lenc表示计算输入图像的向量特征和重构图像的向量特征之间的差异,优化潜在变量误差,即:

得到的目标函数为:

其中,、、为加权参数。

利用公式(3)可计算得出输入图像与重构图像之间的异常分,异常分越小则代表模型重构得越成功;反之,则表示模型无法成功重构,从而得出该输入图像为异常图像。对于异常图像,其异常分定义如下:

通过设定一个评估阈值,得到的异常分则表示存在异常图像。由于面瘫患者眼部下垂,嘴部歪斜,与正常人脸的眼部、嘴部存在明显差别,因此GANomaly无法完美重构异常图像的眼部、嘴部,得到的异常分过高,从而检测出异常,实现面瘫的识别,如图1所示。

4   实验过程及结果(Experimental process and results)

本文的实验目的是将GANomaly网络应用到正常面部图像和面瘫图像数据中,以实现对面瘫的检测识别,证明异常检测模型作用于面瘫数据的有效性。

实验开始之前,需要准备实验数据和配置实验环境。本实验在训练阶段需作用于大量的正常人脸图像,故选取了公开数据集Pins人脸识别数据集中的3,993 张图像作为训练集。为得到更好的实验效果以有效分辨正常人脸图像和面瘫图像,在人脸图像的选择上遵循无遮挡、五官清晰、无夸张表情等原则,尽量保证面部充满整张图像,并设置正常人脸图像标签为0。依照模型训练集数据量远大于测试集的原则,本实验的测试集仅选取了33 张正常人脸图像和33 张面瘫图像(来自HSU等人[15]使用的面瘫数据),并设置正常人脸图像标签为0,面瘫图像标签为1。

实验使用Intel(R) Core(TM) i5-10500处理器和GeForce RTX 3060 GPU处理图像,并在配置有Windows 10+CUDA 11.1.0+CUDNN 8.0+PyTorch(v1.9.0,Python 3.7.1)的环境下进行代码实现。实验学习速率设置为0.0002,在人脸图像数据上进行了50 个时期(epochs)的训练,输入批次大小设为64,每一时期处理62 批,每一批平均运行时间约为8.4 ms,CPU利用率平均约为10%,内存占用率平均约为51%,GPU利用率平均约为11%,显存占用为518 MiB/12,288 MiB,并使用WandB可视化实验结果。

实验训练参数主要包括、和,通过调整参数,改变模型作用区域权重,并利用AUC值比较模型训练好坏。AUC值是指用于检测分类器泛化能力的ROC曲线下方的总面积。伪正类率(False Positive Rate, FPR)越大,预测结果为正常的数据中实际的异常数据越多;真正类率(True Positive Rate, TPR)越大,预测结果为正常的数据中实际的正常数据越多。故而,TPR越大越好,FPR越小越好,体现在AUC值上就是AUC值越大越好[16]。通过比较不同参数条件下实验得到的AUC值,判断模型训练得到的最佳结果。

经过实验,如图2所示,通过比较模型在取不同权重值时AUC值的大小,得出模型在=1、=50和=1时取得最佳结果。训练过程中AUC值的变化如图3(a)所示;AUC值不断增大,最大可达到0.90,如图3(b)所示,其中EER表示等错误率,即伪正类率和真正类率相等的点。实验最终得到的AUC均值约为0.87,故该模型应用效果较好,可有效检测分类。模型的损失函数变化结果如图4所示。图4(a)显示了三个损失函数的损失变化,图4(b)显示了生成器和判别器的损失变化,可见模型损失不断下降并最后趋于平稳,模型实现收敛。

本实验使用WandB可视化实验结果,得到的实验结果具体数值如图5所示,图中展示了AUC和各种损失均值结果。实验设置了阈值=0.2,异常分大于0.2即判定为异常。为了更直观地展示实验样本分类结果,使用直方图展现标签为0表示正常人脸图像的异常分和标签为1表示面瘫图像的异常分,如图6所示。异常样本分值基本分布在大于0.2的范围内,体现了正常样本和异常样本的分离,从而证明了模型可有效检测识别出异常。

图7展示生成器网络的训练结果,可以看出通过生成器训练得到的人脸图像与实际数据相差无几,且人脸五官均可清晰生成,可达到“以假乱真”的目的。图8展示面瘫数据的测试结果,与正常人脸图像对比,使用该模型作用于面瘫数据时发现,模型无法生成清晰的面瘫图像,面部五官基本无法生成,说明模型无法产生异常图像,从而达到检测异常的目的,进一步证实了模型识别面瘫的有效性。

综上所述,GANomaly网络可有效分辨面瘫图像和正常人脸图像,并对面瘫识别是十分有效的,可有效提高面瘫诊断的可靠性和直观性,有利于患者理解和接受,从而为面瘫诊断提供有效的辅助诊疗工具。

5   结论(Conclusion)

本文选择基于深度学习的异常检测技术解决面瘫的诊断识别问题,通过异常检测方法GANomaly深度挖掘人脸图像面部特征,并实现图像的生成重构,利用正常人脸和面瘫图像重构的特征差异来有效识别面瘫,从而为面瘫治疗提供高效的辅助诊疗工具。面瘫识别研究可帮助医生更有效地判断病情,并可尽量避免仅依靠主观经验带来的诊断失误,其主要优势包括:计算机代替人工,可在短时间内学习到大量经验和观察到更多细节;有效保存患者各治疗阶段的图像信息,从而作为医生判断病情的依据;具有更客观、更直观、更准确的优点,患者也更容易理解和接受。基于深度学习的异常检测网络GANomaly对面瘫识别的成功实现,体现了异常检测方法应用到面瘫研究领域的有效性,并为以后将更多异常检测方法应用于面瘫研究中和实现面瘫严重程度的分类打下基础。在之后的研究中将不断优化模型,并深度挖掘面瘫图像与正常人脸图像的差异特征,实现面瘫严重程度的诊断评估。

参考文献(References)

[1] 刘明生.中国特发性面神经麻痹诊治指南[J].中华神经科杂志,2016,49(2):84-86.

[2] REITZEN S D, BABB J S, LALWANI A K. Significance and reliability of the House-Brackmann grading system for regional facial nerve function[J]. Otolaryngology-Head Neck Surg, 2009, 140(2):154-158.

[3] SONG I, VONG J, YEN N Y, et al. Profiling Bell's palsy based on House-Brackmann score[J]. Journal of Artificial Intelligence and Soft Computing Research, 2013(3):1-6.

[4] 管子玉,刘杰,谢飞,等.基于深度差异性网络的真假面瘫识别[J].西北大学学报(自然科学版),2019, 49(2):171-179.

[5] SONG A, WU Z, DING X, et al. Neurologist standard classification of facial nerve paralysis with deep neural networks[J]. Future Internet, 2018, 10(11):111.

[6] LIU X, XIA Y, YU H, et al. Region based parallel hierarchy convolutional neural network for automatic facial nerve paralysis evaluation[J]. IEEE Transactions on Neural Systems and Rehabilitation Engineering, 2020, 28(10):2325-2332.

[7] WANG T, ZHANG S, LIU L, et al. Automatic facial paralysis evaluation augmented by a cascaded encoder network structure[J]. IEEE Access, 2019(7):135621-135631.

[8] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Advances in Neural Information Processing Systems, 2014, 3:2672-2680.

[9] KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. (2013-12-20) [2014-05-01]. https://arxiv.org/abs/1312.6114.

[10] MAKHZANI A, SHLENS J, JAITLY N, et al. Adversarial autoencoders[EB/OL]. (2015-11-18) [2016-05-25]. https://arxiv.org/abs/1511.05644.

[11] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. (2015-11-19) [2016-01-07]. https://arxiv.org/abs/1511.06434.

[12] SCHLEGL T, WALDSTEIN S M, LANGS G, et al. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery[C]// NIETHAMMER M, STYNER M, AYLWARD S, et al. Lecture Notes in Computer Science. Switzerland: Springer, Cham, 2017:146-157.

[13] KAPLAN M O, ALPTEKIN S E. An improved BiGAN based approach for anomaly detection[J]. Procedia Computer Science, 2020, 176:185-194.

[14] AKCAY S, ATAPOUR-ABARGHOUEI A, BRECKON T P. GANomaly: Semi-supervised anomaly detection via adversarial training[C]// JAWAHAR C, LI H, MORI G, et al.

Lecture Notes in Computer Science. Switzerland: Springer, Cham, 2018:622-637.

[15] HSU G S J, KANG J H, HUANG W F. Deep hierarchical network with line segment learning for quantitative analysis of facial palsy[J]. IEEE Access, 2018(7):4833-4842.

[16] FAWCETT T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006(27):861-874.

作者簡介:

王   齐(1995-),女,硕士生.研究领域:智能信息处理与软件技术.

陈  功(1969-),男,博士,研究员.研究领域:生物医学工程,智能信息处理与软件技术.

胡文昕(1997-),男,硕士生.研究领域:智能信息处理与软件技术.

胡   嘉(1997-),男,硕士生.研究领域:智能信息处理与软件技术.

猜你喜欢
异常检测深度学习
基于LMD模糊熵的遥测振动信号异常检测方法
基于度分布的流量异常在线检测方法研究
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
无线Mesh网络安全性研究
无线Mesh网络基础知识
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现