谢 飞,沈梦梦,郭新明,万兆新,王 慧
(1.西北大学 信息科学与技术学院,陕西 西安 710127;2.咸阳师范学院 计算机学院,陕西 咸阳 712000;3.陕西省中医医院,陕西 西安 719000)
面瘫是一种以面部表情肌群运动功能障碍为主要特征的一种疾病,是一种常见病、多发病,且不受年龄限制。面瘫主要是由于面部神经受损引发的,大多数是单侧性面瘫,主要表现在口眼歪斜,无法完成抬眉、闭眼、鼓腮等面部基本动作。面部运动时,左右两侧特征差异较为明显。目前,面瘫病症的诊断主要依靠医生“望闻问切”的诊断方法来对病人的病情进行诊断,并评估面瘫病症的严重程度。但是,由于现有医疗条件不完善和相关专科医生短缺,以及诊断医生自身医疗经验受限等原因,导致面瘫病症不能准确地诊断和很好地治疗;此外,面瘫患者初期难以发现面部的细微变化,导致很多早期患者难以得到及时的治疗,病情进一步加重。
随着计算机视觉技术在人脸面部特征提取与识别等方面的广泛应用,越来越多的学者开始关注基于面瘫患者面部的图像和视频数据,利用机器学习方法进行面瘫分级评估的研究。例如:王倩倩等人提出基于AAM关键点定位的面部神经运动功能评价方法[1];Wachtman等人利用手工在人脸上标定3个特征点把人脸分成左右两部分,然后,根据左右部分的不对称性程度来判断面瘫[2];而Modersohn等人为提取具有紧凑区分性的面部特征,提出改进AAM模型来解决轻度面瘫患者病情的识别与分析问题[3]。但是,这些方法主要关注面瘫识别,没有一套较为完整的病情分级评估方法,导致临床应用价值受限。后期才逐步开展关于面瘫分级评估方面的研究,并取得了相应的研究成果。例如:He等人提出基于光流法的面瘫严重程度的评估方法[4-5]。Barbosa等人利用混合分类模型检测人脸关键点,并追踪面部关键点的运动变化,进而提出一种基于面部不对称和面部动态变化的面瘫自动评估方法[6]。2014年董军宇等人提出基于AAM和人脸面部LBP差异特征的面瘫分级评估方法[7]。王绍宇等人提出了基于ASM和光流特征的面瘫分级评估方法,该方法依据不同表情的面部区域运动特点,利用光流空间特征进行面瘫严重度的评估[8]。
基于计算机视觉技术的面瘫识别及等级评估方法的基本原理主要是依据人脸面部的左右对称性特点,但是,目前面瘫分级评估方法还存在一些问题,主要表现在:① 传统的面瘫分级评估方法只利用单一的人脸纹理或形状特征,而没有能够将多种类型的特征进行融合,以实现更为准确的面瘫分级评估。② 传统的利用深度学习进行面瘫分级评估的方法只针对视频中的单帧进行特征提取,而没有考虑面部运动时的变化特征。
针对这些问题,本文基于面瘫患者不同面部表情的图像和视频数据,提出结合面部纹理和光流特征差异的面瘫分级综合评估方法。该方法针对不同的面部表情,关注相对应的面部区域。一方面,基于面瘫患者在进行面瘫诊断时的表情,提取左右脸差异特征,并利用SVM[9]进行面瘫分级评估;另一方面,相对于静态图像数据,视频数据能够更好地反映面部运动的时序变化特征,有利于提高面瘫分级评估的准确性[10-11]。而光流法在视频数据分析中不仅能够提供运动目标的外形轮廓和具体位置信息,同时还能够提供目标的运动矢量信息,以准确得到图像序列中目标的运动参数。因此,本文利用面部运动的光流信息,依据面部运动的对称性计算面部运动的光流差异特征,并将其作为LSTM[12-13]的输入,以进行面瘫等级评估。最后,综合基于面部图像多特征结合的评估结果和基于面部运动的光流差异特征的评估结果,以更准确地完成面瘫分级的综合评估任务。以闭眼的面部动作为例,本文提出的面瘫分级评估方法的整体框架如图1所示。
疑似面瘫患者在诊断的过程中,医生要求患者从中性状态开始做一些特定的面部表情动作,面部状态由中性逐渐转换到面部运动的最大状态,每个动作大约持续3s。每位就诊人员要求做3~4次相同的面部表情动作。那么,我们可以利用相机拍摄面瘫患者在其面部表情最大幅度时的面部图像以及整个面部表情过程的视频数据。然后,针对这些图像和视频数据进行预处理,主要包括面部动作子视频划分和人脸区域定位。
面部动作子视频划分是按照患者进行的面部动作,将含有患者诊断过程中所有面部动作的整个视频划分为若干单个动作单次完成的子视频,以体现面瘫患者在做单一面部诊断动作时面部的动态变化特征[14]。图2是面瘫患者做一次闭眼动作子视频中所截取的4帧。
图1 本文方法框架图Fig.1 The framework of the proposed method
图2 单次闭眼动作视频帧Fig.2 Four frames from the video of closing eyes
面瘫分级评估主要关注面部运动变化的特征,而并不关注背景因素和患者的其他身体部分,因此,可利用Faster RCNN对所有采用自由录制方式获得的视频数据进行人脸检测,并对检测得到的人脸区域统一到相同的尺寸。图3为视频帧中人脸检测以及尺寸归一化的结果图像。
图3 人脸面部图像尺寸归一化后结果图Fig.3 The detected faces and their normalized result images
针对预处理后的图像和视频数据,需进一步提取人脸图像的纹理特征和视频数据中面部的运动特征,并依据人脸的对称性特点,计算患者面部的纹理差异特征以及运动差异特征,最后利用相应的分类器对面瘫患者的病情进行分级评估。由于不同的面部动作会影响面部不同区域,如闭眼动作主要影响眉毛区域和眼睛区域,示齿主要影响嘴巴和脸颊区域,耸鼻主要影响眼睛和鼻子部分等。为能够更好地计算人脸不同区域的特征信息以及人脸两侧对应区域的差异特征信息,可首先利用人脸关键点对人脸的关键区域进行划分。
主动外观模型(AAM)是一种特征点提取方法,已在人脸关键点检测和特征提取领域广泛应用。利用AAM模型可以较为准确地获得人脸五官和轮廓的各个特征点的精确位置,图4是利用AAM进行人脸72个关键点检测的结果图。
图4 人脸关键点Fig.4 The detected key points of the face
基于人脸关键点可以对人脸不同的器官或人脸区域进行划分。而面部运动则会引起多数关键点发生位置变化,导致面部对称线难以准确确定。但眼角和鼻梁两侧存在4个位置几乎保持不变的关键点。因此,选取此4个关键点把人脸分成左右对称的两部分。然后,根据其他关键点的位置分布,将面部分为10个区域,如图5所示,包括:左、右眉毛区域;左、右眼睛区域;左、右脸颊区域;左、右鼻子区域;左、右嘴巴区域。
图5 人脸区域划分Fig.5 Facial area separation
首先,在人脸区域划分的基础上,分别提取人脸不同区域的纹理特征,包括LBP特征和Gabor特征。然后,依据人脸的对称性特点,分别计算人脸对称区域之间的特征差异。最后,基于特征差异,利用SVM进行面瘫分级评估。
LBP[15]是一种有效的局部纹理描述算子,它可以对灰度图像中局部邻域的纹理信息进行度量和提取。本文在大小为3×3的LBP算子中,通过以中心像素点的灰度值为阈值来提取面部区域的LBP特征,计算公式为
(1)
(2)
其中,LBP(P,R)=LBP(8,1),P=8是指中心点像素周围的8个近邻像素点,R=1是指中心点像素到8个邻近像素点的距离。gc表示中心点像素,gn(n=0, 1, 2, …,7)是中心点像素的邻近点。当gn大于gc时,临近点的二进制表示为1;反之为0。图6为对左、右眼提取LBP特征的直方图。
(a)右眼 (b)左眼图6 左、右眼LBP特征的直方图Fig.6 Histogram of LBP features of the left and right eyes
Gabor小波[16]能在一定意义上反映图像在不同方向和尺度下的纹理信息,能够有效降低光照、噪音对图像特征提取的影响,可以增强图像的边缘特征;同时在图像有一定程度的旋转和形变时仍然保持着很好的分辨效果。因此,本文提取人脸区域的Gabor特征,并与LBP特征进行级联融合,以更全面描述人脸区域的纹理特征信息。本文针对面瘫图像,在3个尺度、4个方向提取Gabor特征。图7是对左、右眼区域提取Gabor特征的特征图。
图7 Gabor特征图Fig.7 The feature maps of Gabor
基于面瘫图像的面瘫分级评估主要依据面部的不对称性,即可对比分析人脸左、右两侧对应区域的纹理特征之间的差异程度。由于面瘫诊断时,要求患者做不同的面部表情动作,并且针对不同的面部表情动作关注面部不同的区域。因此,可针对不同的面部动作提取相关面部区域的LBP特征和Gabor特征,并计算人脸两侧对应区域的不同特征的差异,
DF=FL-FR。
(3)
FL和FR表示分别在人脸左、右侧部分提取的特征信息,DF表示特征差异信息。那么针对LBP特征和Gabor特征,则有
DP=PL-PR,
(4)
DG=GL-GR。
(5)
然后,对纹理特征差异DP和DG进行归一化,获得级联的特征差异向量。最后,利用主成分分析(PCA)对向量进行降维处理,将降维后的向量作为SVM的输入,以进行面瘫分级评估。
相对于静态图像,视频能够记录目标运动的动态变化信息。因此,面瘫患者进行面部诊断动作时的视频数据能够反映面部运动变化信息。而在运动目标的动态特征提取方面,光流[17-18]技术得到广泛的应用,并取得良好的效果。
针对基于视频数据的面瘫分级评估问题,本文利用光流法提取面部运动的光流信息,并计算面部运动过程中,人脸左右两侧对应区域的光流特征之间的差异性,最后,依据光流的差异性特征,利用LSTM实现面瘫分级评估。
光流信息的计算方法是假设在时间t视频帧中有坐标为(x,y)的像素点,其灰度为I(x,y,t),经过时间Δt后,该像素点运动到位置(x+Δx,y+Δy)处,其灰度为I(x+Δx,y+Δy,t+Δt)。由于是两个不同时刻的同一个点,因此,根据灰度守恒假设,有
I(x,y,t)=I(x+Δx,y+Δy,t+Δt)。
(6)
将式(6)的右边在(x,y,t)点用泰勒公式展开,经化简和略去二次项后,得到光流场的基本方程
(7)
本文利用上述光流计算方法来计算面瘫视频中各相邻帧之间的光流信息。图8为闭眼动作的面瘫视频中4帧区域图及其相应的光流信息,图8(a)和8(b)是右眼的序列视频帧及其光流图;图8(c)和8(d)分别是左眼的序列视频帧及其光流图。
图8 闭眼视频片段光流图Fig.8 The optical flow maps of the videos for closing eyes
基于计算得出的人脸不同区域的光流信息,针对不同的面部动作,需对比分析人脸左右两侧相关区域的光流差异特征。光流差公式为
DW=WL-WR。
(8)
基于视频数据的光流信息能够更好地反映面部相关区域的运动特征。例如:闭眼动作主要影响眼睛和眉毛区域,通过光流法得到左眼和右眼的光流信息,然后比较左眼和右眼的光流信息得到光流差异信息,图9即为左眼和右眼光流差异图,可见光流能够较为准确地反应面部动作的运动特征。
图9 眼部光流差异图Fig.9 The differentiated maps of the optical flow of the eyes
然后,将获取到的不同区域的光流差异信息作为LSTM的输入,建立整个视频中光流信息之间的关联,实现基于视频数据的面瘫分级评估。
针对不同的面瘫诊断动作(包括:微笑,抬眉,皱眉,闭眼,耸鼻,示齿和鼓腮7种面部动作)的图像和视频数据,一方面,通过提取面瘫图像中相关区域的纹理特征,对比分析人脸左右两侧相应区域的特征差异,进而得到基于图像数据的面瘫分级评估结果;另一方面,通过提取面瘫视频数据中相关区域的光流信息,并对比分析人脸左右两侧相关区域光流差异特征,进而得到基于视频数据的面瘫分级评估结果。最后,针对不同的面瘫诊断动作,综合基于图像和视频数据的两种分级评估结果以得到最终的面瘫分级评估结果。
Q=αQI,A+βQV,A。
(9)
其中,Q表示面瘫最终分级评估结果,QI,A和QV,A分别表示基于图像数据I和视频数据V的针对相应面部动作A的面瘫分级评估结果,而α,β表示权值参数。
对于面瘫分级评估的相关研究,由于涉及到患者的个人隐私,目前还没有公开的数据集。为验证提出方法的有效性,与陕西省中医医院合作,制定了一套较为完整的数据采集规范,采集真实面瘫患者的诊断图像和视频数据。目前为止,已经收集到面瘫患者83例,患者数据包含83×7余幅面部图像(每位患者进行7个面部动作的图像数据)和83×7×3段视频数据(每位患者进行7个面部动作,每个动作分别进行3次)。此外,由3位专科医生对收集到的数据进行明确标注,并由资质医生对标注进行最终审核确认。面瘫图像和视频的分级标注主要分为4个标准:0代表正常(非面瘫),1代表轻度面瘫,2代表中度面瘫,3代表重度面瘫。
此外,本文选用几种现有的面瘫评估方法作为对比试验方法,以验证本文提出方法的优越性,主要包括文献[15-16] 中的方法。针对不同面瘫动作的所有图像和视频数据,都分别使用70%的图像或视频作为训练数据,剩余30%的数据作为测试数据。针对不同面部动作使用不同方法进行面瘫分级评估的结果如表1所示,实验数据对应的曲线如图10所示。
表1 不同面瘫分级评估方法的准确率Tab.1 The accuracy of different evaluation methods of facial paralysis %
图10 不同面瘫分级评估方法结果曲线图Fig.10 The curves of the accuracy of different methods for evaluating facial paralysis
通过对实验数据的分析可以看出:传统的基于静态面部图像,依据面部纹理特征的不对称性进行面瘫评估的方法,其评估准确率难以达到令人满意的效果。此类方法对7种面部动作的面瘫分级评估准确率均在80%以下。相对于图像数据,利用视频数据,依据面部运动的光流差异特征进行面瘫分级评估的准确性得到大幅度提高。相对于文献[16] 的方法,7个面部动作评估的平均准确率提高了18.9%;而相对于文献[15] 的方法,评估的平均准确率提高了17.5%。主要原因在于视频数据中不仅具有静态图像的面部不对称性特征,同时也包含面部运动时更为丰富的动态变化特征。而本文方法则将基于静态面部图像的评估结果与基于视频的评估结果结合起来,实现面瘫分级的综合评估,进一步提高面瘫分级评估的准确性,平均准确率相对于仅使用视频数据的评估结果提高了0.69%。从图10可以看出,本文提出方法的面瘫评估准确率总体上都优于其他方法,尤其相对传统的基于面部图像的评估方法,优势更为明显。
针对面瘫分级评估问题,本文提出了一种面瘫分级综合评估方法,该方法将基于静态面瘫图像的分级评估结果和基于视频数据的分级评估结果相结合,以完成面瘫分级的综合评估,不再仅考虑整体面部图像左、右侧之间的差异,而是对面部不同局部区域的静态特征和动态特征进行对比分析,以提取面部运动时的静态差异特征和动态变化特征,从多方面综合评估面瘫的严重程度。实验表明,相对传统面瘫分级评估方法,本文提出方法性能更具有优势。但是,其中也存在一些问题有待进一步解决。例如:面瘫患者用较小的力气和使用较大力气完成相关面部动所提取的面部特征具有一定程度的差异,会影响面瘫分级评估的准确性。为解决这一问题,在数据采集时,可以请患者尽量使用不同力度来完成相关面部动作,以使得实验数据具有多样性。