一种基于Kinect的二维三维混合面部表情识别方法

2019-11-28 13:40郑少阳林晓斌
计算机时代 2019年11期
关键词:支持向量机

郑少阳 林晓斌

摘  要: 目前面部表情识别的研究和应用大多基于二维图像。文章提出一种基于Kinect设备的二维三维混合面部表情识别方法。通过结合Kinect设备捕捉到的面部特征点位置及动画单元的特征,来确定由面部表情产生的三维网格的形变。应用基于支持向量机的分类方法及基于表情分析和最大置信度的融合算法对表情进行识别。实验表明,该方法比基于二维图像的识别方法性能更好。

关键词: Kinect; 面部表情识别; 二维三维混合; 融合算法; 支持向量机

中图分类号:TP391.4          文献标志码:A     文章编号:1006-8228(2019)11-70-04

Abstract: Most of the research and application on facial expression recognition are based on 2D images. This paper presents a 2D and 3D hybrid facial expression recognition method using Kinect, which determines the deformation of facial expression 3D mesh according to the feature point positions and features of the animation units captured by Kinect. The facial expression classification is then realized by using support vector machine (SVM) and fusion algorithm based on maximum confidence and emotional profiles. The experimental results indicate that this method has better performance than those recognition methods purely based on 2D images.

Key words: Kinect; facial expression recognition; 2D and 3D hybrid; fusion algorithm; support vector machine (SVM)

0 引言

隨着人工智能和模式识别技术的快速发展,人类面部表情的识别引起了人们的研究兴趣,其研究成果在医学、安全、人机交互等领域都有广泛的应用。人类面部表情包含了人类的大部分情感信息,并且构成了传达情绪的主要通道。因此,针对面部表情识别的研究对经济和社会发展具有重要意义。

传统的面部表情识别技术主要通过基于处理分析普通RGB传感器采集的二维图像来实现。由于人类颜面属于三维物体,仅依赖于二维图像的识别必然失去关键的几何特征,从而很大程度上影响识别的精度。

本文提出一种基于Kinect的二维三维混合面部表情识别方法。其中,二维信息来自于动画单元,而三维信息则取自于特征点位置。采用30帧连续画面为研究对象,并将表情分为7类:愤怒、厌恶、恐惧、快乐、悲伤、惊讶和平静。在对每一帧画面提取特征后,使用支持向量机分别根据动画单元及特征点位置进行表情分类。用基于改进型情绪分析的融合算法对30个连续帧的识别结果进行融合, 用基于最大置信度的融合算法将不同特征的分类结果进行融合。

1 相关研究

由于在人机交互方面的优势,面部表情识别一直受到计算机视觉研究人员的广泛关注。对比其他的人机交互方式如动作或姿势识别、语言识别等,其具备更好的表现力和更广泛的应用空间[1]。

早期的研究将人类面部基本表情分为6类:愤怒、厌恶、恐惧、快乐、悲伤、惊讶[2]。后来又加入了平静这一表情子类,形成了面部表情7大类。初期的表情识别研究仅局限于对典型或故意展示出的表情进行的分类[3-5],且极大受限于摄像的角度及照明条件等外部因素的影响。随着三维测量技术的发展,这一问题得到了很好的解决。对比二维图像,三维测量能够捕捉到更多的几何数据,而且可以不受角度、光照等变化的影响,能够很好地补充几何形状信息并修正由角度等条件变化引起的误差。而二维图像传感器可以在速度、分辨率及成本等方面具备优势。因此以二维三维结合的方式进行面部表情识别是十分必要的。

Kinect是一种同时具备二维彩色图像拍摄和三维扫描能力的高速传感器。其面部识别系统结合彩色二维图像及深度数据来定位三维空间中的特征点。比较起其他的三维测量设备,其具备扫描速度快、价格低廉、尺寸小巧等优点。Kinect设备虽然也存在扫描精度低和噪点较多的问题,但由于其在价格方面的优势,常被应用于各种研究,如Huynh[6]等人将Kinect用于性别的识别;Kadambi[7]等人将偏振光成像技术结合Kinect的深度图以提高三维测量的精度;Silverstein[8]等人则将Kinect用于放疗中对患者的识别和登记。

2 二维三维混合面部表情识别

本研究以Kinect捕捉到的视频序列作为输入,对连续捕捉的30帧画面中的每帧画面进行面部检测及特征提取。动画单元及特征点位置分别作为提取面部表情二维及三维特征的两个通道,利用美国微软公司提供的面部追踪SDK引擎进行提取,这些提取出的二维和三维特征随后用于模型训练及识别测试。由动画单元及特征点位置通道所获得的表情特征首先由支持向量机分类器分别分类后,再进行融合计算并得出表情识别的最终结果。

2.1 動画单元

面部追踪SDK的结果可以以6个动画单元的权重组合来表示。这些动画单元是平静面部表情的二维变化量,用以调节虚拟人物的面部表情以模拟捕捉到的用户的表情。

2.2 特征点位置

2.3 面部表情特征分类

支持向量机是一种基于统计学习的广义线性分类器,其通过确定最小间隔的样本点来拟合出一个到这些样本点距离和最大的线段或平面[9]。本研究采用了Chang和Lin[10]提出的基于径向基函数核的带有惩罚因子C的支持向量机(C-SVM)。它使用了交叉验证技术来估计在指定范围内每种参数组合的准确性,以此来帮助决策在本研究中应采用的参数。通过在选择的训练集中使用5折交叉验证后,我们获得了支持向量机每个子分类器训练模型的最优c和g参数。

2.4 面部表情特征融合

根据每个通道中采用的30帧画面所得到的表情识别结果,通过表情分析的置信度进行融合。表情分析用于确定对7种表情分类的置信度,其中每个子分类器以该表情特定的特征集进行训练。

3 实验及结果

本研究用Kinect设备采集了12位参与人员以-20[°]、-10[°]、0[°]、10[°]、20[°]等5种角度展示的7种面部表情,并使用一台配置为Intel i7-4770K 3.5GHz CPU 、8GB内存的计算机作为实验运算平台。由以上实验重复5次所得到的2100组面部表情中,有2091组表情得到了正确分类,准确率高达99.6%,平均每组表情的识别时间为0.052s。

4 结语

本文所提出的二维三维混合面部表情识别方法,其核心是基于表情分析的分类和基于置信度的二维三维特征通道分类结果的融合。在使用价格低廉的Kinect作为传感设备的情况下,能够快速并且准确地实现对面部表情的识别,具有良好的性能表现,可应用在预算较低并且对识别实时性要求高的应用环境中。但由于时间所限,实验中采用了自行采集的表情数据作为训练集,其结果具有一定的局限性。下一步,计划采用标准面部表情库作为训练集,以进一步测试本方法的识别准确率。同时开发独立的面部跟踪引擎,以减少对微软面部跟踪SDK的依赖性。

参考文献(References):

[1] Keltner D, Tracy J, Sauter D A, et al. Expression of emotion[J]. Handbook of emotions,2016:467-482

[2] Ekman P. Facial expression and emotion[J]. American psychologist,1993.48(4):384.

[3] Zeng Z,Pantic M,Roisman G I,et al. A survey of affect recognition methods: Audio,visual, and spontaneous expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2009.31(1):39-58

[4] Nicolaou M A,Gunes H,Pantic M. Continuous prediction of spontaneous affect from multiple cues and modalities in valence-arousal space[J]. IEEE Transactions on Affective Computing,2011.2(2):92-105

[5] Vinciarelli A,Pantic M,Heylen D,et al.Bridging the gap between social animal and unsocial machine: A survey of social signal processing[J]. IEEE Transactions on Affective Computing,2012.3(1):69-87

[6] Huynh T,Min R,Dugelay J L.An efficient LBP-based descriptor for facial depth images applied to gender recognition using RGB-D face data[C]//Asian Conference on Computer Vision.Springer,Berlin,Heidelberg,2012:133-145

[7] Kadambi A,Taamazyan V,Shi B,et al. Polarized 3d: High-quality depth sensing with polarization cues[C]//Proceedings of the IEEE International Conference on Computer Vision.2015:3370-3378

[8] Silverstein E,Snyder M.Implementation of facial recognition with Microsoft Kinect v2 sensor for patient verification[J]. Medical physics,2017.44(6):2391-2399

[9] Vapnik V N.An overview of statistical learning theory[J].IEEE transactions on neural networks,1999.10(5): 988-999

[10] Chang C C,Lin C J.LIBSVM:A library for support vector machines[J]. ACM transactions on intelligent systems and technology (TIST),2011.2(3):27

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究