Gabor小波优化HMM算法的眼部疲劳状态识别

2014-01-31 12:10杨秋芬桂卫华胡豁生阳若宁

计算机工程与应用 2014年15期

关键词：识别率眼部灰度

杨秋芬，桂卫华，胡豁生，阳若宁

YANG Qiufen1，2,GUI Weihua1,HU Huosheng1,YANG Ruoning2

1.中南大学信息科学与工程学院，长沙410083

2.湖南广播电视大学理工教学部，长沙410004

1.School of Information Science and Engineering,Central South University,Changsha 410083,China

2.Science&Engineering Department,Hunan Radio&TV University,Changsha 410004,China

1 引言

网络教育是一种日益普遍的现代远程教育。但是，这种教育方式存在着一个极大的缺点，即学习者与教师分处两地，非直接面对面交流，学习者的学习情绪状态通常得不到关注[1-2]，情感交互缺失。这种教育方式和全日制教育方式不同，缺乏学习氛围，缺乏老师的监督和提醒，而且学习时间较长，这些因素容易导致网络学习者出现“学习疲劳”。因此，网络远程学习过程中及时检测学习者是否“学习疲劳”并在网络教育学习系统中做出相应的警示措施，有着极其重要的现实意义和应用价值。

由于目前对教育领域的疲劳检测技术研究比较少，关于网络学习疲劳检测的检测方法，成熟的驾驶员疲劳技术对于网络学习者的学习疲劳进行预警研究有一定的借鉴意义。已有的人脸识别研究表明，网络学习者在学习疲劳时的眼睛和嘴巴的状态是反应学习者是否疲劳的重要因素[1-2]。刘瑾奕教授[3]做了智能教室图像处理和模糊逻辑的睡意检测的研究及其实现，他首先分析了教室的瞌睡场景和检测方案的实际需求，然后确定选用模糊逻辑以及数字图像处理基础来展开研究，并最终使其在MATLAB仿真平台下得以实现，但是他所选择的标准过于单一，即眼睛闭合为瞌睡，眼睛睁开为清醒状态[3]。文献[1]提出基于肤色分割和模版匹配相结合的学习疲劳识别算法，并对中性、疲劳和专注三种网络学习表情检测相应的人脸区域，对眼睛、嘴巴区域进行特征提取，采用基于规则的表情分类方法，识别出学习者的学习状态，并作出实时提醒，提高网络学习者的学习效率。文献[4]采用VC++实现了学习者疲劳检测的人脸特征定位，他在YCbCr空间运用肤色高斯模型对图像进行灰度处理，先对眼部区域、嘴部区域进行粗定位接着进行精确定位，并将眼睛开合状态、眼睛张开与闭合时间、嘴巴开合状态以及打哈欠所用时间作为检测标准，以此判断网络学习者的学习状态。

本文提出一种基于Gabor小波和HMM的学习疲劳眼部状态识别算法，并嵌套在远程智能教学系统中。该方法在YCbCr颜色空间用拉普拉斯算子对眼部图像进行灰度差的处理；接着构造选择二维Gabor核函数，构造48个最优滤波器，获取48个特征值，这48个特征值生成48个特征向量，用HMM对观测序列O进行状态识别，该序列是由眼部图像的特征向量构成。

2 图像预处理

在本文的方法中，使用下列方程式从RGB颜色空间中获得了YCbCr的颜色空间，其中R，G和B分别是彩色图像的红，绿，蓝部分。Y，Cr和Cb的标准范围为[0，255]。

眼部区域与面部前额区对比，具有低强度Y，低红色度（Cr）和高蓝色度（Cb）。通过这一事实，可将该输入图像预处理成灰度图像。邻近像素之间灰度差异的PDF，可通过广义的拉普拉斯算子近似模拟。灰度方法如图1所示。

图1 边缘轮廓定义

其中ΔI是灰度差，λ取决于两个采样图像位置之间的距离，β是约等于0.5的参数，ZL是归一化常数。下文中，假定β=0.5，这意味着ZL=4λ。

图2显示了眼睛图像中灰度差的分布。在不同皮肤尺度上计算出的灰度差如图2所示。可从图中看到，眼睛图像的灰度差分布可通过YCbCr近似模拟出。此外，还能看到分布的宽度k随着尺度增加。

图2 眼睛图像中不同尺度上的灰度差分布

图2显示了眼睛图像中灰度差的分布。在不同Δν尺度上计算出的灰度差，如图2所示。从图中看到，眼睛图像灰度差的分布通过广义的拉普拉斯算子近似模拟出，定义见等式（2）。此外，还能看到分布的宽度λ随着尺度增加。造成这种现象的原因是，随着Δν增加，像素值的相关性变弱。

可以说，自曼海姆《意识形态与乌托邦》一书问世后，科学技术与意识形态的关系讨论进入到了白热化阶段，马克思与阿尔都塞沿着科学技术与意识形态对立的道路前进，而法兰克福学派却走向了相反的道路，认为在后资本主义时代，科学技术已经具有了意识形态职能，科学技术即是一种意识形态。因此，意识形态与科学对立论为哈贝马斯的理论创建提供了宝贵的学理材料，而法兰克福学派第一代学者的科学技术即意识形态论却直接为其理论奠定了基础，正如哈贝马斯自己所言:“科学技术执行意识形态的职能的发明权并不属于我，而是属于霍克海默和马尔库塞”。

然后，使用阈值T通过简单的全局阈值将灰度图像二进制为“二值图像”。线性化后，下一个任务就是获取4连通的组件，贴上标签，然后找出各组块的中心。对两只眼睛，嘴巴，耳朵等贴上了标签。连通组件的详细结果见文献[5-8]。

处理后眼区的图像如图3所示。

图3 眼区图像处理

3 Gabor滤波器的特征提取

二维Gabor小波变换是时频域进行信号分析和处理的一个重要工具，其变换系数具有良好的视觉特征和生物背景。不同参数的Gabor滤波器能捕捉图像中的局部特征信息，与不同的空间频率，空间位置和方向对应。由于Gabor滤波器的特征。它对亮度和面部表情变化并不敏感，因此，Gabor滤波器被广泛用于图像编码，手写数字辨识，人脸识别和边缘检测等[9-10]。

对图像预处理后的灰度图像进行二维Gabor小波变换，从而获得驾驶员脸部区域的疲劳特征。二维Gabor小波核函数是：

kj构成了不同小波（其边的值不同），本文采用了4个尺寸和6个方向的变化。

其中，g(kj，x)是振幅。因此，Gabor滤波的值是48，这构成了一组代表目标特征的最佳滤波。这些滤波构成了小波子空间，将图像投射到小波子空间上从而获得小波系数，提取平均值和方差来表示驾驶员面部表情图像的统计特征。48个特征点的分布图如图4所示。

4 眼部状态识别

图4 48个特征点的分布图

4.1 基本定义

HMM是一种比较成熟的随机过程统计匹配模型，该模型是参数来描述的。隐马尔可夫模型（HMM）包括隐含层和观测层，其中隐含层是隐含的马尔可夫链，观测层则是实际的观测量，也就是要识别的实例。

一个HMM可以记为式（6）：

A代表的是状态转移概率矩阵，B代表的是观测值概率矩阵，M代表的是观测序列的长度，N代表的是隐含状态数，π代表的是初始状态概率。

4.2 HMM训练

为了优化HMM参数[11-12]，根据具体情况有的采用单幅图像进行训练，有的采用多幅图像进行训练。训练步骤为：

（1）对分类的眼部状态图像进行Gabor滤波值的计算，找到特征值生成观测序列Oi，并将Oi作为观测图像的特征向量。

（2）通用模型λ=(N，M，π，A，B)，确定模型允许的高斯混合概率成分的个数、状态数和状态转移。

（3）计算模型的初始参数，注意与Nt（t时刻）个状态对应，然后将训练数据均匀分割。状态转移矩阵A=(aij)，取aij=0，当j＜i或j＞j-1。初始概率分布π=(π1，π2，…，πN)，假设第一个状态π1=1。如果πi=1(i≠1)，B={bj(Oi)}用高斯概率密度函数，B={bj(Oi)}可依据式（7）进行计算：

其中Σj和μj分别为高斯概率密度函数的协方差矩阵和均值。

（4）HMM的最优状态序列的求出。高斯混合模型的参数采用Viterbi分割[13]，结合分段K均值聚类方法。

（5）借助Baum-Welch算法[13]再次估计参数。确定λ=(N，M，π，A，B)，并依据模型优化参数，使P(O|λ)的值达到最大，P(O|λ)为眼疲劳状态中的某个类别。

4.3 HMM人眼疲劳状态识别

先对YCbCr颜色空间用拉普拉斯算子对眼部图像进行灰度差的处理，再用Gabor滤波器对人眼图像进行处理，借助前向-后向算法分组训练观测序列O，该观测序列由特征向量构成，训练所用模型为λi(1≤i≤3)，依次求取概率P(O|λi)。miax P(O|λi)所对应的模型即为待识别眼部状态所属的类别。

5 实验结果及分析

本研究试图从网络学习的角度来分析网络学习的基本过程和原理[13-14]。网络学习者的对象以成人为主，取样人脸识别数据库CAS-Peal-R1，网络学习平台是校级精品课程《工程力学》，借助认知心理学的研究方法和研究手段，开展相关的网络疲劳学习的实验。通过从网络学习者的学习状态的分析，提高网络课程设计的质量，提高远程教育的服务水平，对网络学习支持提供支撑，使得网络学习平台得到更加积极的利用。

CAS-PEAL-R1是大型中国人脸库，其中总共包括1 040人，99 450幅人脸图像，图片大小为360像素×480像素，包括表情、姿态、光照和饰物4种变化。本文算法在CAS-Peal-R1，取样数量分别为20 000、10 000和5 000进行实验。实验结果见表1。

表1 Gabor+HMM算法和其他+HMM的眼部状态算法的速度比较s

从表1可以看出，当实验图像的数目较大时（20 000和10 000），Gabor+HMM算法在识别速度上比其他+HMM算法（包括PCA+HMM、ICA+HMM、DCT+HMM）更高效，而当数目较小时（5 000），Gabor+HMM算法比其他+HMM算法的速度要慢些，因为使用Gabor+HMM算法在识别面部图像前进行的面部图像归类耗时比较多。因此，可以得出结论，该算法适合大规模的人脸库，一般大于10 000。

其结果见图5和图6中。

图5 Gabor+HMM算法的识别效果

图6 其他+HMM算法的识别效果

图7对本文的Gabor+HMM、PCA+HMM、ICA+HMM和DCT+HMM的识别率进行了对比，得出下列的结论：Gabor+HMM维数越低识别率越低，其中当维数为1时，识别率均不超过75%；识别率随着维数的增加有明显地提高（当维数等于48时，达到最大值97.68%，这和前面的Gabor滤波值的设定相一致），对PCA+HMM、ICA+HMM、DCT+HMM三种方法，当对应的特征维数分别达到20、7、22时，对应的识别率分别基本稳定在93.29%、90.89%、92.8%。

图7 Gabor、PCA、ICA和DCT不同观察矢量维数下的识别率

本文中N和M的选择依照实验结果确定，N的值域为2～8，M的值域为5～21。从图8中能够看出，当M=12，N=4时，疑惑与疲劳的识别率均处于最大值。在保持不变高斯概率混合成分个数的前提下，当N＜4时，识别率随着N的增大而提高；N≥4后，识别率反而逐渐下降。观测值概率分布矩阵B={bj(Oi)}的计算是公式（7），公式（7）中的μj用公式（8）进行计算，Σj表示用公式（9）进行计算。

图8 高斯概率混合成分个数和状态数对识别率的影响

6 结束语

三种状态中，正常学习的识别率比较低，这是由于专注和疲劳比正常学习的表情特征要更加明显。在远程智能教育系统中，通过两种方法提高识别率：第一，要求摄像机拍摄彩色图像，根据Y分量的变化及时更新Gaussian模型参数；第二，把学习疲劳的分类更加细化，睁眼、合眼状态界定更加明确，从而提高了识别跟踪的准确率和稳定性。本文的识别结果作为反馈信息传送到远程智能教学系统中，让教师及时调整教学进度、重新安排教学内容、为改正教学方法提供依据，为网络学习者提供个别化的学习环境，以弥补网络学习者情感缺失的问题。

[1] Wang Tingting，Wu Yanwen，Ai Xueyi.Learning fatigue recognition and intervention based on facial expression recognition[J].Computer Engineering and Design，2010，31（8）：1764-1767.

[2] Zhang Jiahua.Research on the information processing model of web based learning and its application[D].Chongqing：Southwest University，2010.

[3] 刘瑾奕.智能教室中基于图像处理和模糊逻辑的睡意检测研究与实现[D].上海：上海交通大学，2007.

[4] 彭慧玲.网络学习疲劳检测中的人脸特征定位研究[D].武汉：华中师范大学，2008.

[5] 杨秋芬，桂卫华，胡豁生，等.基于ICA和HMM的疲劳驾驶眼部状态识别算法[J].计算机工程与应用，2008，44（27）：5-7.

[6] 周书仁，梁昔明，朱灿，等.基于ICA与HMM的表情识别[J].中国图象图形学报，2008（12）：2321-2327.

[7] 周书仁.人脸表情识别算法分析与研究[D].长沙：中南大学，2009.

[8] 郭克友，储江伟，王荣本.驾驶员眼部状态识别方法的研究[J].系统工程与电子技术，2003，25（10）：1186-1188.

[9] 曹林，王东峰，邹谋炎.基于小波变换和隐马尔可夫模型的人脸识别方法[J].计算机工程与应用，2005，41（7）：18-23.

[10] 张伟，黄炜，罗大庸.基于多特征量贝叶斯融合的驾驶疲劳识别[J].计算机工程与应用，2012，48（33）：244-248.

[11] Azman A，Qinggang M，Eran A E，et al.Non-intrusive physiological measurement for driver cognitive distraction detection：eye and mouth movements[J].International Journal of Advanced Computer Science，2011，1（3）：92-99.

[12] Huang Wei，Zhang Wei.Driver fatigue recognition based on supervised LPP and MKSVM[C]//Zhang Ting.Proceedings of the SPIE，Third International Conference on Digital Image Processing，Chengdu，China，2011.USA：SPIE，2011.

[13] Ma C X，Li Y Z，He R C，et al.Latent ring-like road traffic control system based on compound mechanism particle swarm optimisation algorithm[J].Int J of Modelling，Identification and Control，2013，18（1）：47-53.

[14] Zhang L，Zhou W D，Chang P C，et al.Kernel sparse representation-based classifier[J].IEEE Transactions on Signal Processing，2012，60（4）：1684-1695.