基于梯度方向特征的表情识别研究

2022-10-14 13:05赵彩敏
许昌学院学报 2022年5期
关键词:梯度方向欧式识别率

赵彩敏

(许昌学院 数理学院,河南 许昌 461000)

心理学家研究发现,表情是人类交流重要的信息载体,人脸表情信息占据人类信息交流的55%,面部表情能够表达人类复杂微妙的情绪以及人类对应的心理状态.人脸表情由七种表情(愤怒、高兴、悲伤、惊讶、厌恶、恐惧和中性)组成.人脸表情识别技术利用计算机自动识别人脸表情,获取和分析人脸表情信息视觉特征,使计算机按照人类的思考方式进行研究然后分类.表情识别的流程一般包括人脸检测,图像预处理,特征提取及表情识别分类等.

人脸图像特征的提取方法有基于纹理特征的提取算法,基于几何特征的提取算法,基于深度学习的提取算法.而表情特征的提取直接影响表情识别的分类,所以合适的表情特征提取非常重要.纹理特征主要包含图像灰度值信息及图像像素等信息,常用的纹理特征提取方法有局部二值模式(Local Binary Pattern,LBP),Gabor变换特征提取以及梯度方向特征提取(Histogram of Oriented Gradient,HOG)等,此方法具有旋转不变性,抗噪声抵抗能力强.几何特征提取图像中各个特征点之间的几何关系,此方法需要对人脸表情的特征点准确定位,因此增大了计算复杂度,导致识别时间增加;经典的几何特征提取方法有主动形状模型(Active Shape Models,ASM),主动外观模型(Active Appearance Models,AAM)模型等.基于深度学习的特征提取方法,自动进行特征提取,不需要手动设计特征提取方法,具有很好的非线性表征能力,更好的得到丰富的特征信息,但是提取的特征信息大,运算量大,计算比较耗时,而且容易出现过拟合现象.经典的深度学习算法有卷积神经网络(Convolutional Neural Network,CNN),深度置信网络(Deep Belief Network,DBN)等.

梯度方向直方图(HOG)在2005年由Dalal首先提出,HOG通过计算图像的梯度,并统计分布在不同方向的梯度幅值,得到梯度方向直方图来构成HOG特征.首次应用在人体检测上,HOG特征能够很好地获得形状轮廓信息,具有很好的检测性能和鲁棒性,被应用在刚体和可形变体等对象的检测和识别上[1-2].最近HOG特征被广泛应用于机器学习、模式识别和图像处理等领域,Deniz等人首次应用HOG在人脸识别中,但是HOG特征在人脸表情识别中的研究成果相对较少,HOG特征在人脸表情识别应用中的潜力还有待挖掘.

1 HOG特征的计算

HOG特征提取具体的计算过程如下.

首先对一幅图像I进行Gamma矫正和颜色归一化处理,目的是降低光照不均的影响,Gamma矫正公式.

I(x,y)=I(x,y)gamma.

(1)

归一化后的每个像素点(x,y)处的水平梯度和垂直梯度,梯度的幅值G(x,y)和梯度的方向α(x,y)分别如下式所示.

(2)

然后将梯度方向划分为K个均匀的区间,用Vk(x,y)表示像素点(x,y)对第K个区间的贡献权值.其中一种简单的权值取法是

(3)

对块中每个单元的区间分量采用L2-norm归一化处理.

(4)

式中,加一个较小的数ε,取ε=0.01,防止式中分母为0,导致计算结果无穷大.

HOG是一种用来描述图像局部表象和形状的算法.HOG将输入图像划为若干重叠的均匀的block,每个block一般由相邻的2×2个cell构成,cell是图像被细分的多个小的细胞单元,计算每个cell单元梯度幅值和梯度方向特征,然后在这些block内对各细胞单元的梯度进行归一化,取得最终的梯度方向向量.HOG特征能体现图像局部区域的梯度强度和梯度方向的分布情况,很好地表征了局部区域内目标的边缘或梯度结构,进而表征目标的形状,对辐射差异和配准误差有较强的稳健性,对光照变化也有较强的适应性.

改进的算法首先将JAFFE表情数据库中256×256大小的人脸表情图像剪切为120×120大小的图像,将其划分64个15×15大小的cell,相邻2×2个cell组成一个block,将该块在图像中向右侧或向下方移动一个cell的大小,以获得下一个块.因此,块与块之间存在着重叠,所以可以得到49个重叠的block,对每一个block求其梯度方向特征.本文取18个方向特征,也就是每360/18=20度分到一个方向.每一个block中有2×2×18个特征,总特征数为3 528个.具体过程如图1所示.

图1 block梯度方向特征提取过程

2 欧氏距离分类器

在图像识别领域,有豪斯多夫距离[3],切比雪夫距离[4],马氏距离[5],欧式距离[6]等测量图像距离的度量方法.常用的欧式距离分类器,简单方便,算法编程易操作,也可以取得不错的识别结果,所以选用欧式距离作为样本间相似度的度量来实现表情分类.欧式距离(Euclidean distance)可以计算某高维空间两点间的距离,也称欧几里得度量.如果一个N维欧式空间是一个点集,它可以表示为(x1,x2,…,xn),表情的特征向量可以看作一个点集.同样的表情,它们的特征向量之间的欧氏距离就相对很近,相反不同表情之间就存在很大距离.两个特征向量之间的欧式距离可以定义为

(5)

其中,xi和yi分别表示输入图像的特征向量x和训练图像的特征向量y的第i个元素.因为欧式距离分类器简单实时性强,本文选择了欧氏距离来求取待识别表情和训练.

3 实验仿真结果及分析

实验配置为Intel(R) Core(TM) i5-3470 CPU@3.20 GHz,内存4.00 GB,操作系统是Windows 7 64位,是基于MATLAB R2016b学习平台.

实验采用日本JAFFE表情数据库,JAFFE表情数据库共有213幅人脸表情图像,总共七种表情(生气、厌恶、害怕、高兴、中性、悲伤和惊奇).213幅表情图像剪贴为120×120大小的图像.经过人脸图像18个block梯度方向特征提取,每幅图像得到3 528个特征数,与图像梯度相比,梯度直方图降低了向量长度,丰富的局部细节特征无须特征降维,由欧氏距离分类器计算,部分待识别图像与训练图像之间欧式距离计算结果如图2所示.矩阵中0代表的是待识别图像与本身图像之间欧氏距离计算结果,每一列除0之外的其他数据就是待识别图像与其他图像之间的欧氏距离计算结果,我们只需统计这一列数据中最小的数据(除0之外)即可,这便是最终的识别结果.例如第一列中第二个数据2.464 7就是人脸表情数据库里第一幅图像与其他图像的最小的欧式距离计算结果,第二幅图像是生气,所以第一幅图像的识别结果为生气,识别结果是正确的.

图2 待识别测试表情图像与训练图像之间的欧氏距离

表1列出213幅图像的识别结果,识别率的计算公式为识别率=正确识别数/测试总次数.

表1 JAFFE表情数据库7类表情实验结果

统计测试图像的识别结果,得到人脸表情识别率为生气(100%)、厌恶(96.55%)、害怕(90.63%)、高兴(93.55%)、中性(100%)、悲伤(93.55%)、惊奇(100%).生气,中性和惊奇识别率达到100%,这是因为这三种表情特征比较明显,和其他表情图像特征差别大;害怕的识别率相对低一些为90.63%,因为害怕和悲伤数据库中一些表情比较相似,特征区别不太明显,悲伤和害怕部分人脸表情图像如图3所示.统计可得正确识别表情个数为205,可得整体表情识别率为96.24%.最后,将此方法和其他一些常见的识别方法进行比较,结果见表2.

图3 相似的表情图像

表2 不同方法在JAFFE数据库上实验结果的比较

4 结语

表情识别在特征提取和分类器两个步骤上,分别选择了梯度方向特征和欧氏距离分类器.实验识别结果表明对表情图像梯度方向直方图进行欧式距离计算,它们的欧式距离很小,表明其相似度极高,识别率较高,梯度方向特征能够很好地表征表情的有效特征.在以后的研究中可以考虑自建高质量的表情数据库,融入多信息特征的识别等,以进一步提高算法的识别率和鲁棒性.

猜你喜欢
梯度方向欧式识别率
基于机器视觉的钢轨接触疲劳裂纹检测方法
基于类图像处理与向量化的大数据脚本攻击智能检测
基于Creo软件的石材欧式壁炉三维造型设计
一类特殊混合跳扩散Black-Scholes模型的欧式回望期权定价
欧式城堡——木炭与色彩的碰撞
对我国小城镇建设过程中欧式古典风格建筑兴起的思考
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于梯度方向一致性引导的边缘检测研究
提升高速公路MTC二次抓拍车牌识别率方案研究
基于光谱上下文特征的多光谱舰船ROI鉴别方法