张晓红 刘岩 姚鸿勋
摘 要:纹理特征是一种比较常见的图像特征,LBP特征是描述纹理最有效的特征之一。在猫脸识别中,为了提取丰富的纹理信息,同时利用特征点的空间信息,本文在LBP特征上应用空间金字塔SPM。而为了更好地捕捉图像不同空间区域之间的纹理变化,基于Haar-like特征的思想,我们在SPM上应用Haar模板提取不同区域间的纹理差异。在基于Microsoft Cat Dataset进行处理所得到的猫脸数据集上的实验结果验证了所提出方法的有效性。
关键词:纹理特征;LBP特征;空间金字塔;Haar-like
中图分类号:TP391 文献标识号:A 文章编号:2095-2163(2015)04-
Cat Face Recognition Using SPM based on Haar-like Feature
ZHANG Xiaohong, LIU Yan, YAO Hongxun
( School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001, China)
Abstract: Texture is one of the most common image features in computer vision, which can be represented effectively using LBP. In order to exploit the rich texture information of cat and extract the spatial information of the feature, the paper utilizes the Spatial Pyramid Model after LBP is extracted. Meanwhile, based on the idea of Haar-like feature, the paper applies the rectangle model into the SPM to capture the variations of features of different regions in the image. Therefore, the paper conduct the experiments on the processed Microsoft Cat Dataset and the results validate the effectiveness of the proposed method.
Keywords: Texture; LBP; SPM; Haar-like
0 引 言
近十几年来,人脸识别一直是颇受瞩目的热门研究领域,目前常见的人脸识别方法有主成分分析法[1],线性鉴别[2]等全局性方法。研究演变至今,基于局部特征的识别则逐渐获得了发展重视,同时研究者们也已开始更多地关注于动物识别,例如将人脸识别的方法应用到猫脸识别上,这也是本文的研究内容。
局部二元模式(LBP,Local Binary Pattern)作为一种局部纹理特征描述算子最初由Ahonen引入人脸识别[3],是通过比较中心像素点与其邻域内的像素点的灰度值的大小获得该中心像素点的二值编码,进而获得多区域的直方图作为描述图像的特征。但是这样所获的特征并不能表征相邻区域间的纹理变化。
王玮等提出采用多尺度LBP特征来描述和识别人脸[4]。首先,对一定尺度的图像进行小波分解,然后在此基础上将图像分为多个区域,再将各个区域的lbp直方图串联起来,获得当前尺度下的图像特征,同时通过变换不同的尺度,来得到多尺度下的lbp特征。
Haar-like 特征又称矩形特征[5],根据不同的矩形模板来获得局部区域间的灰度差值,而其作为描述图像的特征,能够有效地描述图像的对角特征、边缘特征、线性特征等基本特征,因而具有较好的统计特性。并且,可以通过积分图[6]的方法,来简化特征的提取。但是该方法获得的特征数较大,且体现的仅是图像在一定区域内的灰度差值,如此对于纹理信息比较简单的图像,如人脸,则可进行优质描述,且能够取得较好结果;而若是针对纹理信息比较丰富的物体,例如动物,识别的效果却会偏差一些。
对于包含黑色条纹和白色条纹横向交错的图片,如果使用多分辨金字塔[7]进行直方图提取,获得的直方图[8]是相同的,不能反映特征的空间关系。本文在空间金字塔[9]上来提取LBP特征,这样就可以反映特征点的空间关系。通过实验发现这种方法能够获得比较显著的局部特征[9]。
人们通常将Haar-like特征应用到灰度值上,将特征模板对应区域的灰度差值作为特征,用于接下来的训练。通过使用adaboost方法在人脸识别上获得了非常好的效果。由于图像纹理是一种微观不规则模式,但是在一定区域内具有统计规律特性,为了能够描述局部间的这种纹理变化,本文结合Haar-like特征的思想,在SPM上应用Haar模板提取相邻区域纹理的差异。本文特征提取的流程如图1所示。
1基于Haar与SPM的LBP特征描述
本文通过在猫脸上提取LBP特征,并加入特征的空间信息,来对猫脸进行识别,下面将详细介绍特征提取的过程。
1.1基本的LBP特征
局部二值模式(LBP,Local Binary Pattern)是描述纹理最有效的特征之一[3]。现以3 × 3窗口内的像素点为例,给出其基本的LBP算子定义的计算公式定义如下:
(1)
其中,(xc,yc)为中心点,其灰度值为gc,gp(p = 0,….7)即为以中心点为圆心,以3为半径的圆内的像素点,这些像素点形成一个对称邻域。
将对称邻域内的点与中心点的灰度值做差,并进行二值化处理,具体公式如下所示:
(2)
其中:
(3)
至此,在所获八位二进制的基础上,按照如下公式对二进制进行加权求和,即可得到中心点的LBP编码。 (4)
现取一个像素点的3 * 3 邻域,求取该点的LBP编码,如图2所示。
通过计算图像上每个点的LBP编码,就得到了该图像的LBP图谱,如图3所示。
通常,需要对LBP 图谱提取LBP直方图,以此作为训练分类器的特征。度量直方图的距离已有很多种方法,诸如相关度,卡方距离,直方图的交和巴氏距离等。考虑到计算简单、且准确的方法宗旨,研究选取直方图的相交距离来衡量两个直方图的相似性,具体公式为:
D (5)
1.2 SPM空间金字塔匹配
空间金字塔(SPM, Spatial Pyramid Matching)[9],是词袋模型(bag of features,BOF)的一种扩展,具有计算高效的特点,由于通过BoF可以得到全局的直方图,但却不能反映特征的空间位置关系,为了改进这一不足,采用了SPM,通过将图像划分为不同的区域,同时计算每个区域内的特征,而最终获得特征的空间分布信息。
经研究表明,人的感知是一个由全局到局部,由粗到精的过程,也就是先获得全局信息,而后通过局部信息进行精化[4]。对于纹理信息比较丰富的猫,为了获得图像的全局和局部信息,在空间金字塔上提取LBP特征。
与多分辨率直方图不同, SPM每次提取的直方图的bin的个数是相同的,赋予不同level下的直方图各自不同的权值,而将每个level下获得直方图连接起来,即可获得一个高维特征,这样就能保存更多的图像信息。以儿童玩具为例,构造三层空间金字塔的SPM特征提取过程如图4所示。
由图4中可见,图中黑点,加号和菱形代表通过kmeans等聚类方法获得的视觉单词。具体步骤如下:
(1) 将图像划分为三个不同分辨率,对于每一个level 下,划分的块的大小均是相同的,但不同level 下的个数却有所不同。具体来说,对于level 0,块数为一个,表示原图像,Level1 划分为四块,level 2 划分为八块。
(2) 统计各个level下,每个小块的直方图,并将每一个level下的直方图赋予一定的权值,而且由左到右的权值将依次增大。
(3) 将加权的直方图串联起来,得到图像的特征描述。 对于L层和M个bin, 获得的特征总数为:
(6)
Level越大,划分的区域越小,因此即能获得特征的局部信息;与之相对应,level越小,划分的区域就越大,则能够获得特征的全局信息。当level = 0时, 相当于在整幅图片上提取直方图,SPM即退化为bag of words。因此在不同的层次上提取特征,也是一个由粗到精的过程。
可以发现,SPM计算简单高效,以三层金字塔为例。首先提取level2 下的直方图,对于level1的每个块的直方图则由level2下对应的小直方图的求和而最终获得,对于level0的特征则由level1计算得到。因此可知,整体计算较为简单,而且其计算时间与特征维数呈线性关系。
1.3 基于Haar 模板的SPM的LBP特征提取
Haar-like特征是由Viola等人提出的一种简单矩形特征,主要由一些相同大小的矩形组合搭建而成,并因其类似于Haar小波而得名。Viola等提出的矩形特征可如图5所示, 通过将黑色矩形覆盖区域的像素灰度值的和减去白色矩形覆盖的图像区域的像素灰度值的和,即可将差值作为Haar-like特征在当前矩形大小下,当前位置时的特征值。
Haar-like特征能够有效反映图像局部的灰度变化,同时计算简单。通过选取特定的特征模板,来表征不同区域间的灰度值的差值,这种方法在纹理信息并不丰富的人脸上取得了不错的效果。对于猫脸来说,为了充分利用其丰富的纹理信息,文中结合Haar-like特征模板,求取相邻局部区域间纹理的一阶差值,从而获得相邻局部区域间的纹理信息的变化。实现过程示意如图6所示。
具体的方法为(以基本的LBP,构造三层空间金字塔为例):
(1)将图像转换为灰度图像;
(2)将灰度图像划分为三个level,在每一个level下, 划分的块大小是相同的,但划分个数为:对于level 0,块数为一个,表示原图像,level1 划分为四块,level 2 划分为八块;
(3)对level2上的每个小块提取256维LBP直方图,赋予每个小直方图的权值为1/2;
(4)对level 1上的小块,找到对应的level2上的小直方图,计算小直方图的和,同时赋予权值1/4,level 0计算方法与level1的计算相类似;
(5)在每一个level上应用Haar-like特征模板,求取特定的相邻局部区域间的LBP的直方图距离;
(6)将(4)、(5)步中得到的直方图串联起来,得到图像的特征表示。
在本文中,将lbp的256个不同的码值作为bag of words的视觉单词,由SPM上提取LBP直方图,并在此基础上结合Haar-like特征模板,即能捕捉同一level下的不同块间的纹理变化,如猫的两眼间的差别,耳朵间的差别等信息。
2 实验结果与分析
2.1 实验数据
为了验证所提出特征的性能,本文构建了一个猫脸的数据集,这是对Microsoft Cat Dataset [10]进行处理后所得。微软猫脸的数据集有三万多张猫的图片,大部分图片都是猫在自然场景下拍摄的图片,有些猫的头部与水平的夹角呈各种角度。其中,该数据集对猫脸的九个点进行标注,包括嘴巴,左眼睛,右眼睛,左耳朵右耳朵的六个点。为了能够分析所提出特征的实际表述能力, 通过一定的坐标坐标变换,获得了水平方向上的猫的图片,去除纯白,纯黑的猫的图片,以及受光照影响比较强烈、纹理也不清晰的的猫脸图片,即将初选后的图片作为训练集与数据集。获得数据集如图7所示。
在实验中,研究选取4 000幅猫的图像作为正例,3 000幅从VOC2007上采集到的不是猫的图片作为负例,使用svm支持向量机训练猫脸的分类器,通过交叉验证的方法,对采用HOG特征、只采用空间金字塔匹配SPM、采用SPM和Haar、采用HOG与本文所提出的特征相结合进行了实验。
2.2 实验结果及分析
实验中选取level = 3,在SPM上获得了5 376维特征。为了表征同一个level下不同区域间的纹理变化情况,在SPM上应用Haar-like模板,通过计算黑色矩形框覆盖的区域的LBP直方图与白色矩形框覆盖的区域的直方图相交的距离,作为当前的特征模板的特征值,最终得到17 664维特征。实验结果可如表1所示。
Feature Accuracy
HOG 0.669 81
LBP + SPM 0.521 12
LBP + SPM + HAAR 0.569 41
HOG + LBP + SPM + HAAR 0.691 57
由交叉验证结果即能看出,通过比较第一行和第二行,第三行可知,与HOG[11]特征相比,单独使用LBP特征的识别率要低于使用HOG特征的识别率;通过第二行和第三行则可看出,结合Haar模板提取的LBP特征要比只使用基于SPM特征的方法的识别率更高;通过第一行和第四行可进一步看出,通过将HOG特征和所提取的特征相结合,将会提升一定的准确率,这也从根本上验证了HOG特征和LBP特征的互补性。
3 结束语
为了获得特征的空间信息,本文提出了一种基于SPM和Haar-like的思想提取LBP特征的方法。首先在LBP特征上应用空间金字塔SPM,同时为了表征局部区域间的纹理变化,在SPM的基础上引入Haar-like特征模板,来获得某一层金字塔中相邻区域的纹理变化。在对Microsoft Cat Dataset进行处理所得到的猫脸数据集上的实验结果验证了所提取的方法的有效性,在猫脸识别上获得了较好的效果。
参考文献:
[1] TURK M, PENTLAND A. Eigenfaces for recognition[J]. Cogn. Neurosci,1991, 3:72–86.
[2]ETENMAD K,CHELLAPPA R.Discriminant analysis for recognition of human face images[J]. Journal of the Optical Society of America,1997,14(8):1724-1733.
[3] OJALA T, PIETIKAINEN M, HARWOOD D.A comparative study of texture measures with classification based on feature distributions[J].Pattern Recognition,1996,29(1):51-59.
[4]王玮,黄非非,李见为,等.使用多尺度LBP特征描述与识别人脸[J].光学精密工程, 2008, 16(4): 676-704.
[5] VIOLA P. Rapid object detection using a boosted cascade of simple features [J].Computer Vision and Pattern Recognition, 2001 (1):511-518.
[6] VIOLA P, JONES M J. Robust real-time face detection [J]. International Journal of Computer Vision ,2004, 57(2):137-154
[7] HADJIDEMETRIOU E, GROSSBERG M, NAYAR S. Multi-resolution histograms and their use in recognition[J]. IEEE Trans.PAMI, 2004,26(7):831–847.
[8] SCHIELE B, CROWLEY J. Recognition without correspondence using multidimensional receptive field histograms[J]. IJCV, 2000,36(1):31–50.
[9] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]//Computer Vision and Pattern Recognition,2006 IEEE Computer Society Conference on, Boston, Massachusetts, USA:EEE, 2006,2:2169-2178.
[10] http://mmlab.ie.cuhk.edu.hk.
[1] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005, 1:886 - 893.