嵇朋朋 闫胜业 李 林 刘青山
(南京信息工程大学信息与控制学院 南京 210044)
词袋(Bag-of-Words, BoW)表示模型[17]-在图像分类[814]-中已经得到非常广泛的应用。一般地,BoW表示模型包括4个关键部分:局部特征抽取、生成词典、特征编码、特征聚合。(1)局部特征抽取。典型的局部特征有哈尔特征、尺度不变特征转换(Scale-Invariant Feature Transform, SIFT)特征、梯度方向直方图(HOG)特征等等。文献[1]提出只对兴趣点进行局部特征采样。在文献[8]中,对一幅图像所有位置进行空间均匀密集采样[25]-,从而大大提高了分类精度。另外,文献[12]用仿射 SIFT 特征处理手势和视觉点的变化。文献[13]基于SIFT特征的局部组合提出了中间层特征。(2)生成词典。通常用K平均(K-means)算法或K近邻(K-NN)算法对局部特征进行聚类生成词典。为了得到更精确的词典,文献[15]提出基于稀疏表示的监督词典学习方法。文献[16]利用在线鲁棒学习的方法建立词典。文献[2]提出用稀疏编码进行词典学习以及向量量化。(3)特征编码。特征编码有3种方式:(a)二元编码硬关联[1],局部特征只投票给与其最近的一个中心点,只能近似编码,容易产生误差。(b)多元编码软关联[17],允许局部特征投票给多个中心点,这能够保存更多的信息,得到比二元编码更好的执行效果。(c)基于编码的特征重建:文献[2]提出用稀疏编码对局部特征进行重建,局部特征和学习得到的词典的相关程度是用稀疏编码的重建系数控制。(4)特征聚合。经典的聚合操作有最大聚合(max pooling)和平均聚合(average pooling),即保留所有响应的最大值或平均值。文献[18]陈述相邻局部聚合操作能够有效地处理更长的词典。文献[19]提出几何聚合,即在不同几何位置赋予不同权重。为了引入空间信息,空间金字塔匹配(Spatial Pyramid Matching, SPM)[20]被广泛地应用到图像分类中。文献[21]把重叠空间区域加入到原始空间金字塔的非重叠网格,从而能抓住更多的空间信息。最近,VOC 2007[22]的获胜者使用一种新的空间金字塔层倍受几个最新方法的关注[2325]-。文献[26]用扇形聚合取代传统空间金字塔中的矩形区域聚合。
局部特征抽取是词袋表示模型的基础,局部特征抽取方式可以分为两类:一类是基于兴趣点检测,另一类是空间均匀密集采样方式。早期的方法主要是基于兴趣点检测的方法[1],兴趣点检测算法通过特征描述子来选择比较明显的像素点、边缘、角点、区块等,最常用的兴趣点检测算子有Harris角点检测算子,FAST 算子,LoG, DoG等。近年来,使用最多的则是空间均匀密集采样的特征抽取方式[25]-。其主要思想是从图像中按固定的步长、尺度抽取出大量的局部特征,如:SIFT, HOG, LBP等。大量实验证明空间均匀密集采样方式可以得到比兴趣点检测更好的性能。
空间均匀密集采样是通过控制X方向步长和Y方向步长方法来实现的,得到的局部特征是均匀地散布在整幅图像上。因此,空间均匀密集采样抽取的局部特征不仅冗余度高,而且往往只是概括了一幅图像的大概内容。一般来说,要得到更好的分类精度,就需要更密集的采样,从而抽取更多的局部特征,但计算复杂度也会随之上升,并会加入大量的噪声信息。然而,具有固定步长均匀采样并不能完全抓住位于目标物体的边缘或角点,必然会错失一些重要的局部细节。在一幅图像中,目标物体的边缘、轮廓等信息都更具有判别和描述力,如图3(b)所示。因此,图像中物体边缘、显著区域更应该得到关注。在自然场景分类中,采用稀疏编码对特征进行信号重建,它关注的是具有代表性的特征,对图像来说,最具代表性的特征往往都在边界周围,因此区域内部并不需要稠密采样。根据这一思想,本文提出一种新的非均匀空间采样策略,即在保持抽取的局部特征个数以及计算复杂度不变的情况下,与空间均匀密集采样方式得到的局部特征的分类性能作比较。在本文中,先过分割图像得到若干个分割区域,然后使用显著性检测技术估计每个过分割区域的重要性。在不增加局部特征个数的情况下,在分割边界根据区域的重要性实行密集均匀采样,并在区域内部根据区域大小以及重要性实行随机采样。这样在分割边界上密集均匀抽取的局部特征在某种程度上被认为是表示形状信息。而在分割区域内部随机采样抽取的局部特征被看作是表示纹理信息。通过基于区域非均匀空间采样策略,能够很好地抓住图像中目标物体的边缘、轮廓区域的重要信息,并通过显著性检测技术降低特征冗余度,减弱背景噪声对物体分类系统的影响,从而得到比空间均匀密集采样更好的分类效果。在两个广泛应用的数据库(UIUC Sports和Caltech-256)上对基于区域非均匀空间采样策略进行实验验证。
本文方法完全独立于词典学习、特征编码、特征聚合部分,有很强的可移植性。本文结构安排如下。第2节内容是基于区域的非均匀空间采样方法,主要包括显著性区域分割边界密集均匀采样和分割区域内部随机采样两个部分;第3节实验给出了不同方法以及不同参数下,在两个图像分类通用数据库上的实验结果的对比;第4节总结全文。
图1 给出了基于区域非均匀空间采样特征抽取工作的流程图。如图1中的虚线框所示,主要包括过分割图像、显著性区域检测以及局部特征采样等环节。特征采样主要包括在分割边界密集均匀采样以及分割区域内部随机采样两个部分。
图1 BoW表示模型的特征抽取框架
理想情况下,如果能够准确地从图像中分割出语义目标物体,就可以很容易地得到这幅图像属于哪一类。然而,迄今为止,语义目标物体的分割在图像处理领域中仍然是很开放的问题,没有一个统一有效的解决方案。但是,相比于基于像素的图像分析,基于区域的图像分析方法变得更为流行,因为区域通常包含一些中间语义特征。如图1中图像分割所示,首先用图像分割算法将一幅图像分割成若干个区域。本文采用最常用的正则化分割算法[27]。对样本图像进行的过分割效果如图2所示,图2(a)是包含不同目标物体的原始图像,图 2(b)给出相应图像的分割区域以及每个区域的分割边界。图 2(c)是显示分割边界的二元视图。从图2中,能够清晰地观察到目标物体的轮廓外形。
在过分割得到若干个分割区域之后,用显著性检测算法估计每个分割区域的重要性。本文采用自底向上的贝叶斯显著性模型[28]来估计图像中每个像素v的后验概率,如式(1)所示。
先验概率分布是通过超像素聚类(cluster)组合和粗略显著性区域(hull)两个部分计算得到的。其中,超像素聚类组合是对超像素聚类到若干个子空间的聚类过程。本文中,用过分割算法将图像分割成N个超像素(分割区域),亦可以把N个超像素看作是来自n个子空间数据点的集合。接着利用稀疏子空间聚类算法将N个超像素聚类成n个子空间组合。粗略显著性区域是根据检测突出点计算得到近似显著性区域。每个超像素聚类中包含多少像素属于粗略显著性区域,其显著性的先验概率为
图2 对Caltech-101/256 数据库中样本图片进行过分割及显著性检测
其中,C表示一个超像素聚类组合,H表示粗略显著性区域包含的显著点个数,表示集合中所包含的元素总数。若超像素聚类和粗略显著性区域没有重叠,则先验概率就为0。
像素的观测似然函数是由像素的颜色分布计算得到,给定带有兴趣点的粗略显著性区域,便可以计算出每个像素的显著性概率。粗略显著性区域把图像分割成两个部分:前景区域obj和背景区域bkg。单一像素的显著性则用其颜色直方图(CIELab颜色空间)与粗略显著性区域像素的相似程度来估计得到,每个像素v的特征表示为[(),l v。每个像素v的观测似然函数则为
对图像进行过分割之后,便可得到N个分割区域及相应的分割边界。对每条分割区域的边界来说,都可能接近目标物体的外形或者轮廓。因此,在目标物体边界周围的像素对描述图像来说非常重要,并且这些像素都将转换为具有很好判别力的特征描述子。如图 3(a)所示,传统的利用具有固定步长的空间均匀密集采样方式,并不能完全抓住位于区域边界或目标轮廓周围的每一个突出点,除非把采样步长设置为1个像素。为了解决这个问题,本文提出非均匀空间采样在分割边界周围密集均匀地抽取局部特征,在分割区域内部根据分割区域大小及其重要性抽取局部特征。非均匀空间采样的方法如图3(c), 3(d)所示,只在分割边界及显著性区域内实施采样,其他区域内不采样。与图 3(a)相比,可以得到位于边界周围的像素分布,边界采样点如图3(c),3(d)中细十字所示。与此同时,在显著性区域内部随机采样抽取局部特征,采样点如图3(c), 3(d)中粗十字所示。图3(b)已经给出在分割边界采样特征与均匀采样的不同之处。
为了更好地理解基于区域非均匀空间采样和形状信息的相关程度,本文给出了边界周围采样以及分割区域内部随机采样提取的特征数目的分析。如图3所示的图像,图像大小是300200×像素。对于空间均匀密集采样方法,如果要对每个像素都采样,就会提取出60000个局部特征。对于基于区域的非均匀空间采样策略,特征个数的分析如表1所示,本文以20, 40, 60, 80以及100过分割数目为例,那么在边界周围提取的局部特征数目相应为713, 848,985, 1117和1175,如表1第2行所示。考虑到采样数目要与空间均匀密集采样数目一致,而空间均匀密集采样数目是受 X方向步长和 Y方向步长控制的。在本文实验中,采样步长设置为6个像素,这样非均匀空间采样及空间均匀密集采样所提取的局部特征个数分别为 1667(60000/6 1667= )。因此,在分割区域内部随机采样的特征个数fN分别为954,819, 682, 550, 492,如表1第3行所示。
图3 空间采样策略示意图
表1 非均匀特征采样数目分布
然而,在非均匀空间采样+显著性检测方法中,在显著性分割区域内部随机采样的个数,显著性分割区域内部所含像素个数以及分割区域显著性均值来决定,即
在抽取分割边界上局部特征的同时,用分割区域内部随机抽取的特征作为补充。对分割边界及区域内部进行非均匀采样的原因,主要是边界上的突出点包含更有价值的信息,而区域内部提取的局部特征是描述纹理信息。然而,通过边界检测得到的边界点或通过兴趣点检测得到兴趣点仅仅聚焦一个特征,即都是由几个相邻像素反映出来(例如拐角或者分界线)。然而,利用超像素原理的图像分割技术得到的区域边界,能够更好地抓住目标层次的特征信息。另外,视觉认知研究表现,背景或者噪声通常都是杂乱的,而显著性目标通常都是相对于杂乱的背景或噪声而言的,在颜色、亮度等视觉特征方面都存在较大的对比度。显著性模型就是基于这一视觉认知研究,检测图像中有别于杂乱背景或者噪声的典型关键区域,避免背景或噪声区域对进一步分析的影响。
在本节,对基于区域非均匀空间采样方法进行评估,在UIUC Sports[29], Caltech-256[2]数据库中进行实验。在相同实验设置下,比较非均匀采样、空间均匀密集采样和非均匀采样+显著性区域检测 3个采样方法的实验结果。
在数据库UIUC Sports和Caltech-256上,为了方便和其他工作比较,先把原始的彩色图像转化为灰度范围的图像。把UIUC Sports中图像压缩到不大于400400×像素大小,把Caltech-256中图像分别压缩到不大于300300×像素大小。
本文以文献[2]系统框架作为参考基准,对BoW特征表示实验设置如下:
(1)局部特征提取:SIFT[8]特征是常用局部特征之一。提取SIFT特征的块大小是1616×像素,通过特征提取即可得到128维的特征向量。在分割边界上及区域内部提取 SIFT特征的步长均设置为 6个像素。
(3)特征聚合:最大聚合是空间金字塔中最常用,也是最有效的聚合方法。两个数据库中均采用3层的空间金字塔,即。最后表示图像特征维度为字典长度102421×,即经过特征聚合之后的特征维度为21504。
(4)分类器:将聚合之后的图像特征表示送入线性支持向量机(SVM)分类器中。
在UIUC Sports数据库中有8类体育项目:羽毛球、室外滚球、滑雪板、攀岩、槌球、赛艇、马球以及帆船。这个数据库总共包括 1579 张图像,并且图像平均大小为12001000×像素。对于数据库中图像,最少的一类有137张图像,最多的一类250张图像。对于每张图像,都包含一名或者多名运动员。本文按照文献[29]的实验设置,随机地选取 70张图像作为训练图像,随机地选取60张图像作为测试图像。
如表2所示,在UIUC Sports数据库上,非均匀空间采样方法中分割区域数目为20,得到的分类精度为86.40%。随着分割区域数目的增加,在分割区域数目为100时,得到的分类精度为88.19%。显然,非均匀空间采样方法得到的分类精度也在不断地上升。结合表1中数据可得,随着分割区域数目增大,提取边界周围 SIFT点的个数就越多,从而得到更多的分割边界位置的图像信息。这意味着,在边界上提取局部特征越多,就越可以获得图像上的重要信息,并最终得到较好的分类结果。结合表3可知,当非均匀空间采样方法中分割区域数目为20,相应的分类精度为86.40%,基本可以达到空间均匀密集采样的实验分类效果。分割区域数目为60,得到的分类精度是87.29%,与空间均匀密集采样相比,分类精度提高了 0.21%,已经进入最好的分类结果行列。分割区域数目为 100,得到的分类精度是88.19%,与空间均匀密集采样相比,分类精度提高了 1.11%。空间均匀密集采样方法已经证实有较好的实验结果,然而,加入显著性区域检测的非均匀空间采样方法,在采样的策略上更能抓住图像中的目标信息,减少冗余信息。结合表3可知,当非均匀空间采样+显著性检测采样方法中分割区域数目为20,相应的分类精度为86.87%,虽然空间均匀密集采样的实验结果低一点,但是与分割数目20的非均匀空间采样的结果相比,分类精度提高了0.47%。随着分割数目的增加,也就是边界采样点数的增加,分类精度也在不断地增加。当分割区域数目为100时,得到的分类精度是89.13%,与空间均匀密集采样相比,分类精度提高了 2.05%,比表 3中最好的结果[29]还高出 1.90%。如图 4所示,给出非均匀空间采样+显著性检测采样方法中分割区域数目为100的分类结果混淆矩阵。在混淆矩阵中,每一行代表模型的测试值;每一列代表每一类所对应的真实值。从混淆矩阵中可以看出,有4类分类精度是高于90%,说明这些图片的轮廓比较容易获取,因此验证实验中能够获得更多的边界突出信息。
表2 各数据库上分割区域数目对应的分类精度(%)
通过实验证明,在UIUC Sports数据库上,非均匀空间采样+显著性检测采样方法可以得到有竞争力的实验结果。这样的结果可能证实,本文所提出的采样方法能很好地抓住图像的形状信息,减少对背景信息的过度采样。
表3 UIUC Sports 数据库上(训练数目70,测试数目60)与其他方法的分类精度比较(%)
图4 UIUC sports 分类精度为89.13%时的混合矩阵
Caltech-256数据库总共包含29780张图像,256类目标物体,其物体种类更多,数据更丰富复杂。每类至少包括80张图像,且每张图像的大小基本都是300300×像素。跟文献[2]中保持一致,每类随机取30和60张图像作为训练,剩余的图像作为测试。
如表2所示,在Caltech-256数据库上,我们对非均匀空间采样以及非均匀空间采样+显著性检测得到的实验室结果进行了评估。结合表 4,在非均匀空间采样方法中,训练样本为30及60时,分割区域数目为 20,相应的分类精度分别为 35.37%和41.43%,已经达到与空间均匀密集采样相竞争的实验结果。当分割区域数目为 100,得到的分类精度分别为 37.21%和 42.63%,与空间均匀密集采样相比,分别提高了 0.75%和 0.63%。然而,非均匀空间采样+显著性检测中,当分割数目为 100时,分类精度分别为 37.94%和 43.31%,与非均匀空间采样相比,分类精度也有明显的提高。这说明非均匀空间采样+显著性检测,能很好地减少噪声的影响。实验证明,非均匀空间采样方法,比传统的空间均匀密集采样更能获得图像的重要信息,并能够得到有竞争力的分类结果。
表4 Caltech-256数据库上与其他方法的分类精度比较(%)
为了能够更好地提取图像中的局部稠密特征,本文提出了非均匀空间采样策略,先对自然图像进行过分割,得到分割边界图谱以及若干个区域。然后,用显著性检测技术估计每个分割区域的重要性,根据重要性大小分别在分割边界密集均匀地抽取局部特征以及在分割区域内随机地抽取局部特征。在特征总数不变的情况下,实验结果证明本文提出的基于区域的非均匀稠密局部特征能有效地提高图像分类性能。
[1] Csurka G, Dance C, Fan L, et al.. Visual categorization with bags of keypoints[C]. Computer Vision-ECCV 2004, 8th European Conference on Computer Vision, Prague, Czech Republic, 2004: 1-22.
[2] Yang Jian-chao, Yu Kai, Gong Yi-hong, et al.. Linear spatial pyramid matching using sparse coding for image classification[C]. 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009),Miami, Florida, USA, 2009: 1794-1801.
[3] Wang Jin-jun, Yang Jian-chao, Yu Kai, et al.. Localityconstrained linear coding for image classification[C]. 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2010), San Francisco, CA, USA, 2010:3360-3367.
[4] Grauman K and Darrell T. The pyramid match kernel:discriminative classification with sets of image features[C].10th IEEE International Conference on Computer Vision(ICCV 2005), Beijing, China, 2005: 1458-1465.
[5] Zhang E and Mayo M. Improving bag-of-words model with spatial information[C]. 25th International Conference of Image and Vision Computing New Zealand (IVCNZ 2010),Queenstown, New Zealand, 2010: 1-8.
[6] Chandra S, Kumar S, and Jawahar C V. Learning hierarchical bag of words using naive bayes clustering[C].11th Asian Conference on Computer Vision (ACCV 2012),Daejeon, Korea, 2012: 382-395.
[7] Khan R, Barat C, Muselet D, et al.. Spatial orientations of visual word pairs to improve Bag-of-Visual-Words model[C].British Machine Vision Conference(BMVC 2012), Surrey,UK, 2012: 89.1-89.11.
[8] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004,60(2): 91-110.
[9] Yan Sheng-ye, Xu Xin-xing, Xu Dong, et al.. Beyond spatial pyramids: a new feature extraction framework with dense spatial sampling for image classification[C]. Computer Vision-ECCV 2012, 12th European Conference on Computer Vision, Florence, Italy, 2012: 473-487.
[10] Jia Yang-qing, Huang Chang, and Darrell T. Beyond spatial pyramids: receptive field learning for pooled image features[C]. 2012 IEEE Conference on Computer Vision and Pattern recognition (CVPR 2012), Providence, RI, USA,2012: 3370-3377.
[11] Sinha A, Banerji S, and Liu Cheng-jun. Gabor-Based novel local, shape and color features for image classification[C].19th International Conference on Neural Information Processing (ICONIP 2012), Doha, Qatar, 2012: 299-306.
[12] Kulkarni N and Li Baoxin. Discriminative affine sparse codes for image classification[C]. 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2011),Colorado Springs, CO, USA, 2011: 1609-1616.
[13] Boureau Y L, Bach F, LeCun Y, et al.. Learning mid-level features for recognition[C]. 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2010),San Francisco, CA, USA, 2010: 2559-2566.
[14] Shaban A, Rabiee H R, Farajtabar M, et al.. From local similarity to global coding: an application to image classification[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013), Portland, OR, USA,2013: 2794-2801.
[15] Mairal J, Bach F, Ponce J, et al.. Supervised dictionary learning[C]. 22nd Annual Conference on Neural Information Processing Systems (NIPS 2008), Vancouver, British Columbia, Canada, 2008, 1033-1040.
[16] Lu Ce-wu, Shi Jia-ping, and Jia Jia-ya. Online robust dictionary learning[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013), Portland, OR,USA, 2013: 1-8.
[17] Van Gemert J C, Geusebroek J M, Veenman C J, et al..Kernel codebooks for scene categorization[C]. Computer Vision - ECCV 2008,10th European Conference on Computer Vision, Marseille, France, 2008: 696-709.
[18] Boureau Y L, Le Roux N, Bach F, et al.. Ask the locals:multi-way local pooling for image recognition[C]. IEEE 13th International Conference on Computer Vision (ICCV 2011),Barcelona, Spain, 2011: 2651-2658.
[19] Feng Jia-shi, Ni Bing-bing, Tian Qi, et al.. Geometric pnorm feature pooling for image classification[C]. 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2011), Colorado Springs, CO, USA, 2011: 2609-2704.
[20] Lazebnik S, Schmid C, and Ponce J. Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]. 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2006),New York, NY, USA, 2006: 2169-2178.
[21] Wu Jian-xin and Rehg J M. Beyond the euclidean distance:creating effective visual codebooks using the histogram intersection kernel[C]. IEEE 12th International Conference on Computer Vision (ICCV 2009), Kyoto, Japan, 2009:630-637.
[22] Marszalek M, Schmid C, Harzallah H, et al.. Learning object representations for visual object class recognition[C]. 11th IEEE International Conference on Computer Vision (ICCV 2007), Rio de Janeiro, Brazil, 2007: 1-8.
[23] Sharma G, Jurie F, and Schmid C. Discriminative spatial saliency for image classification[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2012),Providence, RI, USA, 2012: 3506-3513.
[24] Wu Zi-feng, Huang Yong-zhen, Wang Liang, et al.. Group encoding of local features in image classification[C]. 21st International Conference on Pattern Recognition (ICPR 2012), Tsukuba, Japan , 2012: 1505-1508.
[25] Malinowski M and Fritz M. Learnable pooling regions for image classification[C]. International Conference on Learning Representations (ICLR 2013), Scottsdale, Arizona, USA,2013: 1-10.
[26] Wang Xing-gang, Bai Xiang, Liu Wen-yu, et al.. Feature context for image classification and object detection[C]. 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2011), Colorado Springs, CO, USA, 2011:961-968.
[27] Ladicky L, Russell C, Kohli P, et al.. Graph cut based inference with co-occurrence statistics[C]. Computer Vision -ECCV 2010, 11th European Conference on Computer Vision,Heraklion, Crete, Greece, 2010: 239-253.
[28] Xie Yu-lin, Lu Hu-chuan, and Yang Ming-Hsuan. Bayesian saliency via low and mid level cues[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013),Portland, OR, USA, 2013: 1689-1698.
[29] Shabou A and LeBorgne H. Locality-constrained and spatially regularized coding for scene categorization[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2012), Providence, RI, USA, 2012:3618-3625.
[30] Gao Sheng-hua, Tsang I W, Chia Liang-tien, et al.. Local features are not lonely–Laplacian sparse coding for image classification[C]. 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2010), San Francisco, CA,USA, 2010: 3555-3561.
[31] Zhang Chun-jie, Liu Jing , Tian Qi, et al.. Image classification by non-negative sparse coding, low-rank and sparse decomposition[C]. 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2011), Colorado Springs, CO, USA, 2011: 1673-1680.
[32] Griffin G, Holub A, and Perona P. Caltech-256 object category dataset[R]. California Institute of Technology, USA,2007.