基于SIFT特征视觉词汇算法的局部遮挡目标识别

2016-11-09 07:32闫钧华姜惠华孙思佳艾淑芳李大雷
电子设计工程 2016年19期
关键词:识别率直方图矢量

闫钧华,姜惠华,孙思佳,艾淑芳,李大雷

(1.南京航空航天大学 航天学院,江苏 南京210016;2.光电控制技术重点实验室 河南 洛阳471009)

基于SIFT特征视觉词汇算法的局部遮挡目标识别

闫钧华1,2,姜惠华1,孙思佳1,艾淑芳2,李大雷2

(1.南京航空航天大学 航天学院,江苏 南京210016;2.光电控制技术重点实验室 河南 洛阳471009)

针对被局部遮挡目标的识别困难的问题,将目标图像的SIFT(Scale Invariant Feature Transform)特征矢量作为视觉单词,应用视觉词汇算法,提出了基于SIFT特征视觉词汇算法的目标识别算法。结合在无遮挡与被局部遮挡的交通工具全方位姿态模型库上进行的目标识别试验,得出结果:算法对无遮挡目标的平均识别率能到达83%以上,具有良好的识别性能;对被局部遮挡目标的平均识别率也能保持在80%左右,只有很小的降低。实验结果显示算法具有优良的识别被局部遮挡目标的性能。

目标识别;SIFT特征;视觉词汇;局部遮挡;全方位姿态模型库

目标识别所面对的目标种类规模越来越大,甚而需要在被局部遮挡伪装的情况下识别目标,因此需要研究目标图像的特征及其描述方法,同时需要研究能够有效组织目标图像特征描述子用于识别的目标识别算法。SIFT[1]特征能够定量化数据描述图像多尺度下的局部结构特征[2],是一种基于尺度空间[3]的特征,对图像缩放、旋转以及仿射变换具有不变性,在目标被局部遮挡情况下具有好的适用性。在一幅目标图像中可以提取数量众多的SIFT特征,为了能够有效组织这些SIFT特征用于目标识别,本文将目标图像的SIFT特征矢量作为视觉单词,应用视觉词汇[4]算法,提出了基于SIFT特征视觉词汇算法的目标识别算法。建立了交通工具的全方位姿态模型库和被局部遮挡的交通工具全方位姿态模型库,对无遮挡和被局部遮挡的目标进行识别,验证了算法具有优良的识别被局部遮挡目标的性能。

1 SIFT特征提取

SIFT特征提取分为特征点检测和特征矢量构造两部分,SIFT特征提取流程如图1所示:

SIFT特征点是在DOG(Difference of Gaussians)尺度空间提取尺度不变的特征点。首先利用不同尺度的高斯核与原图像卷积生成不同尺度的高斯图像金字塔,由高斯金字塔生成DOG金字塔。接着在DOG尺度空间进行斑点检测,在同一组的相邻层图像之间比较来寻找尺度空间局部极值点,每个采样点在空间域、尺度域与相邻26个点比较,如果最大或最小,则将该点设为关键点。然后进一步通过拟合三维二次函数确定关键点的位置和尺度以达到亚像素精度,去除低对比度关键点以及不稳定边缘响应点。最后将稳定的关键点作为特征点。构造SIFT特征点特征矢量。首先确定特征点的主方向,并将坐标轴旋转至特征点的主方向,保证特征矢量的旋转不变性。接着取特征点16×16邻域像素的窗口,计算每一个像素的梯度方向和幅值,进行高斯加权。然后将16×16窗口划分为4×4个小窗口,在每个小窗口中计算8个方向的梯度方向直方图,并累加每个梯度方向的模值,形成一个种子点。一个特征点由l6个种子点组成,每个种子点有8个方向的矢量,一个特征点构造出128维的SIFT特征矢量。

图1 SIFT特征提取流程图

2 基于SIFT特征视觉词汇算法的目标识别算法

2.1基于SIFT特征的视觉词汇算法

一幅图像中可以提取大量的SIFT特征量,目标识别图像库中提取出的SIFT特征量数目庞大,直接用特征量描述目标,造成通过遍历搜索匹配目标耗时过多。为了有效组织SIFT特征量对目标分类以提高目标识别的速度,本文提出基于SIFT特征的视觉词汇算法。

视觉词汇算法是将目标图像用若干视觉的“词汇”表示。举例说明视觉词汇算法[5]的概念,设有两个文档:文档1,“我在看电视,他在吃饭”;文档2,“我在看电视,他也在看电视”。根据文档1和文档2构造9个单词的词典:

词典={1.“我”,2.“在”,3.“看”,4.“电”,5.“视”,6.“他”,7.“吃”,8.“饭”,9.“也”}

根据词典索引号,两个文档分别用9维矢量描述,矢量中元素代表相应索引位置单词的出现次数:文档1:[1,2,1,1,1,1,1,1,0],文档2:[1,2,2,2,2,1,0,0,1]。

3个因素影响视觉词汇算法的效果:单幅图像中提取的特征点数、特征矢量维数、视觉词典大小。本文采用SIFT特征矢量构造高效的视觉词汇,将示例的概念推广至图像领域即为视觉词汇算法框架,应用视觉词汇算法将图像表示成类似的数值向量。视觉词汇算法可分3步:

1)从目标模型库的每个类别的模型中提取出大量的SIFT特征量,这些SIFT特征量相当于文档中的单词。

2)SIFT特征量数目庞大,无法将所有SIFT特征量作为单词构成词典。首先用K-means聚类算法将所有模型图像提取的SIFT特征矢量聚类[6],本文聚类中心数取为M=200,将这200个聚类中心构成词典,这样既能保持识别的准确度,又能避免计算量过大[7]。

3)每幅目标类图像中的SIFT特征量归入距离最近的聚类中心,距离度量采用欧氏距离,统计词典中每个单词在图像中的出现次数,将每幅目标图像用一个M维数值矢量(直方图特征矢量)表示。

基于SIFT特征的视觉词汇算法流程示意如图2所示:

图2 基于SIFT特征的视觉词汇算法流程示意图

2.2基于SIFT特征视觉词汇算法的目标识别算法

通过视觉词汇算法获得目标图像的200维直方图特征矢量后,利用目标识别算法将这些特征组织起来用于目标图像的识别和分类。文中建立了目标全方位姿态模型库,利用改进的加权k-近邻算法实现目标识别分类。k-近邻算法将待测试样本分类为与它最相近的k个近邻中数目最多的那一类别,距离待测试样本点近的训练样本比远的样本对分类的影响大,文中据此对算法改进,利用距离的倒数作为每个近邻点的加权值,离待测样本越近的训练样本加权值越大。每个样本点都是表征目标的200维直方图特征矢量,基于SIFT特征视觉词汇算法的目标识别算法流程如图3所示。

3 目标识别实验及结果分析

基于SIFT特征视觉词汇算法的目标识别算法的优点是能够识别被局部遮挡的目标,为了验证此性能,文中建立了交通工具的全方位姿态模型库;为每幅模型图像加上一定大小的矩形遮挡,又建立了被局部遮挡的交通工具全方位姿态模型库。基于这两个模型库,文中分别进行无遮挡和被局部遮挡的目标识别实验,比较遮挡前后的目标识别率,验证算法具有优良的识别被局部遮挡目标的性能。

图3 基于SIFT特征视觉词汇算法的目标识别算法流程图

3.1无遮挡的目标识别实验

在全方位姿态模型库中选择了7种交通工具进行目标识别实验,分别是自行车、直升机、运输车、坦克、火车头、飞机、船。每种交通工具在180度视角中以5度为间隔构造全方位姿态模型,因此每种交通工具包含36幅相应的姿态图,将每种交通工具的姿态图随机抽取20幅作为训练样本,剩余16幅作为待测试样本用于测试正确识别率。所选择交通工具如图4所示,文中只列出飞机的部分全方位姿态模型图如图5所示。

图4 7种交通工具图

图5 飞机部分姿态模型图

总共有140幅图像作为训练样本,实验步骤如下:

1)先对这140幅图像提取SIFT特征点特征矢量,共提取出41 362个SIFT特征矢量,然后对这些特征矢量使用K-means聚类[8]算法生成200个SIFT特征矢量的聚类中心,每个聚类中心也是128维的矢量,这些聚类中心组成了200维视觉词典。

2)计算每种交通工具中的每个训练样本上的SIFT特征矢量在视觉词典中的分布,从而为每个训练样本计算出表征它的200维直方图特征矢量。所有140个训练样本的直方图特征矢量组成-近邻算法中的训练样本点集合。

3)计算每种交通工具中的每个待测试样本上的SIFT特征矢量在视觉词典中的分布,从而为每个待测试样本计算出表征它的200维直方图特征矢量。

4)根据16幅待测试样本的200维直方图特征矢量,分别在训练样本点集合中求出5个距离最近的近邻点,由于训练样本点都是类别已知的,根据改进的基于距离加权的-近邻算法确定每个待测试样本的类别。根据每个待测试样本求出的类别结果是否与实际类别一致进行判别,如果一致则判定为一次正确的识别,如果不一致则判定为一次误识别,统计每种交通工具16幅待测试图像的正确识别与错误识别次数得到目标的识别率。

由于生成的视觉词典为维,即200个128维的矢量,由于数据量庞大不便一一列举。根据视觉词典生成的表征目标的直方图特征矢量为200维的矢量,在此列出两个训练样本的直方图特征矢量,分别是飞机侧面60度和自行车侧面20度,以及作为待测试样本的飞机侧面20度,如下所示:

飞机侧面60度:(1,0,4,2,1,11,1,5,0,2,0,0,0,5,0,8,5,1,1,0,6,2,0,1,1,0,0,1,1,0,4,0,0,1,0,12,0,0,1,0,2,6,0,1,1,1,0,0,0,0,5,3,3,0,5,15,0,1,4,0,0,0,0,8,0,3,0,1,0,0,20,0,1,0,1,0,0,3,0,0,1,0,0,0,0,12,0,1,1,0,0,1,1,0,0,0,0,0,0,2,0,0,0,0,5,6,14,0,0,1,4,1,1,1,0,2,0,1,11,1,0,1,3,0,1,0,0,8,0,0,12,0,4,1,3,7,0,0,0,1,9,3,0,1,1,8,1,3,1,0,4,0,6,4,0,6,1,0,0,0,0,1,0,1,0,0,1,0,1,4,1,1,1,0,3,0,1,3,0,0,0,0,8,0,0,0,0,0,0,11,1,0,3,0,1,0,0,0,1,1)

自行车侧面20度:(0,0,14,7,6,2,1,1,0,0,2,0,1,0,0,

0,2,0,0,2,3,11,6,0,1,1,1,3,5,0,0,0,0,7,0,10,2,0,0,0,0,1,0,0,32,0,0,2,0,0,0,0,2,1,0,1,0,0,5,0,0,0,0,1 5,1,5,0,0,8,0,3,0,7,0,1,23,0,1,0,1,0,2,0,0,0,5,16,0,0,0,2,1,1,0,0,0,1,0,0,1,16,0,0,13,0,0,0,2,0,1,0,0,0,0,0,2,0,0,0,0,0,2,0,9,0,0,1,7,1,0,0,0,0,1,8,2,0,0,1 5,0,1,0,0,0,2,3,0,1,0,11,0,0,0,6,0,0,3,0,1,0,0,1,10,1,0,0,0,0,0,0,0,6,0,0,0,2,0,0,0,0,0,0,0,5,0,0,0,0,0,1,4,4,0,0,1,0,0,0,0,2)

飞机侧面 20度:(1,1,2,0,1,11,3,6,0,0,1,1,0,2,0,10,7,2,1,0,8,0,1,0,1,1,0,1,0,0,0,0,0,0,0,9,0,0,0,0,2,1,0,2,0,0,0,1,0,0,1,0,2,0,0,12,1,1,0,0,1,0,0,14,0,1,0,0,0,0,16,0,0,1,1,0,0,1,0,0,1,0,0,0,0,9,0,0,1,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,1,11,9,0,0,0,1,0,4,0,0,2,0,0,9,1,0,2,1,0,0,0,0,6,1,0,7,0,8,1,0,8,0,0,0,0,8,1,0,4,1,14,0,1,0,0,5,0,6,1,0,5,3,0,1,0,0,0,0,1,2,0,3,0,0,8,0,0,0,0,0,2,0,1,0,0,0,0,2,5,0,1,0,0,0,0,10,0,0,1,2,0,0,0,2,1)

计算可得飞机侧面60度与飞机侧面20度的直方图特征矢量间的欧氏距离为25.2,自行车侧面20度与飞机侧面20度的直方图特征矢量间的欧氏距离为70.6,自行车的直方图特征矢量与飞机的直方图特征矢量之间的距离明显大于飞机不同姿态之间的距离。因此直方图特征矢量可用于不同目标的识别分类,为了便于说明问题,上述这些直方图特征矢量是未归一化的向量,实现程序中是经过归一化处理的。进行3次随机抽取的实验,目标的识别率统计如表1所示:

表1 无遮挡的目标识别随机实验识别率统计表

实验结果表明交通工具的识别率都在83.3%及以上,识别结果较为可靠。对比七种交通工具的平均识别率,彼此之间存在一定的差别,例如自行车的识别率是95.8%,运输车的识别率是83.3%。主要原因是:运输车的特征与其它交通工具的特征差别相对较小,彼此间存在一定的干扰使识别受到影响;自行车的特征与其它交通工具的特征差别相对较大,识别不易受其它交通工具的影响。

3.2被局部遮挡的目标识别实验

SIFT特征能够定量化数据描述图像的局部结构特征,在目标被局部遮挡情况下具有好的适用性,使得基于SIFT特征视觉词汇算法的目标识别算法具有优良的识别被局部遮挡目标的性能。按照“无遮挡的目标识别实验”步骤进行同样的随机实验,此处不再赘述,与实验3.1不同的是在随机抽取的140幅训练样本图像中总共提取的SIFT特征矢量数目是30 354个,少于无遮挡时提取的数量,这是由于部分特征点被遮挡而导致的特征点提取数量减少。被局部遮挡的全方位姿态模型库的七种交通工具如图6所示,本文同样只列出被局部遮挡的飞机部分全方位姿态模型图如图7所示。

图6 被局部遮挡的七种交通工具图

图7 被局部遮挡的飞机部分姿态模型图

进行3次随机抽取的实验,被局部遮挡的目标的识别率统计如表2所示:

实验中对目标所用的局部遮挡是人工随机添加的较小面积的遮挡,因此算法对目标的平均识别率会受到一定的随机因素影响有小的波动,但总体上识别率还是比较稳定的。与表1中无遮挡下的识别率相比,被局部遮挡下的识别率有小范围的下降,但是总的识别率还是维持在80%左右,依然具有较高的识别率。实验结果表明,基于SIFT特征视觉词汇算法的目标识别算法具有优良的识别被局部遮挡目标的性能。交通工具无遮挡和被局部遮挡下的平均识别率对比如图8所示。

表2 被局部遮挡的目标识别随机实验识别率统计表

图8 无遮挡和被局部遮挡目标识别实验的平均识别率对比图

4 结束语

本文将图像的SIFT特征矢量作为视觉单词,应用视觉词汇算法,基于交通工具的全方位姿态模型库和被局部遮挡的交通工具全方位姿态模型库对无遮挡和被局部遮挡的目标进行识别。实验结果表明,基于SIFT特征视觉词汇算法的目标识别算法对无遮挡目标的平均识别率能到达80%以上,具有良好的识别性能;对被局部遮挡目标的平均识别率也能保持在80%左右,只有很小的降低,算法具有优良的识别被局部遮挡目标的性能。基于SIFT特征视觉词汇算法的目标识别算法具有较高的识别率,但本文所建立的模型库背景较简单,目标种类较少,局部遮挡也是人工添加的,因此算法还有待在更复杂的模型库中进一步完善和进行更加全面的性能验证实验,局部遮挡也有待采用自然遮挡以更贴近实际情况。

[1]Lowe,David G.Object recognition fromlocal scale-invariant features[C]//Proceedings of the International Conference on Computer Vision,1999:1150-1157.

[2]Lowe D G.Distinctive image features from Scale-Invariant Keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[3]Lindeberg T.Scale-space theory:A basic tool for analyzing structures at different scales[J].Journal of Applied Statistics. 1994.21:224-270.

[4]Cao L,L Fei-Fei.Spatially coherent latent topic model for concurrent segmentation and classification of objects and scenes[J].Computer Vision,2007,27(10):127-134.

[5]ZHANG Yin,JIN Rong,ZHOU Zhi-Hua.Understanding bag-of-wordsmodel:a statistical framework[J].International Journal of Machine Learning and Cybernetics,2010,1(4): 43-52.

[6]Bolovinou A,Pratikakis I,Perantonis S.Bag of spatiovisual words for context inference in scene classification[J]. Pattern Recognition,2013,46:1039-1053.

[7]Sujatha K S,Keerthana P,Suga Priya S,et al.Fuzzy based multiple dictionary bag of words for image classification[J]. Procedia Engineering,2012,38:2196-2206.

[8]CAOJie, WUZhiang, WUJunjie, et al.Towards information-theoretic K-means clustering for image indexing[J].Signal Processing,2013,93:2026-2037.

Object recognition w ith partial occlusion based on SIFT feature visual vocabulary algorithm

YAN Jun-hua1,2,JIANG Hui-hua1,SUN Si-jia1,AIShu-fang2,LIDa-lei2
(1.College of Astronautics,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China;2.Science and Technology on Electro-optic Control Laboratory,Luoyang 471009,China)

To solve the problem ofobject recognitionwith partialocclusion,we use SIFT(Scale Invariant Feature Transform)feature vectors of the object image as the visualwords,apply visual vocabulary algorithm,and propose an object recognition algorithm based on SIFT feature visualvocabulary algorithm.Experimentshave been done based on a full-range gesturemodel library of transports for object recognition without occlusion and a full-range gesturemodel library of transportswith partial occlusion for object recognition with partial occlusion.Experimental results show that the average recognition rate of object without occlusion can reach 83%ormore,with good recognition performance;for objectwith partial occlusion,the average recognition rate can bemaintained at about 80%,with only a small reduction.Experimental results show the algorithm has excellentperformance forobject recognitionwith partialocclusion.

object recognition;SIFT feature;visual vocabulary;partial occlusion;full-range gesturemodel library

TN919.82

A

1674-6236(2016)19-0159-04

2015-09-15稿件编号:201509099

国家自然科学基金资助(61471194);光电控制技术重点实验室和航空科学基金联合资助(20135152049);中国航天科技集团公司航天科技创新基金资助

闫钧华 (1972—),女,陕西陇县人,博士,副教授。研究方向:多源信息融合、目标检测跟踪与识别。

猜你喜欢
识别率直方图矢量
符合差分隐私的流数据统计直方图发布
一种适用于高轨空间的GNSS矢量跟踪方案设计
矢量三角形法的应用
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
用直方图控制画面影调
提升高速公路MTC二次抓拍车牌识别率方案研究
中考频数分布直方图题型展示
高速公路机电日常维护中车牌识别率分析系统的应用
基于矢量最优估计的稳健测向方法