唐允恒
(重庆大学计算机学院,重庆 400044)
基于加权SIFT特征的目标检测算法
唐允恒
(重庆大学计算机学院,重庆 400044)
复杂图像中对特定目标的检测和定位是机器视觉领域的难点之一。提出使用中层视觉元素描述检测目标,以建立权值模板图像;然后对目标图像和权值模板进行加权SIFT特征匹配得到最优匹配位置,从而实现目标检测。该方法以自行车为检测目标进行实验,检测率达到86%,优于传统SIFT-AdaBoost和HOG-SVM检测方法。实验结果表明该方法能够减少复杂图像中背景干扰的问题,对于不同姿态的目标进行检测也有较强的鲁棒性。
目标检测;中层视觉元素;权值模板;SIFT
近年来目标检测技术在智能监控系统、军事目标检测及医学手术导航中手术器械定位发挥了巨大作用,因此受到广泛关注。Shashua等人[1]通过手动划分目标区域,并对这些区域提取SIFT特征,使用AdaBoost训练SIFT特征分类器来检测目标,取得了良好的检测效果,但是该方法对光照强度和检测目标的形状姿态敏感,目标姿态的变化和成像的环境改变容易导致错误的检测。Dalal等人[2]提出使用方向梯度直方图(Histogram of Oriented Gradient,HOG)特征描述感兴趣的目标,使用支持向量机(Support Vector Machine,SVM)分类器对HOG特征进行分类,最后用分类器对测试图像进行检测,在行人检测领域大大提高了检测的准确性,但是HOG-SVM这种对图像目标和背景不加区分的方法,很容易受到遮挡,尺度变化和目标形状姿态的改变等因素的干扰从而造成定位困难。现在图像趋于复杂多样,存在视角变化、光照变化、复杂背景环境、目标形状变化以及噪声干扰等问题,使得复杂图像中对特定目标的检测成为是一个研究难点。
在图像趋于复杂的现状下,有学者提出通过区分模板图像中的目标信息和背景信息并提高目标信息的权值的方式来减少背景信息的干扰。Shrivastava等人[3]在对风景图像匹配的研究中取得了良好的结果。他们认为图像中独特的局部区域比那些相互之间近似的局部区域能够提供更多的信息。即在风景图像中独特的标志性建筑的区域比那些在图像中纹理极为相似的天空,树林和广场等区域更加重要。这种思想在中层视觉元素的研究中得以延续和发展。
中层视觉元素是由Fan等人[9]在2005年提出的概念,中层视觉元素是指在图像中能够描述某一类目标物体特性的局部图像块,即这些图像块在本类目标物体图像中普遍存在,但在其他类目标物体图像中不存在。这样的图像块在图像中所代表的局部区域就是目标信息。
本文通过提取中层视觉元素的方法区分目标信息和背景信息,并构建相应的权值模板提高目标信息的权值,而降低背景信息的权值。使用SIFT特征结合权值模板进行加权匹配,最终检测出目标物体。实验结果表明本文提出的方法能够有效的降低背景信息带来的干扰,相较于传统SIFT-AdaBoost和HOG-SVM检测方法有更好的检测结果。
算法框架分为训练和检测两个阶段,如图1所示。训练阶段的主要目的是通过训练图像生成权值模板,其中正样本图像是指包含检测类别的图像,而负样本图像是指与检测类别无关的干扰图像。在检测阶段对模板集里的每个模板图像的SIFT特征与检测图像的SIFT特征进行基于权值模板的匹配,每个模板图像在检测图像中都会产生一个匹配框,最后通过匹配框融合的方法形成最终的检测框,得到目标检测的结果。
图1 算法框架图
1.1 训练阶段
(1)中层视觉元素提取
提取中层视觉元素的目的是找出那些在正样本中普遍存在,而对于负样本有很好的区分度的局部特性,这种特性很难由灰度、边缘等低层视觉元素表示,低层视觉元素侧重于图像处理的过程,而难以对图像中局部特性进行分析。
本文采用Bansal等人[5]提出的方法提取中层视觉元素,其具体的提取过程如下:对于每张带正负样本标签的训练图像,使用固定像素的窗口滑动扫描整个训练图像。在扫描过程中,对滑动窗口中的图像块进行HOG特征提取并根据训练图片的标签确定HOG特征的标签。然后对正样本的HOG特征集进行均值偏移(Mean Shift,MS)聚类,得到多个正样本聚类中心。删减样本特征很少的聚类中心,保证剩余聚类中心是本类别的共性特征。计算正样本聚类中心所在区域正样本特征数与负样本特征数比例,比例越大说明这个正样本中心区域代表的正样本特性能够很好地区别于负样本特性。选择正负样本比例高的聚类中心区域,这些区域中的正样本特征对应的图像块就是中层视觉元素。图2展示了部分提取出的自行车的中层视觉元素。
(2)生成权值模板
在获得中层视觉元素图像块后,通过以下步骤对模板图像进行处理获取权值模板:
①选取训练集正样本图像作为模板图像T,其大小为a×b像素
②初始化权值矩阵W,权值矩阵大小和模板图像大小相同,权值矩阵的初值Wij=0(1≤i≤a,1≤j≤b)。
③为了体现特征块的多样性,全方位考虑模板图像不同位置的特征,实验随机选择了50个中层视觉元素图像块,并对每个中层视觉元素图像块使用四个尺度进行采样作为特征块集。
④对所有特征块依次在模板图像上进行相似性匹配。每个特征块滑动扫描整个模板图像,把当前滑动窗口中的模板图像块作为模板块。计算特征块与模板块之间的相似度。相似度计算公式为:
图2 自行车的中层视觉元素
其中k(x,y)代表特征块在(x,y)点的像素值,kmean代表特征块所有像素点灰度的平均值,p(x,y)代表模板块(x,y)点的像素值,kmean代表模板块所有像素点灰度的平均值。将每个特征块扫描整个模板图像,记录下最佳匹配位置、范围和相似度。所有特征块扫描完毕后,对记录中所有最佳匹配位置提高对应区域的权值。对于记录中最佳匹配位置相同的情况,比较这些相同位置记录中的相似度,选择最高相似度的记录并提高这该区域的权值:
将所有选取的中层视觉元素图像块进行以上操作,得到一个模板图像大小的权值图像W,对W进行归一化:
其中Max(W)代表权值矩阵W中权值的最大值。从训练集正样本选取多张图片作为模板,重复上述操作,最终生成权值模板集,图3展示了部分模板图像和对应的权值模板。
图3 模板图像和权值模板
1.2 检测阶段
(1)加权SIFT特征匹配算法
对模板图像和检测图像进行SIFT特征检测[8],模板图像上一个SIFT特征点a(xa,ya)的与检测图像上SIFT特征点b(xb,yb)的为例,其SIFT特征向量分别为和。基于权值模板,使用带权重的余弦公式计算特征点对的加权相似度Simweighted:
其中Weigh(xa,ya)代表模板图像所对应的权值矩阵在(xa,ya)的值。
图4展示了使用带权的SIFT特征和原始的SIFT特征的匹配结果对比,蓝点表示检测到的SIFT特征点,红线表示两对最优匹配点对的连线。
图4 加权SIFT特征匹配与SIFT特征匹配比较
(2)匹配框融合
权值模板集中的每个权值模板对检测图像进行加权SIFT特征匹配都会通过以下方法产生一个匹配框和匹配度:选择加权相似度Simweighted最高的两组点对(S1,S2)、(K1,K2),其中S1、K1是权值模板上的点,S2、K2是检测图像上的点。通过建立S1、K1在权值模板的相对位置到S2、K2在检测图像中相对位置的一一对应关系,可以将权值模板映射到检测图像中,这个映射区域就是匹配框,匹配框的匹配度就这两组点对的加权相似度之和。
然后使用以下操作将这些匹配框进行融合为检测框,首先选择匹配度排名前5的匹配框,保留匹配度最高的匹配框,计算这个匹配度最高的匹配框和其余匹配框二者的交集面积,若交集面积占二者较小框面积一半以上则保留该匹配框,否则删掉该匹配框,计算保留下来的匹配框的最大边界值作为最终检测窗口的边界。图5展示几种不同场景下姿态各异的自行车检测的实验结果。
2.1 数据集
训练集选取VOC2007数据集60张自行车图像作为正样本和60张其他干扰图像作为负样本,如图5所示。
图5 检测结果
图5 本文实验所用训练数据集示例
2.2 实验分析
本文在Linux操作系统中的MATLAB R2010b环境下进行实验。为验证本文所提算法的有效性,将本文算法与SIFT-AdaBoost[1]和HOG-SVM[7]目标检测算法进行对比实验,IoU(Intersection-Over-Union)参数[10]作为评价指标,
其中检测窗口就是检测结果中框选出的目标窗口,标记窗口是人工标记的目标真实位置。若IoU>0.5则认为是成功检测。检测成功图像数量占总检测图像数量的比例即为检测率。图6展示了三种算法对不同场景中自行车的检验结果,其中黄色框为标记窗口,红色框为各个算法的检测窗口,没有红色窗口的检测结果表示未检测出目标。
图6 对比实验结果
100张自行车为目标的公共场景作为检测图像对比实验,以检测率和检测成功检测的平均IoU为检测指标,结果如表1所示。SIFT-AdaBoost方法容易受到检测目标姿态影响,导致检测率较低。HOG-SVM方法在训练分类器时,训练图像中包含大量的背景信息而产生较多误检测导致平均IoU较低,而本文方法能够较好的减少背景信息带来的影响,对不同姿态的目标鲁棒性较强。从实验结果可以看出,本文方法具有较好的检测性能。
表1 自行车检测结果对比
本文根据传统目标检测算法对解决复杂图像中发生形变、存在遮挡及目标受干扰下定位存在困难的情况,提出使用中层视觉元素训练权值模板,这种权值模板区分了模板图像中的目标信息和背景信息,在目标检测过程中有效地减少了背景信息带来的干扰。实验结果表明,本文方法能够检测并定位不同复杂场景中的目标,对于不同姿态的目标进行检测也有较强的鲁棒性。
参考文献:
[1]Shashua A,Gdalyahu Y,Hayun G.Pedestrian Detection for Driving Assistance Systems:Single-Frame Classification and System Level Performance[C].Intelligent Vehicles Symposium.IEEE Xplore,2004:1-6.
[2]Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C].IEEE Computer Society Conference on Computer Vision &Pattern Recognition.IEEE Computer Society,2005:886-893.
[3]Shrivastava A,Malisiewicz T,Gupta A,et al.Data-Driven Visual Similarity for Cross-Domain Image Matching[J].Acm Transactions on Graphics,2011,30(6):1-10.
[4]Bailly A,Malinowski S,Tavenard R,et al.Advanced Bag-of-Temporal-SIFT-Words for Time Series Classification[J],2016.
[5]Bansal A,Shrivastava A,Doersch C,et al.Mid-Level Elements for Object Detection[J].Southeast Asian Journal of Tropical Medicine& Public Health,2015,10(1).
[6]Doersch C,Gupta A,Efros A.Mid-Level Visual Element Discovery as Discriminative Mode Seeking[J].Advances in Neural Information Processing Systems,2013,1:1.
[7]宋瑨,王世峰.基于可变形部件模型HOG特征的人形目标检测[J].应用光学,2016,37(3):380-384.
[8]Lowe D.Distinctive Image Features from Scale-Invariant Key Points[J].International Journal of Computer Vision,2004,60(2):91-110.
[9]Fan J,Gao Y,Luo H,et al.G.:Statistical Modeling and Conceptualization of Natural Images[J].Pattern Recognition,2005,38(6):865-885.
[10]Hosang J,Benenson R,Dollár P,et al.What Makes for Effective Detection Proposals[J].IEEE Transactions on Pattern Analysis& Machine Intelligence,2016,38(4):814-830.
Object Detection Algorithm Based on Weighted SIFT Features
TANG Yun-heng
(College of Computer Science,Chongqing University,Chongqing 400044)
Detection and localization of specific targets in complex images is one of the difficulties in machine vision.Uses the middle-level visual elements to describe the detection target to establish a weight template image;in order to achieve target detection,matches the weighted SIFT features of weight templates and the target images to get the optimal match position.Takes bicycles as the detection targets which have the detection rate of 83%,and our approach is better than SIFT-AdaBoost and HOG-SVM detection method.The result shows that this approach can reduce the background information interference in complex images,and has strong robustness to the targets with different poses.
Object Detection;SIFT;Mid-Level Visual Elements;Weight Template
1007-1423(2017)11-0074-05
10.3969/j.issn.1007-1423.2017.11.015
唐允恒(1992-),男,重庆人,硕士研究生,研究方向为图像处理目标检测
2017-03-21
2017-04-12