毛玉仁, 郭 松, 郑阳明, 林 华
(1.浙江大学 航空航天学院 微小卫星研究中心,浙江 杭州 310027; 2.上海航天技术研究院, 上海 200235)
基于似物性判别的视觉目标检测方法*
毛玉仁1, 郭 松2, 郑阳明1, 林 华1
(1.浙江大学航空航天学院微小卫星研究中心,浙江杭州310027;2.上海航天技术研究院,上海200235)
提出了一种基于似物性判定理论的单图像视觉目标检测算法。在组合几何学的引导下遴选候选图像窗口;应用创新提出的基于图像分割的结构化特征结合支持向量机对候选窗口的似物性进行评分;根据评分对候选窗口进行排序遴选。在PASCAL VOC2007数据集上进行了定量验证,结果表明:当候选集容量为1 000时,算法可达到96.1 %的召回率。检测性能优于目标识别领域的4种经典算法。
目标检测; 似物性判定; 基于图像分割的结构化特征
基于单张图像的目标检测是计算机视觉领域最富挑战的研究课题之一。目前,对于一些特定物体的目标检测技术已经很成熟并广泛应用于各种图像设备中,如人脸检测[1]、行人检测[2]等。但是,针对任意物体的目标检测仍是计算机视觉领域的难题。而该检测技术恰恰是当前人工智能设备中急需的技术。本文主要研究针对任意物体的目标检测技术,即准确定位出图像中的前景物体,并指明该物体的存在范围。
基于图像窗口似物性(objectness)判别的目标检测方法是目前目标检测领域的研究热点,被广泛认为是解决任意物体检测问题的有效途径。本文在似物性检测(objectness estimation)的思想的基础上,提出了一种基于似物性判别的目标识别方法。该方法创新性地引入了组合几何学的知识,缩小了初始候选图像窗口集的容量。采用特征工程的方法提出了一种基于图像分割的特征,可以较好地表征图像窗口的似物性。结合支持向量机(support vector machine,SVM),生成了一种对图像候选窗口进行评分的体系。应用评分对初始候选集进行排序,可遴选出最有可能包含目标的候选图像窗口。
算法在PASCAL VOC2007[3]的测试图片上进行测试。取得了较4种经典方法[4~7]更好的检测性能。
似物性定义了一个图像窗口中包含一个目标物体的可能性。基于似物性判定的目标检测方法旨在生成一个涵盖图像中所有前景物体(即目标)的图像窗口候选集。所提出的候选集容量尽可能小,召回率尽可能高。基于似物性的目标检测方法的整体框架如图1所示。
图1 基于似物性判定的目标检测方法的整体框架
目前,初始候选集的生成[8~10]旨在方法的源头减小候选集的容量,缩小目标检测在图像上的搜索范围。评分模块对候选集中的图像窗口的似物性进行打分,似物性越高评分越高,反之越低。评分之后对候选图像窗口按其得分进行逆序排序,遴选将排在前面的图像窗口集合作为目标检测方法提出的最终候选集。
本文在基于似物性的目标检测框架的基础上采用基于滑动窗口的方法在组合几何的指引下进行初始候选集生成,并提出了基于图像分割的结构化特征对评分模块进行改进,取得了较经典方法更好的检测性能。本文方法的检测效果如图2所示,其中矩形框框定的区域为所提出候选集中IoU(intersection of union) 最高的候选窗口。
图2 本文方法在VOC2007数据集测试图片上的检测效果
2.1 初始候选集生成
对一张W×H的图像,遍历图像中所有位置所有尺寸需要WH(W-1)(H-1)/4个图像窗口。可见,通过穷举遍历生成初始候选集在计算上是不可行的。初始候选集必须在更优化的策略下生成,在容量尽可能小的情况下覆盖图像中所有潜在的目标区域。
文献[11]从组合几何学的角度证明了在采用IoU-0.5准则(IoU大于0.5,即认为有效覆盖了目标) 的情况下,一张图像中的所有潜在目标可以被少于5 000个具有36种图像窗口尺寸的图像窗口完全覆盖。本文结合文献[4]和文献[11]提出了一种初始候选集生成策略,如下:1)定义36种图像伸缩尺寸{(W0,H0)},并将原图像进行伸缩变化到以上尺寸生成36种尺寸的图像,其中,W0,H0∈{10,20,40,80,160,320}。2)用8×8的图像窗口在每一种尺寸对应的图像上滑动遍历所有位置,并赋予每个图像窗口以随机评分。3)运用极大值抑制将得分小的窗口去除。如果一种尺寸上的候选窗口数量大于150,则随机选取150个候选窗口作为对应尺寸图像的候选集。4)获得所有8×8候选窗口后,进行相应的反变换,映射到原图像的对应位置和对应尺寸。
通过上述策略产生的初始候选集可以在容量小于3 000时覆盖97 %以上的潜在目标。
2.2 基于图像分割的结构化特征
如何在初始候选集的基础上遴选出似物性高的候选图像窗口是基于似物性的目标检测问题的关键。本文提出了一种基于图像分割的结构化特征(segmentation-based structural feature,SSF),可以提升似物性判定的性能。
通过观察图像分割后的结果,发现含有潜在目标的图像窗口包含的分割图块的结构与不包含的目标的窗口具有很大区别。前者窗口中有着更多的完整的独立图块,独立于窗口外超像素,如图3所示。窗口内的图块的组合方式,本文称为窗口基于图像分割的结构,也可以作为区分窗口是否包含目标的特征。
得益于图像分割领域的研究进展[12~14],图像分割可以实现与边缘检测等底层视觉变换的快速和高效,保证了基于图像分割的方法的运算效率。本文采用文献[12]提出的图像分割方法。参数设定为δ=0.08,k=300。
本文图像分割方法的结构化特征(SSF)共13维,来源于窗口中的图块的3种属性:存在范围,完整性和独立性。
图3 基于图像分割的结构化特征效果展示
将图块的存在范围划归于6个区间中((0.5,1],(0.25,0.5],(0.125,0.25],以此类推),并计算属于每种区间的图块的完整性和独立性。通过上述策略可以得到12维特征。另外,图像窗口的横、纵比可以作为判断似物性的辅助特征。容易发现,一个100×200的图像窗口较一个5×200的图像窗口更有可能包含有目标。故将图像窗口的横、纵比作为SSF第13维特征。
SSF的前6维特征定义了图像窗口中包含的图块的完整性,可以由式(1)计算
(1)
式中Ss,sk,T分别为图像窗口中包含的所有图块的集合,集合中的第k个图块及决定一个图块是否完整的阈值,设置T=0.6;Psk为sk的存在范围。
(2)
式中Wsk,Hsk分别为图块sk的外界矩形的宽度和高度;W,H分别为该图像窗口的宽度和高度。
Isk为表征sk完整性的变量
(3)
六维特征用于表示属于各存在范围区间的图块的独立性的统计信息计算如下
(4)
示例图4中,以图4(a)所示的图像窗口为例解释f1和f7的计算过程,由此可类推f2~f6和f8~f12的计算方法。该图像窗口中的绿色图块和青色图块的外接矩形的面积大于了窗口1/2的面积(即1/2 第13维特征被定义为图像窗口的横纵比,其可由式(5)计算 (5) 上述13维特征具有旋转不变和尺度不变形,可以作为衡量图像窗口似物性的稳定特征。从图3中可看出,SSF具有较强的区分度。 图4 f1和f7计算示例 2.3 生成评分模型进行排序遴选 借鉴文献[4]的评分策略在SSF的基础上对图像窗口的似物性进行评分。 首先,计算初始候选图像窗口的评分 si=〈w,φ(F)〉 (6) 式中w∈R13。Si为过滤得分(filtering score);i为图像窗口所属伸缩尺寸的标记,i∈[1,2,…,36];F为图像窗口的SSF;φ(·)为所选的核函数。 为了得到w,本文引入带高斯核的支持向量机。在训练过程中,正例为在VOC2007的训练集中随机遴选的IoU大于0.6的图像窗口。负例为在VOC2007的训练集中随机遴选的IoU小于0.4的图像窗口。正、负例各2 000个。 在得到si后,对模型进行调优。对每一种尺寸的窗口的得分进行加权加偏 (7) 式中vi,ti∈R分别为每一种窗口伸缩尺寸i的权重和偏置。其可以由36个线性支持向量机训练得到。训练集为VOC 2007的训练集中的样本的初始候选集。应用过滤得分si作为1维特征对线性支持向量机进行训练。样本则根据IoU-0.5准则进行标注。IoU大于0.5的候选窗口标注为正例,小于0.5被标记为负例。 实验在包含20类4 952张图片的PASCAL VOC 2007测试集上进行。 首先,对SSF在似物性检测上的区分度进行了测试,然后测试了基于似物性判定的目标检测算法的检测率(detection rate)随候选窗口数量(#WIN)的变化情况。并在相同测试集上与4种其他方法进行了对比。 3.1 特征区分度测试与对比 为了证明SSF的泛化性和区分度,构建了评测系统用于评价其在判别一个图像窗口中是否含有目标的性能。即用应用SSF作为二分类器的输入特征,对图像窗口是否包含物体进行二分类。 训练集由在VOC2007训练集中的图片上随机选取的图片窗口组成,其中正、负样本各2 000个。测试集由在VOC2007测试集中的样本上随机选取的图片窗口组成,其中,正、负样本各500个。样本的标定按照IoU-0.5准则进行,即IoU大于0.5的图像窗口被标记为正例,小于0.5的被标记为负例。在同样采用线性支持向量机作为分类器的情况下。应用SSF特征可以达到的分类准确率高于经典的BING[4]特征和卷积神经网络中间层特征(VggNet 第19层输出向量)。识别准确率如表1所示。 表1 分类准确率对比 实验结果表明:本文SSF特征对图像窗口的似物性具有表征能力。在维度较低的情况下,性能优于经典的似物性特征描述子。 3.2 检测率测试与对比 应用DR#win测量准则在VOC 2007测试集上验证所提出的基于似物性判定的目标检测方法,并与方法BING[4],OBN[5],CSVM[6],SEL[7]进行了对比。结果如图5所示。定量实验结果表明:所提方法在候选集容量为1 000时可达到96.1 %的召回率。在候选样本容量小于100时性能明显优于其他4种方法,即本文方法可以在小尺寸候选集上取得更高的召回率。图中展示的其他4种经典方法的结果均按照对应文献中提供的参数设定进行仿真。 图5 检测率随候选窗口数量变化情况对比 提出了一种基于图像分割的结构化特征,该特征对图像窗口的似物性具有很强的表征能力。在该特征和组合几何学的基础上,提出了一种基于似物性判定的目标识别方法,其可以在候选集容量较小的情况下,取得较高的召回率。方法适用于人工智能设备的视觉系统,具有广阔的应用前景。 [1] Viola P,Jones M J.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154. [2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Computer Vision and Pattern Recognition(CVPR),San Diego:IEEE,2005:886-893. [3] Everingham M,Winn J.The PASCAL visual object classes challenge 2007,VOC 2007,Development Kit[R].Leeds:University of Leeds,2007. [4] Cheng M M,Zhang Z,Lin W Y,et al.BING:Binarized normed gradients for objectness estimation at 300fps[C]∥Computer Vision and Pattern Recognition(CVPR),Columbus:IEEE,2014:3286-3293. [5] Alexe B,Deselaers T,Ferrari V.Measuring the objectness of image windows[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2189-2202. [6] Zhang Z,Warrell J,Torr P H S.Proposal generation for object detection using cascaded ranking SVMs[C]∥Computer Vision and Pattern Recognition(CVPR),Colorado:IEEE,2011:1497-1504. [7] Uijlings J R R,van de Sande K E A,Gevers T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171. [8] Yan Q,Xu L,Shi J,et al.Hierarchical saliency detection[C]∥Computer Vision and Pattern Recognition(CVPR),Portland:IEEE,2013:1155-1162. [9] Alexe B,Deselaers T,Ferrari V.What is an object[C]∥Computer Vision and Pattern Recognition(CVPR),San Francisco:IEEE,2010:73-80. [10] Zitnick C L,Dollár P.Edge boxes:Locating object proposals from edges[C]∥European Conference on Computer Vision,Zurich:Springer International Publishing,2014:391-405. [11] Zhao Q,Liu Z,Yin B.Cracking bing and beyond[C]∥British Machine Vision Conference(BMVC),BMVA Press,2014. [12] Felzenszwalb P F,Huttenlocher D P.Efficient graph-based image segmentation[J].International Journal of Computer Vision,2004,59(2):167-181. [13] Arbelaez P,Maire M,Fowlkes C,et al.Contour detection and hierarchical image segmentation[J].IEEE Transactions on Pattern Analysis and Machine intelligence,2011,33(5):898-916. [14] Shi J,Malik J.Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(8):888-905. Visualobjectdetectionmethodbasedonobjectnessestimation* MAO Yu-ren1, GUO Song2, ZHENG Yang-ming1, LIN Hua1 (1.Micro-satelliteResearchCenter,SchoolofAeronauticsandAstronautics,ZhejiangUniversity,Hangzhou310027,China;2.ShanghaiAcademyofSpaceflightTechnology,Shanghai200235,China) An object detection method for single images based on objectness estimation theory is proposed.Original proposals are generated based on combinational geometry.The proposals are scored by segmentation-based structural feature and support vector machine.Proposals are sorted according to their score.Quantitative validation on PASCAL VOC 2007 dataset,when the number of the proposals is 1 000,the algorithm can achieve recall rate at 96.1 %.Its detection performnce outperforms four classic algorithms. object detection; objectness estimation; image segmentation-based structural feature 10.13873/J.1000—9787(2017)11—0147—04 TP 391.41 A 1000—9787(2017)11—0147—04 2016—10—31 国家“863”高技术研究发展计划资助项目(GFJG—128205—E31401) 毛玉仁(1991-),男,硕士研究生,主要研究方向为计算机视觉,机器学习。 郑阳明(1978-),男,通讯作者,副教授,主要从事机器人整体,计算机视觉,人工智能应用等方面的研究工作。3 实验设计与结果分析
4 结 论