一种基于深度学习的新型小目标检测方法

2017-11-01 17:14
计算机应用与软件 2017年10期
关键词:特征提取尺度像素

陈 江 昀

(浙江工业大学国际学院 浙江 杭州 310023)

一种基于深度学习的新型小目标检测方法

陈 江 昀

(浙江工业大学国际学院 浙江 杭州 310023)

快速、精准的目标检测方法是计算机视觉领域的研究热点之一,目前通用的目标检测模型主要包括两个部分,候选区域提取和分类器设计。基于卷积神经网络CNN和超像素算法提出了一种新型面向微小目标的检测方法。首先对目标图像进行超像素过分割,然后提取过分割区域的特征并以此进行区域合并,最后提取候选区域。与传统建议区域提取方法相比,本方法能够在保证召回率的前提下大量减少候选区域的数量。为了克服小目标特征提取的困难,本算法利用多尺度和多层次CNN提取候选区域的中高层语义信息进行目标分类。通过对车辆年检标示数据的实验表明提出的基于超像素过分割候选区域提取算法具有较高的召回率,在同等候选区域数量的情况下与EdgeBox、Bing、Selective search等方法相比分别提高2%、2.4% 和3.5%,同时基于多层次多尺度的目标分类算法能有效降低误检率,提高检测率。

目标检测 CNN 超像素 目标建议法

0 引 言

微型目标检测是计算机视觉研究领域的一大挑战[1-3]。当前基于特征提取的目标检测算法很难从小目标中提取到有用的且适合分类的特征,造成这种现象的原因有两个,其一是由于小目标的尺度过小(30×30 pixel),基于手工特征提取的算法(Hand-crafted),例如SIFT[4](Scale-invariant Feature Transform)、HOG[5](Histogram of Oriented Gradient)和Haar-like[6-7]等,大多利用目标周围的邻域信息表达目标;其二是小目标本身的特征不够明显,容易受图像噪声的干扰而最终导致无检测和漏检测。当目标尺度变小时,其内部特征的连续性会变弱,而且提取到的特征的维度很低,极容易导致分类器出现过拟合现象。近年来,卷积神经网络[8-11]在特征提取方面的出色表现,几乎被利用于目标检测和识别的各个领域。卷积神经网络在尺度较小的目标特征提取方面也同样表现出惊人的准确率,例如,应用与数字识别领域的LeNet[12]达到了当前最好的结果,表明卷积神经网络在提取小尺度目标领域具有较强潜力。

影响提高目标检测算法精度和效率的另外一个重要模块是候选区域提取方法,相比于传统的滑动窗方法(Window-sliding),高效的候选区域提取方法能够在不损失检测算法检测率的情况下大大提高检测效率。当前有许多优秀的候选区域提取算法,其中Selective-search[13]、Bing[14]、Edgebox[15]在区域提取方面达到了当前最为先进的精度和效率,但是它们在提取小目标方面的表现并不理想,主要原因是该类算法大多利用边缘信息作为候选区域提取的主要特征,而小目标一般没有明显的边缘结构信息。为了提高小目标检测算法的精度和执行效率,本文提出了一种结合超像素候选区域建议方法和多层次多尺度卷积神经网络特征提取的目标检测框架。

基于超像素的候选区域提取方法是通过利用超像素的过分割信息提取目标候选区域。首先将检测图像通过SLIC[16](Simple Linear Iterative Clustering)方法进行过分割,然后提取过分割区域的颜色信息和内部结构信息,将具有特征一致性的过分割块融合为一体,作为目标候选目标区域,这种建议策略一方面会把具有特征一致性的背景信息聚类为一个区域,同时作为前景区域的目标则会被提取出来。另外,该方法可以通过尺度约束的方法滤除噪声的影响,进而提取出数量较少质量极高的目标候选区域,降低了后续特征提取的计算量,提高算法的目标检测效率。

为了有效表达小目标的本质特征,本文利用基于多尺度的卷积神经网络特征作为目标的特征观测。首先通过图像金字塔的方式将目标区域进行上采样和降采样,然后将金字塔的每一层输入到卷积神经网络以提取特征。通过该方法提取到的特征既可对目标的尺度变化具有鲁棒性,又可以利用卷积神经网络的中间层特征丰富目标的特征表达。最后将提取的多层次多尺度卷积特征串联输入支持向量机[17](SVM)进行分类模型训练,得到目标的观测模型。检测到的目标通过非极大值抑制的方法进行筛选确定。

1 检测框架

高质量的候选区域提取方法是目标检测效率和准确的保证,为此本文提出一种面向下目标检测的候选区域提取算法,该算法相比传统的方法具有以下优点:1) 能够有效提取尺度较小的目标区域,并且能够滤除噪声的影响。2) 候选区域提取的准确度和精确度较高,提取的候选区域与目标的标注区域IoU约是传统方法的1.5倍。3) 算法的执行效率高,算法主要是基于超像素过分割的低层特征提取候选区域,计算复杂度较低。本算法的测试数据主要是基于车辆年检标志的检测方面。算法流程如图1所示。

图1 算法流程图

1.1 超像素分割

超像素是由一系列位置相邻,颜色、亮度、纹理信息具有一致性的像素集合构成的图像区域,近年来提出了很多基于超像素分割的算法,如图割[12]和最大流最小割方法[18]等。该类方法都是通过超像素对图像进行预分割,然后将通过超像素块之间的特征关联融合。本文选用算法执行效率较高的SLIC算法进行目标图像过分割,选用该超像素算法的一个主要原因是超像素对区域边缘具有极高的敏感性,能够从像素层面捕捉小目标与背景之间的分界线。

1.2 超像素合并

超像素合并[19]的目的是为了减少超像素的数量,将可能是目标的区域提取出来,将背景信息融合并滤除,降低背景和噪声在目标检测和分类过程中的干扰。在超像素合并过程中我们综合利用了每个超像素的颜色分布属性、纹理特征和边缘信息等三种信息作为特征。

1.2.1 颜色直方图的距离

超像素之间的颜色直方图的分布差异是检测和计算超像素之间差异的最为简单高效的方式之一,本文首先将RGB空间的超像素分布转化到Lab空间,然后将每个颜色通道划分为30个区间,分别计算L、a、b通道的颜色直方图分布,得到一个90维的特征ci:

(1)

(2)

该距离值评估超像素之间的颜色分布差异的指标,dc越大表示超像素之间的相似度越高,距离越近。

1.2.2 纹理特征提取

纹理特征是评估两个超像素块之间内部结构分布的有效评价指标,反映的是目标内部结构分布的一致性程度,当前提取目标纹理信息的算法有很多,例如LBP(Local Binary Pattern)类[20]、GLCM(Gray-level Co-occurrence Matrix)类[21]、以及SIFT和HOG等。本文采用了在特征的表达能力较好和计算复杂度较低的LBP作为超像素之间的纹理特征表达。该算法不仅对光照变化具有较强的鲁棒性,而且具有旋转不变形和尺度不变性等优点。

(3)

1.2.3 边缘距离

边缘距离是衡量两个超像素之间共有边缘区域的差异,反映的是目标边缘结构的相似度,假设两个超像素区域spi和spj共享边缘区域nb(i,j),然后得到边缘区域的像素灰度值差pbk(i,j),边缘距离定义为:

(4)

由于边缘检测的计算复杂度较高,尽管边缘提取是在超像素区域块上进行,但是由于边缘像素数量较高导致计算量较大,为了简化计算我们利用ne(i,j)表示两个超像素块共有的边缘像素数量,边缘距离定义为:

dB(i,j)=ne(i,j)/nb(i,j)

(5)

dB(i,j)归一化为[0, 1],其值越大表示超像素块之间的相似度越高。

1.2.4 候选区域提取

得到三个关于超像素距离之后,我们将综合通过它们之间的加权线性组合作为两个超像素之间的最终距离D(i,j),并以此为标准进行候选区域生成。算法流程如图2所示。

图2 候选区域提取算法流程图

(6)

式(6)中的θC、θT、θE分别表示颜色特征阈值,纹理特征阈值和边缘特征阈值。ωC、ωT、ωE表示颜色、纹理和边缘信息决定特征超像素块的权重因子。然后通过迭代的方式融合超像素块,迭代过程中生成的区域较大的块表示背景信息,在小目标检测过程中滤除,而区域过小的块则被认为是噪声同样予以滤除。由式(7)得到的候选区域中心为(px,py)。

(7)

为了保证得到的候选区域的尺度大小和真实的车辆年检标识具有相同的尺度,我们通过在5 000个标注了年检标识的图像中拟合两个关于图像长和宽与年检标识长和宽关系的三次函数(如图3所示),用于逼近和预测任意尺度图像中年检标识目标的尺度。同时在处理年检标识的形变方面,我们将提取的超像素候选区域进行3∶4、1∶1和4∶3的尺度重构,分类过程中将置信度最高的目标作为最终结果。

图3 图像长和宽与年检标识长和宽关系

1.3 多尺度卷积神经网络特征提取

本节的主要任务是提取出超像素候选区域的卷积神经网络特征,并以此进行分类器训练。利用传统的手工特征提取小目标的特征(颜色特征,纹理特征,边缘特征)是一项很难实现的工作,主要是因为小尺度目标本身缺乏自身特征,而且这些传统的特征大多是基于统计的方法得到的,而像素数量较少的小目标在统计过程中缺乏信息支持,造成统计特征的不稳定。

卷积神经网络是一种非线性特征自动提取方法,提取到的特征既包括低层次语义信息,也包括高层语义信息。来自不同层的卷积特征是对目标不同方面的特征表达,例如来自低层的卷积特征能够表达目标类内特征,而来自高层的特征则能够提取目标类间通用特征表达[22],相比于低层特征对目标本身的变化不大明显。同时为了处理小目标本身尺度的变化,本文将候选区域通过池化和插值的方式构成图像金字塔,卷积神经网络提取到的每一层金字塔的信息通过串联的方式组合为高维特征,该特征基于处理目标尺度变化鲁棒性特点。

提取候选区域卷积神经网络特征的流程:首先通过超像素方法提取候选区域,将得到的候选区域重构成空间金字塔的形式,然后提取卷积神将网络的conv_3和conv_5层卷积特征作为目标特征观测。接着将不同层和不同尺度的特征串联成一个高维特征,该特征不仅能够处理目标尺度的不确定性,而且能够从不同的特征水平表达目标的本质。用于提取目标特征的卷积神经网络结构如表1所示,训练的卷积核视觉图如图4所示。然后将卷积神经网络特征输入支持向量机分类器,求解支持向量用于目标分类。

表1 卷积神经网络结构

图4 卷积核视觉图

2 实 验

目前没有针对小目标检测的公开数据集可用,因此本文制作了用于评测算法性能的数据集。该数据集图像由48个路口伺服摄像机采集的视频构成,通过随机方式抽取20 000张图像进行人工标注,标注的内容主要是路过公路卡口的机动车辆的年检标示和机动车辆的车窗玻璃位置。该20 000张图像中15 000张图像提取到的52 000车辆年检标识作为训练集,余下的5 000张图像作为检测算法性能的测试集。

首先,为了评估本文候选区域提取方法的有效性,我们用Edge-box, Selective Search和Bing以及滑动窗的方式分别提取候选区域,然后计算不同方法的时间消耗和目标召回率,如图5所示。为了测试我们特征提取算法的有效性,本文将HOG+SVM、LBP+SVM、HOG+LBP+SVM 以及 CNN+SVM作为对比试验,检验本文提出的多尺度多层次卷积神经网络特征的有效性。

图5 目标召回率比较

2.1 区域建设法评估

本实验对比Edge-box (EB)、Selective Search (SS)、Bing (B) and Sliding-window (SW) and the Super-pixel Based (SP)五种方法的在相同候选区域数量的情况下的目标召回率。横坐标表示目标候选区域与标注区域不同的IoU指标,纵坐标表示在不同IoU情况下的目标召回率。结果表明本文方法SP的有效性。

本实验结果表明,基于小目标的候选区域提取算法相比于其他区域建议方法具有更好的目标召回率,同时该算法提取的目标候选区域的时间消耗明显低于其他方法,如表2所示,候选区域提取对比结果如图6所示。

表2 算法耗时比较 s

图6 候选区域提取对比结果图

2.2 分类评估

为了比较不同的特征提取方法对小目标检测的效果,本文设计了实验,通过提取目标候选区域的LBP、HOG和卷积神经网络特征(CNN),然后统一将这些特征输入到SVM分类器中训练,通过计算LBP+SVM、HOG+SVM、LBP+HOG+SVM和CNN+SVM不同组合的目标检测准确率和误检率衡量不同特征的性能,实验结果,如图7所示。该结果表明基于CNN特征的目标检测算法流程在目标检测精确率和误检率方面具有显著的优势。

3 结 语

为了比较不同的特征,本文针对小目标检测提出了一种超像素候选区域提取策略。该方法首先将目标图像进行超像素过分割,然后利用超像素块之间的颜色信息、纹理信息和边缘信息的一致性融合超像素区域,得到高质量的目标候选区域,相比于传统的目标建议区域提取算法在召回率和时间消耗方面具有显著优势。同时本文提出的基于卷积神经网络的多层次多尺度特征提取方法能够有效地表达小目标的本质特征,相比于传统的手工特征提取方法大幅度提升了检测算法的性能。本文提出的算法为小目标检测一种行之有效的解决方案。

[1] Nordström K,O′Carroll D C.Small object detection neurons in female hoverflies[J].Proceedings of the Royal Society of London B:Biological Sciences,2006,273(1591):1211-1216.

[2] Erhan D,Szegedy C,Toshev A,et al.Scalable object detection using deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:2147-2154.

[3] 叶斌,彭嘉雄.基于形态学Top—Hat算子的小目标检测方法[J].中国图象图形学报,2002,7(7):638-642.

[4] Lowe D G.Object recognition from local scale-invariant features[C]//Computer vision,1999.The proceedings of the seventh IEEE international conference on.IEEE,1999,2:1150-1157.

[5] Dalal N,Triggs B,Schmid C.Human detection using oriented histograms of flow and appearance[C]//European conference on computer vision.Springer Berlin Heidelberg,2006:428-441.

[6] Mita T,Kaneko T,Hori O.Joint haar-like features for face detection[C]//Computer Vision,2005.ICCV 2005.Tenth IEEE International Conference on.IEEE,2005,2:1619-1626.

[7] Cho J,Mirzaei S,Oberg J,et al.Fpga-based face detection system using haar classifiers[C]//Proceedings of the ACM/SIGDA international symposium on Field programmable gate arrays.ACM,2009:103-112.

[8] Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox detector[C]//European Conference on Computer Vision.Springer International Publishing,2016:21-37.

[9] Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems,2015:91-99.

[10] Ren S,He K,Girshick R,et al.Object Detection Networks on Convolutional Feature Maps[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015(99):1-1.

[11] Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.

[12] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[13] Uijlings J R R,Van De Sande K E A,Gevers T,et al.Selective search for object recognition[J].International journal of computer vision,2013,104(2):154-171.

[14] Cheng M M,Zhang Z,Lin W Y,et al.BING:Binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2014:3286-3293.

[15] Zitnick C L,Dollár P.Edge boxes:Locating object proposals from edges[C]//European Conference on Computer Vision.Springer International Publishing,2014:391-405.

[16] Achanta R,Shaji A,Smith K,et al.SLIC superpixels compared to state-of-the-art superpixel methods[J].IEEE transactions on pattern analysis and machine intelligence,2012,34(11):2274-2282.

[17] Cortes C,Vapnik V.Support-vector networks[J].Machine learning,1995,20(3):273-297.

[18] Shi J,Malik J.Normalized cuts and image segmentation[J].IEEE Transactions on pattern analysis and machine intelligence,2000,22(8):888-905.

[19] Nordström K,O′Carroll D C.Small object detection neurons in female hoverflies[J].Proceedings of the Royal Society of London B:Biological Sciences,2006,273(1591):1211-1216.

[20] Chen J,Kellokumpu V,Zhao G,et al.RLBP:Robust Local Binary Pattern[C]//British Machine Vision Conference,2013:122.

[21] Mokji M M,Bakar S A R A.Gray level co-occurrence matrix computation based on haar wavelet[C]//Computer Graphics,Imaging and Visualisation,2007.CGIV’07.IEEE,2007:273-279.

[22] Wang L,Ouyang W,Wang X,et al.Visual tracking with fully convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision,2015:3119-3127.

ANEWMETHODOFSMALLTARGETDETECTIONBASEDONDEEP-LEARNING

Chen Jiangyun

(InternationalCollege,ZhejiangUniversityofTechnology,Hangzhou310023,Zhejiang,China)

Accurate and fast object detection is one of the research topics in computer vision. At present, the general target detection model mainly consists of two parts, the extraction of candidate regions and the design of classifier. This paper innovatively proposes to apply convolutional neural network (CNN) and super pixel to the detection of a new small target. Firstly, we employed SLIC algorithm to over-segment the image. Then, we extracted the features of the over segmentation region and merged the regions. Finally, candidate regions were extracted. Compared with the traditional proposed region extraction method, our proposed method reduced the number of candidate regions on the premise of ensuring recall rate. To overcome the difficulty of feature extraction of small targets, our algorithm used multi-level and multi-layer CNN to extract semantic information of the middle and high level of candidate regions for target classification. Experiment on detecting vehicle inspection mark shows that our method achieves better recall rate (increased by 2%, 2.4%, 3.5%) compared with the state-of-the-art method including Bing, Selective search, and Edge box. Meanwhile, the multi-level and multi-scale target classification algorithm can effectively reduce the false detection rate and improve the detection rate.

Object detection CNN Super-resolution Object proposal

TP301.6

A

10.3969/j.issn.1000-386x.2017.10.040

2017-03-09。陈江昀,本科生,主研领域:计算机的人工智能与识别。

猜你喜欢
特征提取尺度像素
像素前线之“幻影”2000
财产的五大尺度和五重应对
“像素”仙人掌
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
ÉVOLUTIONDIGAE Style de vie tactile
Bagging RCSP脑电特征提取算法
宇宙的尺度
高像素不是全部
基于MED和循环域解调的多故障特征提取