方 帅, 金 忍, 于 磊, 刘永进
(1. 合肥工业大学计算机与信息学院,安徽 合肥 230009;2. 光电控制技术重点实验室,河南 洛阳 471009)
一种基于RGBD图像的似物性采样算法
方帅1,2, 金忍1, 于磊1, 刘永进2
(1. 合肥工业大学计算机与信息学院,安徽 合肥 230009;2. 光电控制技术重点实验室,河南 洛阳 471009)
近年来,图像的似物性采样研究成为一个热门的研究领域。似物性采样是提取一幅图像中可能成为任意目标的窗口,用于减少目标识别的搜索窗口。但目前有关似物性采样的研究都是基于RGB图像的,本文基于RGBD图像的似物性采样算法,结合了目前RGB图像似物性采样最好的方法,并利用D图的深度似物性特征,提出了基于贝叶斯框架的RGBD图像的似物性采样方法。在NYU Depth数据集上实验证明了这些似物性描述方法的结合要比单独使用任一种描述结果更优。最后,与目前流行的基于RGB图像的似物性采样方法进行了对比实验,证明了深度图的加入可以更好的优化似物性采样的结果。
似物性采样;RGBD;目标检测;目标识别
在目标检测和识别过程中,一些经典的方法通常采用滑动窗口搜索算法[1-3],多尺度地滑动遍历每一个窗口,对每个窗口都进行一次检测识别。这不仅需要耗费大量的计算力(至少都在十万窗口以上),而且还存在窗口精度的缺失(如步长和尺度不合适)。文献[4]提出高效子窗口搜索算法,但需要已知类别模型。Alexe等[5]首先提出似物性采样算法来定义图像中可能是任意目标的窗口,可显著的减少搜索窗口[1-3],提高目标检测和识别的时间效率。似物性采样算法在窗口评价上没有类别模型的限制,如果已知类别分类器,则可以减少负样本采样窗口,用于弱监督类别发现[6-7]、视频目标跟踪、空间目标学习[8]等。
目前有许多基于PASCAL VOC数据集的似物性采样研究,最新的研究成果已经在窗口覆盖率为0.7时达到了87%的召回率,且单幅图像的采样只需要0.25 s。Alexe等[5]认为一幅图像中的目标应至少具有以下 3个特征之一:①有着良好的封闭轮廓;②和周围区域有着不同的外貌特征;③在图像中具有唯一性或显著性。基于这些特征定义了不同的似物性单元,在滑动搜索中通过这些单元优化给出最终采样窗口。Uijlings等[9]通过将图像分割成许多小区域,并假设目标和周围区域的差异主要包括纹理、颜色、形状、位置等,通过以上特征的区域相似度合并小区域从而得到不同的合并路径,基于这些合并路径进行窗口采样。Cheng等[10]基于人眼视觉的特点,发现把目标窗口采样降到一个很小的尺度时会呈现一个近似的封闭轮廓,通过分类器训练得到模版,用CPU指令集进行快速匹配,是目前最快的似物性采样方法,但是却损失了窗口覆盖率。Zitnick和 Dollar[11]用一种快速结构边缘检测算法检测出图像近似的结构边缘,并定义了目标结构边缘似物性的规则,给采样窗口打分并排序,以达到综合精度、速度最好的结果。
近年来,RGBD传感器慢慢进入消费领域,如微软的Kinect、苹果公司的PrimeSense、英特尔的RealSense、谷歌的Tango。RGBD传感器使得人体姿势估计[12-13]、本征图像[14]、分割[15-16]、3D 建模[17-18]领域有了重大突破,有关RGBD图像目标识别的研究也逐渐热门起来,Song和Xiao[19]提出了一种基于CAD模型训练的RGBD图像目标识别方法,但在预测阶段也是采用了一种改进的滑动窗口搜索算法。随着 RGBD设备应用的推广,RGBD图像似物性检测有着巨大的需求。同时,深度线索的增加也将促进似物性检测的发展,能进一步减少目标识别的搜索窗口。
本文结合了在RGB图像似物性采样最好的方法[11],在RGBD图像库中对深度图的似物性特征进行提取,然后基于先验概率的模型将二者结合起来,在NYU Depth数据集上达到了很好的采样效果。本文主要针对深度图提出两种似物性特征描述算子,有效发现深度图上的似物性目标,利用RGB似物性特征和D似物性特性,实现基于贝叶斯模型的RGBD图像似物性检测,手动标定了NYU Depth数据集中RGBD图像的真实似物性目标。
本文RGBD图像的似物性采样主要流程如下:①基于目标结构边缘评分的方法[11]给出RGB图像中似物性高分窗口,尽可能多的保留采样窗口;②在这些窗口中,基于深度对照算子和深度变换对照算子计算窗口在深度图上的得分,从而得到深度图中的似物性高分窗口;③基于先验概率的贝叶斯框架,结合RGB和深度图两个特征的得分,给出窗口的最终评价标准。本文算法的整体框架如图1所示。
图1 基于RGBD的似物性采样算法整体框架
1.1RGB图像的似物性采样
RGB似物性采样主要依据图像的结构边缘信息,假设一个好的窗口应该正好包含一个封闭的结构边缘轮廓,通过窗口是否切断结构边缘来给窗口评分,即:①定义窗口的边缘得分,边缘强度越大,目标越显著,其得分也越高,并对窗口内边缘得分进行累加;②找到被窗口切断的边缘,按照边缘的相关性,找出与切断边缘相关的边缘,减少其得分;③滑动搜索每个窗口,得到似物性高分窗口的采样。
利用一种基于学习的快速结构边缘检测算法提取RGB图像的结构边缘[20],定义边缘图中每一个像素p的边缘权重为mp,边缘方向为 θp。给定一个窗口b,对于其中每一个像素p∈b,要求mp>0.1,计算窗口边界处的边缘最大相关性。直接相连的边缘有着较高的相关性;没有直接相连的边缘以及以较大曲率连接轮廓的边缘,其相关性就较低了。为了加速计算的效率,首先把边缘分为高相关性组,然后只计算组间的相关性。边缘分组采用一种贪心算法在 8领域中寻找相似度最高的边缘梯度方向,然后累加边缘方向差异,在达到π/2的阈值后开始一个新的分组。最后,较小的分组将会合并到其相邻的分组。
得到边缘分组后,取出一个边缘组 si∈S,计算两个相邻分组的相关性。如两个分组 si和 sj的相似性依赖于平均位置 xi和xj,以及 θi和θj,则公式如下:
其中, θij是 xi和xj之间的夹角;γ是一个调节相似度敏感程度的阈值。
得到了边缘分组以及其之间的相似性后,计算任意一个候选框b的得分。首先计算窗口内边缘强度之和,记作mi。然后为每个分组 si计算一个平均位置。
对于每一个分组si计算一个连续值,用来表示 si属于窗口b的程度。定义 Sb为覆盖窗口b边界的边缘分组,对于所有的si∈Sb和,wb(si)=0。剩下的边缘组,用式(2)来计算wb(si):
如果没有此种路径存在,则定义wb(si)=1。式(2)找到了 si到边缘的最高相关路径并减去其权重,窗口得分为:
其中, bw和 bh是窗口的宽和长,用来惩罚大的窗口,不用面积来惩罚是防止出现过扁的窗口;K是一个系数,本文取 1.5。最后,减去其子窗口的hb(bw/2,bh/2),因为这些得分对于似物性没有贡献。
1.2深度图的似物性采样
在深度图中,本文提出两种窗口似物性评分算子:深度对照算子和深度变化对照算子。图 2(a)中红色窗口中的目标和周围黄色区域有着深度的差异;图2(b)中绿框的墙面背景和红框中的目标有着深度变化的差异。
图2 深度对照和深度变化对照示例
1.2.1深度对照(depth contrast,DC)
深度对照主要是衡量一个窗口和其周围区域的相似性。其周围区域Surr(w,θDC)是以一个矩形框w在4个方向上以参数 θDC扩大的结果,所以有以下公式:
深度对照算子(DC)计算窗口和其周围区域的深度直方图h的卡方距离为:
深度对照能成为一个有效的似物性采样单元,主要因为大部分目标和背景有着深度上的差异,如在图 2(a)中靠近座椅和桌子上的计算机等目标,与房间背景有着深度上的差异。与背景深度差异越明显的目标,其在深度对照单元有着较高的得分。
1.2.2深度变化对照(gradient contrast,GC)
深度变化对照主要是衡量一个窗口和其周围区域深度变化的相似性。和深度对照一样,定义Surr(w,θGC)为窗口w的周围区域。深度变化的计算,本文采用一种类似于快速SIFT特征计算里的方法[21],对深度图的8个方向分别计算σ= 1的高斯微分,然后分别统计这8个方向的梯度直方图,直方图的大小为10维,最后得到了80维的深度变化特征。用卡方距离比较窗口和其周围区域的深度变化直方图 hg,则有:
深度变化对照能成为一个有效的似物性采样单元,是因为在深度均匀变化的背景(如伸展的墙面)和其上的目标有着深度变化的明显差异。如图2(b)中挡在墙面前的目标和后面墙面有着明显的深度变化差异。深度变化差异越大的目标,其在深度变化对照单元得分越高。
1.3深度图似物性采样的参数学习和计算加速
对于 θDC和 θGC的学习,本文采用一种贝叶斯框架。以 θDC的学习为例,首先在一幅图像中随机选取100 000个窗口,覆盖真实目标的窗口记为正样本Wobj,其他的窗口则记为负样本Wbg。对于任意的θ,建立一个似然性模型,计算正样本和负样本。优化θ*在分类目标窗口和背景窗口时最大化目标窗口的后验概率:
目标和背景窗口的先验概率计算:
本文采用了积分图来加速深度直方图和深度变化直方图的计算,对于直方图的每一维计算并保存其积分图:
在给定一个窗口w(x1,y1,x2,y2)后,直接通过式(9)得到直方图每一维值:
在得到了RGB图像和深度图像的窗口似物性得分后,本文综合考虑精度和计算效率,采用基于先验概率的朴素贝叶斯框架,最终给出 RGBD图像的似物性目标。
为了结合RGB的似物性采样和深度图的两种似物性采样,训练贝叶斯分类器来区分正负样本。在一幅图像中随机提取100 000个采样窗口,高覆盖真实似物性窗口的设为正样本Wobj,其他设为负样本Wbg。
在朴素贝叶斯模型中,每个单元之间是相互独立的,首先计算一些先验概率p(obj),p(bg),使用其出现的相对频率。然后分别计算每个似物性单元的先验概率cue∈。在一幅测试图像中,用式(10来计算窗口的目标概率:{RGB,DC,GC}
实际中,对于一幅测试图像,本文首先用RGB似物性采样单元计算出10 000个采样窗口,保证窗口的精度和目标覆盖度。然后计算出窗口的似物性得分,以此排序似物性目标。
本文在NYU Depth Dataset[22]手动标注了似物性目标的真实值,并随机选取了训练和测试图像。在一个Intel core i5的处理器上,每幅RGB似物性采样的耗时为 0.35 s,使用 3个单元的耗时为0.41 s(图像分辨率为640×480)。
3.1不同的窗口数量极其精度
在得出了似物性采样窗口及其窗口得分后,可以据此来排序,并根据应用的需求选择不同数量的采样窗口。例如在识别项目中,应尽可能多的选择采样窗口,保证识别的精度。在弱监督类别发现的项目中,需要选择少量的窗口,以保证目标的似物性。在此,本文选择了100、200、1 000窗口数量,进行了实验(如图3所示)。
表1为NYU Depth Dataset的整体实验数据,分别列举了 100、200、1 000采样窗口,IoU为0.7(IoU参考文献[11]),并同时统计了 Selective Search[9]、Rand. Prim's[23]、BING[10]、Edge boxes[11]在RGB图像上的实验结果,作为对比实验。
图3 不用数量的采样窗口(青色窗口为真实目标,黄色窗口为似物性采样目标)
表1 实验数据对比
与目前流行的基于RGB的似物性采样方法对比,可以看出,深度信息的加入可以更好的优化似物性采样的结果。
3.2似物性采样单元性能对比
本文采用了3个似物性采样单元,其中包含两个深度图的似物性采样单元和,Edge boxes[11]的RGB似物性单元,其相关性能统计如表2所示。3个似物性采样单元的有效结合,对于召回率都有着显著的提高。
表2 不同采样单元组合的对比
本文提出一种基于RGBD图像的似物性采样方法,结合了目前RGB图像似物性采样最好的方法,并提出了2种基于深度图的似物性采样算子,用贝叶斯模型将其结合起来。在NYU Depth数据集上实验证明了这些方法的结合要比单独使用任一种方法结果更优。但是由于采用了简单的基于先验概率的模型,对于深度信息的利用还不是很好。在后面的工作中会考虑更好模型以及更好的深度信息似物性采样方法,获得更优的结果。
[1] Felzenszwalb P, Girshick R, McAllester D, et al. Object detection with discriminatively trained part based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[2] Vedaldi A, Gulshan V, Varma V, et al. Multiple kernels for object detection [C]//International Conference on Computer Vision, 2009: 606-613.
[3] Harzallah H, Jurie F, Schmid C. Combining efficient object localization and image classification [C]// International Conference on Computer Vision, 2009: 237-244.
[4] Lampert C H, Blaschko M B, Hofmann T. Beyond sliding windows: object localization by efficient subwindow search [C]//Conference on Computer Visionand Pattern Recognition, 2008: 1897-1904.
[5] Alexe B, Deselaers T, Ferrari V. What is an object? [C]//Conference on Computer Vision and Pattern Recognition, 2010: 73-80.
[6] Khan I, Roth P M, Bischof H. Learning object detectors from weakly-labeled internet images [C]//OAGM Workshop, 2011: 53-61.
[7] Siva P, Tao X. Weakly supervised object detector learning with model drift detection [C]//International Conference on Computer Vision, 2011: 343-350.
[8] Prest A, Schmid C, Ferrari V. Weakly supervised learning of interactions between humans and objects [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3): 601-614.
[9] Uijlings J R R, van de Sande K E A, Gevers T, et al. Selective search for object recognition [J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[10] Cheng M M, Zhang Z M, Lin W Y, et al. BING: binarized normed gradients for objectness estimation at 300fps [C]//Conference on Computer Vision and Pattern Recognition, 2014: 3286-3293.
[11] Zitnick C L, Dollar P. Edge boxes: locating object proposals from edges [C]//European Conference on Computer Vision, 2014: 391-405.
[12] Shotton J, Girshick R, Fitzgibbon A, et al. Efficient human pose estimation from single depth images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2821-2840.
[13] Shotton J, Sharp T, Kipman A, et al. Real-time human pose recognition in parts from single depth images [J]. Communications of the ACM, 2013, 56(1): 116-124.
[14] Barron J T, Malik J. Intrinsic scene properties from a single RGB-D image [C]//Conference on Computer Vision and Pattern Recognition, 2013: 17-24.
[15] Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from rgbd images [C]//European Conference on Computer Vision, 2012: 746-760.
[16] Gupta S, Arbelaez P, Malik J. Perceptual organization and recognition of indoor scenes from RGB-D images [C]//Conference on Computer Vision and Pattern Recognition, 2013: 564-571.
[17] Izadi S, Kim D, Hilliges O, et al. Kinectfusion: real-time 3d reconstruction and interaction using a moving depth camera [C]//User Interface Software and Technology, 2011: 559-568.
[18] Li S R, Tao K L, Wang S Y, et al. 3D Reconstruction by kinect sensor: a brief review [J]. Computer-Aided Drafting, Desigh and Manufacturing, 2014, 1(1): 1-11.
[19] Song S R, Xiao J X. Sliding shapes for 3D object detection in depth images [C]//European Conference on Computer Vision, 2014: 634-651.
[20] Dollar P, Zitnick C L. Structured forests for fast edge detection [C]//International Conference on Computer Vision, 2013: 1841-1848.
[21] Liu C, Sharan L, Adelson E H, et al. Exploring features in a bayesian framework for material recognition [C]// Computer Vision and Pattern Recognition, 2010: 239-246.
[22] Silberman N, Fergus R. Indoor scene segmentation using a structured light sensor [C]//International Conference on Computer Vision, 2011: 601-608.
[23] Manen S, Guillaumin M, Van Gool L, et al. Prime object proposals with randomized prims algorithm [C]// International Conference on Computer Vision, 2013: 2536-2543.
Object Proposals from RGBD Images
Fang Shuai1,2,Jin Ren1,Yu Lei1,Liu Yongjin2
(1. College of Computer and Information, Hefei University of Technology, Hefei Anhui 230009, China; 2. Science and Technology on Electro-Optical Control Laboratory, Luoyang Henan 471009, China)
In recent years, object proposals has become a major research area. Object proposals define and train a measure of objectness generic over classes. But the current research about objectness is based on RGB image. We give a measure of objectness via RGBD images. It combines current state-of-the-art RGB objectness, and design two objectness cues based on depth image, then use a Bayesian framework to combine them. At NYU Depth dataset we demonstrate that the combined objectness measure performs better than any cue alone, and also outperforms traditional objectness based on RGB image. It′s proven that the addition of depth map can better optimize objectness.
object proposals; RGBD; object detection; object recognition
TP 391.4
A
2095-302X(2015)06-0931-06
2015-06-25;定稿日期:2015-07-21
国家自然科学基金资助项目(61175033,61075032);安徽省自然科学基金资助项目(1508085SMF222);光电控制技术重点实验室和航空科学基金联合资助项目(201301P4007,201451P4007)
方帅(1978–),女,安徽寿县人,教授,博士。主要研究方向为计算机视觉、图像复原。E-mail:fangshuai@163.com