基于RGB-D多通道特征的行人检测

2015-05-11 05:45谢伙生

福州大学学报（自然科学版） 2015年6期

关键词：深度图直方图行人

林晶, 谢伙生

(福州大学数学与计算机科学学院，福建福州 350116)

基于RGB-D多通道特征的行人检测

林晶, 谢伙生

(福州大学数学与计算机科学学院，福建福州 350116)

针对行人检测易受物体遮挡以及光照变化干扰的问题，提出一种融合颜色与深度信息的多通道特征行人检测方法. 首先，颜色采用ChnFtrs方法中的通道，深度在其基础上引入法向量方向通道，并用快速图像特征金字塔来加速颜色和深度的通道特征的计算. 其次，通道特征作为级联AdaBoost的候选特征点集输入，分别训练得到颜色和深度分类器，按一定比例权重融合颜色和深度信息进行检测. 实验表明，该方法提高了检测精度，对光照变化、物体遮挡具有较好的鲁棒性.

行人检测； RGB-D；级联AdaBoost；多通道特征

0 引言

行人检测即判断给定图片序列有无直立的行人，是计算机视觉领域内的一项重要工作. 在智能视频监控、机器人、汽车辅助驾驶、游戏娱乐等方面都有广泛的应用.

近年来，行人检测在速度和精度上都有了很大的提高. Dalal[1]提出的梯度方向直方图(histogram of oriented gradients， HOG)是至今广泛使用的行人特征描述子，通过在检测窗口内划分单元格(cell)分别统计梯度直方图，分块(2×2 cell)规范化cell，连接窗口内所有块构成描述子. 针对HOG特征维度高、计算慢等特点， Zhu等[2]利用积分直方图技术[3]和构建级联AdaBoost分类器来快速计算训练HOG特征. Wojek等[4]则在GPU上并行实现HOG，达到实时的行人检测. Dollar等[5]提出了积分通道特征的概念，它实现了特征的快速计算，并从不同的角度集成各种不同的特征信息提高了检测精度. 文献[6-8]都是在通道特征基础上进行的进一步研究工作. 基于RGB图像的检测方法，多数采用基于梯度的特征，较好地描述了边缘信息，但检测性能受物体遮挡和光照变化等因素干扰影响较大.

深度图作为一种新型的数据描述方式，不仅保存了物体大量空间位置信息，而且不受光照变化影响. 随着深度摄像机技术的发展， Kinect传感器的出现大大降低了硬件成本，实现了实时同步获取高分辨率彩色和深度图像，使得利用深度信息的研究方向成为热点. 文献[9]从TOF相机获取的深度信息，提取关系深度相似性特征(RDSF)，利用深度空间信息有效解决部分遮挡问题. 文献[10]则是利用深度信息构建二维和三维头部的模型，模型匹配提取出行人轮廓. 文献[11]把深度信息转为三维空间点云，类似HOG流程构造法向量方向直方图(histogram of oriented normal vector， HONV)，得到特征描述子. 由于深度相机获取深度范围有限，容易产生无效值，若没有合适的图像修复算法，则单独的深度信息检测满足不了应用需求. 目前利用3D距离数据进行行人检测还是较新的问题. Spinello等[12]提出基于RGB-D的行人体检测算法，利用HOG和深度方向(histogram of oriented depth， HOD)描述子进行联合检测，不需要依赖于地平面假设. 文献[13]提出新的二阶深度算子PDSS，较好地克服HOD算子的不足，联合HOG描述子提高了检测精度. 多分类器联合检测一方面提高了检测精度，但另一方面检测速度往往达不到实时要求.

深度图包含了大量空间信息，如何充分利用这些信息在保证检测速度的前提下提高检测算法性能是本文要研究的方向. 本研究在ChnFtrs[5]方法的通道特征基础上，引入深度法向量方向作为深度通道，利用图像特征金字塔快速尺度化[14]加速计算RGB-D多通道特征，并构造级联分类器联合颜色和深度信息快速检测行人.

1 RGB-D多通道特征

1.1 RGB多通道特征

图1 RGB通道示例

如图1所示， RGB特征通道分别由LUV(L代表亮度信息， U和V代表色度信息)三通道、梯度幅值以及梯度方向直方图的六个通道构成，是目前性能较好的ChnFtrs[5]方法所采用的颜色通道特征组合.

RGB颜色空间是一种非均匀的颜色空间，即相等的颜色差别在色度图中并不对应相等的距离. 相比RGB空间， LUV空间各分量相关性小，更适于进行图像处理，为此将RGB转换到LUV均匀颜色空间，并统一规范化到[0, 1]区间作为RGB图像的颜色通道. 在LUV空间计算梯度幅值与梯度方向：

式(1)通过一阶微分近似估算像素点(x,y)处水平方向梯度Gx(x,y)与垂直方向梯度Gy(x,y)，式中I(x,y)表示该点的像素值. 点(x,y)处的梯度幅值和方向为：

分别按式(2)计算该点处L、U、V三通道的梯度幅值G(x,y)，选取最大值作为该点的幅值. 最大值对应的Gx(x,y)和Gy(x,y)代入式(3)，得到梯度方向φ(x,y)，规范化到[0, π]区间，区间均等分为6个方向，φ(x,y)量化后决定选择哪个方向，幅值决定权重，即Hθ(x,y)=G(x,y)·f[Θ(x,y)=θ]，其中Θ(x,y)表示φ(x,y)量化后的值，θ表示6个方向中的某个方向.f[Θ(x,y)=θ]表示函数：当Θ(x,y)与θ相等，取值1，反之为0；Hθ(x,y)表示直方图相对应的方向通道.

1.2 深度(Depth)多通道特征

图2 深度通道示例

如图2所示，本文深度图的特征通道由深度图本身深度值、深度梯度幅值、深度梯度方向直方图和深度法向量方向等九个通道构成.

深度图每个像素点d(x,y)，表示的是物体与传感器之间的距离，经预处理后作为深度通道. 深度梯度幅值与梯度方向直方图的计算与RGB多通道特征类似，只需将I(x,y)替换为d(x,y).

为更好地利用深度空间信息，本文引入法向量方向通道[11]，将深度图每个像素点表示为三维空间的点P=(x,y,d(x,y))，假设三维空间上点P的x和y方向梯度向量Gx(P)和Gy(P)构成的平面为该点的切面，如图3(a)所示，则法向量N计算如下：

(5)

球坐标(θ,φ,r)能更好地描述法向量方向信息，将法向量从笛卡尔坐标转换到球坐标，如图3(b)所示. 式(4)中法向量的第三维是常数，二维空间的法向量可以一一映射到二维平面上. 取z=1平面，θ和φ计算公式如下所示：

(a) 三维空间上某点法向量 (b) 法向量与夹角

2 行人检测

图4所示为本文方法流程图，首先输入RGB-D图像对，简单预处理降低噪声影响，然后分别计算彩色图像和深度图像的多尺度多通道特征，同时构建深度尺度列表S，最后搜索深度尺度空间，联合彩色和深度分类器进行检测得到最终结果.

图4 行人检测方法流程图

2.1 多尺度多通道特征计算

2.2 深度尺度空间搜索

大多数基于RGB图像检测方法都是采用滑动窗口法在图像尺度空间中搜索可能的目标，对于一张分辨率为640×480的图像，滑动窗口大小128×64，滑动步幅4，尺度为1时需要搜索的窗口数就有(640-128)/4·(480-64)/4=13 312个，不利于快速检测. 对于深度图、深度值表示的是实测距离和尺度一一对应，利用深度尺度空间搜索，所需检测的滑动窗口数可以减少一个数量级.

深度值d映射到尺度s的关系如下所示:

式中:Fy是红外摄像头的垂直焦距(m);Hm是训练数据集中人的实际平均高度(m);Hw是检测窗口在尺度为1时的高度(单位像素)，本文为128.

计算深度图每个像素点对应的尺度s，并进行量化，由深度图所有尺度s构成尺度列表S，分类器只检测列表中相关尺度搜索到的窗口. 采用积分直方图加速搜索，每个尺度对应一张二值图(像素点对应尺度与给定尺度相等时为1，否则为0)，由二值图构建N张积分图，N为S中的尺度个数，每幅图只需构建一次积分直方图. 选定S中的某个尺度搜索窗口时，先查找对应尺度的积分图，然后通过3次加减运算得到窗口覆盖的矩形区域所有像素点值的和，当和大于0时，表明该窗口对应图像区域包含该尺度，则送入分类器进行检测，否则放弃这个窗口，继续搜索下一个窗口. 深度图与彩色图上的点一一对应，因此彩色图也可通过深度尺度空间搜索可能的目标，从而检测时不必计算所有尺度的所有滑动窗口.

2.3 联合检测

为降低误检率，联合彩色与深度分类器进行检测. 训练时，彩色分类器的训练样本统一重采样为128×64，则有128/4·64/4·10=5 120个特征候选点，将这些多通道特征集成一维向量，采用2 048个弱分类器(深度为2的决策树)级联成的AdaBoost分类器进行训练，深度分类器采用同样的训练过程. 分类器中的每个弱分类器设置一个阈值，分类时可以快速排除明显不符合要求的窗口. 级联的过程中不断增加更多的强分类器，在检测前期就能大量排除背景区域，节约时间用于对更有可能是行人的区域进行计算.

3 实验结果与分析

3.1 数据集

本文RGB-D数据集采用文献[12]的数据集，数据集包含3 000多对由Kinect传感器同步采集的RGB-D图像，深度范围1～10 m. 数据集包含3种不同背景，光线强弱不一致，行人间有遮挡并在服饰、行为动作上有很大差异. 该数据集没有提供标注，实验前采用Dollar[15]提供的源码对数据集处理，手动标注行人.

彩色和深度训练集都是采用1 133张彩色图片包含2 035人体正样本和10 000不包含人体的负样本，负样本是在原图上抠去正样本后随机采样得到. 测试集包含691对图像，共1 447人体. 实验环境： CPU为IntelCore i5-3470 ，主频3.2 GHz，内存16 G， Win7 64位操作系统.

3.2 预处理

(a)原始图 (b)预处理后

Kinect获取的深度数据保存了大量的空间信息，但在人体边界、反光地面、远距离和吸收红外光的物体表面等一些情况下会产生无效区域，无法返回深度值，因此实验前需要对数据进行简单的预处理. 深度图中无效区域的值为0，如图5(a)中所示的黑色部分，把0当做数据缺失，对图像缺失的部分进行模板的最近邻插值. 图5(b)所示为插值后的效果图.

3.3 结果与分析

本文实验采用(detection error tradeoff, DET)评价方法，即竖轴漏检率对横轴误检率曲线，曲线越靠近左下方越好. 如图6所示是在双对数坐标系上的实验结果曲线，图例中方括号内对应的是各方法的对数平均漏检率和平均检测时间. (aggregate color multi-channel feature, ACCF)和(aggregate depth multi-channel feature, ADCF)分别是本文彩色多通道特征方法和深度多通道特征方法， ACDF0为不包含法向量方向通道的深度多通道特征方法，所有方法都基于级联AdaBoost分类器进行实验比较.

图6(a)是不同的深度特征间的比较实验，从实验结果可以看出本文ADCF0和ADCF方法明显优于HOD方法，因为前两者在HOD的基础上补充了深度的空间信息，而相比ADCF0方法， ADCF方法不是单纯地利用深度值，而是构建三维曲面法向量，平均漏检率更低. ADCF0与ADCF方法都采用了快速特征金字塔，检测时所花费的时间相差不大，平均检测时间约为41 ms，比HOD方法检测速度要快.

图6(b)中，精度上： ACCF方法相比传统的HOG方法增加了颜色通道，所以ACCF的漏检率低于HOG. 由于光线条件的影响以及物体遮挡的干扰，基于彩色的分类方法表现的不是很好，基于深度的分类方法的平均漏检率要比彩色的低. 融合颜色和深度信息的分类器，检测效果明显优于单独的分类器. 本文方法(ACCF+ADCF)相比文献[12]的联合算法(HOG+HOD)漏检率降低了约4%. 速度上：基于彩色的分类特征通道多于深度分类器方法, 特征计算时间更长. 彩色与深度分类过程采用并行技术计算，本文联合检测方法的平均检测时间约为102 ms，比文献[12]的方法快，相比单独分类器的时间消耗代价并不是很大，但在精度上有较大的提高，总体改善了性能.

(a)基于深度特征方法比较 (b)各种分类方法比较

如图7所示是ACCF+ADCF方法检测比较结果，其中第一行是ACCF检测结果，第二行是ADCF检测结果，第三行是融合两种信息ACCF+ADCF的检测结果.

图7 检测结果示例

图7中：第一列中图(a)ACCF因光线较暗，漏检行人，图(d)ADCF不受光照影响正确检测出行人，但是由于kinect采集的深度图边缘都是一些无效的深度值，深度图实际较远(大于10 m)的地方缺失深度值，出现漏检，图(g)结合ACCF+ADCF方法正确检测出行人；第二列图(b)、 (e)、 (h)表明联合彩色与深度分类器在行人部分遮挡的情况下也能很好地检测出行人；第三列图(c)、 (f)、 (i)当ACCF分类器出现误检，依靠ADCF检测，联合ACCF及ADCF检测很好地抑制了错误.

4 结论

本文提出将深度法向量方向和梯度方向直方图作为深度通道，利用图像特征金字塔快速计算RGB-D多尺度多通道特征，并构造级联分类器联合颜色和深度信息快速检测行人. 实验结果表明，在深度分类器上，引入法向量方向通道，比深度梯度方向直方图在同一误检率下漏检率更低. 在保证实时检测前提下，本文的多分类器方法(ACCF+ADCF)，相对于单信息的分类器检测，漏检率明显降低了，相对于经典HOG+HOD融合方法，漏检率降低了4%. 对于彩色和深度分类器的检测性能，还有可提升的空间. 未来进一步研究级联分类器的融合方法，以及如何更快速准确自适应地融合这两种信息.

[1] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 886-893.

[2] Zhu Qiang, Yeh M C, Cheng Kwang-Ting,etal. Fast human detection using a cascade of histograms of oriented gradients[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2006: 1 491-1 498.

[3] Porikli F. Integral histogram: a fast way to extract histograms in cartesian spaces[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005： 829-836.

[4] Wojek C, Schiele B. A performance evaluation of single and multi-feature people detection[C]//Pattern Recognition: 30 th Dagm Symposium. Munich: Springer, 2008: 82-91.

[5] Dollár P, Tu Zhuowen, Perona P,etal. Integral channel features[C]//The British Machine Vision Conference. London: [s.n.],2009: 1-5.

[6] Benenson R, Mathias M, Timofte R,etal. Pedestrian detection at 100 frames per second[C]//IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 2 903-2 910.

[7] Dollár P, Appel R, Belongie S,etal. Fast feature pyramids for object detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(8): 1 532-1 545.

[8] Yang Bin, Yan Junjie, Lei Zhen,etal. Aggregate channel features for multi-view face detection[C]// IEEE International Joint Conference on Biometrics. [s.l.]: IEEE, 2014: 1-8.

[9] Ikemura S, Fujiyoshi H. Real-time human detection using relational depth similarity features[C]//The 10th Asian Conference on Computer Vision. Berlin: Springer, 2011: 25-38.

[10] Lu Xia, Chen Chia-Chih, Aggarwal J K. Human detection using depth information by kinect[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. [s.l.]: IEEE, 2011: 15-22.

[11] Tang Shuai, Wang Xiaoyu, Lyu Xutao,etal. Histogram of oriented normal vectors for object recognition with a depth sensor[C]//The 11th Asian Conference on Computer Vision. Berlin:Springer, 2013: 525-538.

[12] Spinello L, Arras K O. People detection in RGB-D data[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. San Francisco: IEEE, 2011: 3 838-3 843.

[13] Wang Ningbo, Gong Xiaojin, Liu Jilin. A new depth descriptor for pedestrian detection in RGB-D images[C]// International Conference on Pattern Recognition.Tsukuba: IEEE, 2012: 3 688-3 691.

[14] Dollár P, Belongie S, Perona P. The fastest pedestrian detector in the west[C]// The British Machine Vision Conference. Aberystwyth: [s.n.], 2010: 2， 3， 7.

[15] Dollár P, Wojek C, Schiele B,etal. Pedestrian detection: an evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761.

(责任编辑：林晓)

Pedestrian detection based on RGB-D multi-channel feature

LIN Jing, XIE Huosheng

(College of Mathematics and Computer Science, Fuzhou University, Fuzhou， Fujian 350116, China)

As pedestrian detection is vulnerable to the interference of occlusion andillumination changes, we prorosed a novel pedestrian detection approach based on RGB-D multi-channel feature. First of all, RGB image adopt the channel that ChnFtrs used, while depth image introduce normal vector as channel.They both take fastimage feature pyramids to compute muti-channel feature.Then the cascade AdaBoostis trained with RGB and depth muti-channel feature respectively.Finally, we combine the color and depth information with certain weight proportion for last detect.The experiment shows that the proposed approach improves the detection accuracy, and has good robustness on illumination changes and occlusion.

pedestrian detection; RGB-D; cascade AdaBoost; multi-channel feature

2014-10-08

谢伙生(1964-)，副教授，主要从事智能图形图像处理、数据挖掘等研究， xiehs@sina.com

福建省自然科学基金资助项目(2014J01229)

10.7631/issn.1000-2243.2015.06.0746

1000-2243(2015)06-0746-07

TP391