张桂宁
(陕西省行政学院,陕西 宝鸡 710068)
随着智能监控系统的普及,如何使用计算机代替人工进行监控,以缓解人工压力并提高工作效率,已成为当前研究热点。其中一个非常重要的工作就是从图像或视频中进行目标检测,而行人检测技术就是当前典型代表。目前,行人检测技术已在游戏中的人机交互、机器人导航、智能汽车等领域得到诸多应用。然而,由于行人服饰和姿态的多样性、行人相互遮挡、光线多变、背景复杂等原因,使得提高行人检测精度依旧面临挑战。
为此,研究人员已经将多种特征应用于行人检测技术,包括:Haar 特征、LBP 特征、自适应轮廓特征、形状隐模型以及梯度方向直方图(HOG)等[1-3]。其中,HOG 特征是由文献[4]首次提出,以应对梯度直方图(HG)特征在明暗背景中梯度方向产生变化的情况。由于HOG 特征对图像窗口中的梯度信息进行了充分的描述,并且对小幅旋转和平移变化具有较强的鲁棒性。因此,基于HOG 特征的行人检测算法被广泛研究和改进。如朱向军[5]等人通过大量的实验分析表明:HOG 特征在不同光照条件下对行人具有敏感的识别能力。Paisitkriangkrai S[6]等人详细研究了不同参数的HOG 特征对结果的影响,其结果也显示HOG 特征能够提高行人检测精度。虽然HOG 特征能够改善行人检测算法的性能;然而HOG 特征在行人表达上依然存在缺陷。为此,诸多学者将多特征与HOG 结合,以改善其表达能力。如Wu Jiefa[7]等人证明了对行人的多特征联合表达,比HOG 单特征表达会取得更好的效果,并将Haar 特征和HOG 特征相结合。相似的想法也出现在文献[8]中,它们分别将局部保持投影(LPP)特征和局部二值模式(LBP)与HOG 特征相结合,都取得较好的效果。Pierre Sermanet 等人[9]针对HOG 特征在遮挡情况下的失效问题,提出一种改进的HOG 特征,提高了行人检测的速度。赵瑞宇[10]等人使用垂直边缘进行预处理,在使用HOG +Adaboost 框架进行行人检测,加快了系统处理速度。
综上所述,现有的HOG 特征研究及其改进方向是如何通过其他手段进一步提高基于HOG 特征的行人检测的准确率,但这些方法都忽视了HOG 特征本身的改进。
对此,本文从HOG 特征本身表达能力出发,提出一种改进HOG 特征,进一步增加HOG 特征的表达能力和鲁棒性,并将其用于行人检测。最后,借助仿真平台测试了本文行人检测技术的性能。
HOG 特征是基于局部信息统计的特征描述子,其主要思想是一幅图像中的局部目标的表象和形状能够被梯度或边缘的方向密度分布很好的描述。首先将图像划分成多个不重叠的细胞,每个细胞大小为n×n,在计算出每个像素的梯度后,使用直方图统计每个细胞的梯度信息。然后合并多个细胞,组成一个块,将各个细胞的直方图组合就成为HOG 特征。具体步骤如下:
Step 1图像标准化。
由于颜色信息并不大,首先将图像转化为灰度图。为了避免光照因素的影响,需要对整个灰度图像进行规范化,以降低图像局部的阴影和光照变化。
Step 2梯度计算。
首先使用梯度算子Sobel[11]对原图像做卷积运算,计算每个像素在横纵坐标方向的梯度,并据此计算每个像素位置的梯度方向值;这种求导操作不仅能够捕获轮廓、人影和一些纹理信息,还能进一步弱化光照的影响。
Step 3细胞方向直方图建立。
以细胞为单位,对每个细胞建立方向直方图。为了避免因为前景-背景光线差的问题,即物体在明亮的背景时,将梯度方向朝内,在黑暗的背景时,梯度方向朝外。首先将[0,2π]区间缩小为[0,π],即[π,2π]区间的方向全部减去。然后将[0,π]分为若干个区间,使用细胞中所有像素的梯度对直方图进行投票。该区间称为投票方向区间;而投票的权重,则为其对应的梯度幅值。
Step 4细胞合并和归一化。
将块内所有细胞的梯度方向直方图按一定次序串联,组成一条大的方向直方图,用于表示整个块的梯度统计信息。由于局部光照以及前景-背景对比度的变化,使得梯度强度的变化范围非常大,故需对梯度强度做归一化。归一化能够进一步地对光照、阴影和边缘进行压缩[12-13]。为了消除噪声对直方图的影响,首先对直方图中大于阈值的元素做截断处理,即这些元素的值等于阈值,然后对剩余的元素进行归一化,得到新的直方图。
虽然传统的HOG 特征对一定的光照变化有较强的鲁棒性,但是HOG 特征的表达能力依然存在不足。首先,为了避免因为背景明暗变化带来的梯度方向改变而导致HOG 对同一目标表达的迥异,HOG 将区间变为直方图统计,其中一个示例如图1 所示,从图中可以看到,由于背景明暗变化,使目标梯度方向相反,在[0,π]区间下投影可使梯度方向直方图不受影响,见图1(c)所示。
图1 方向区间压缩对背景的鲁棒性
然而,自动忽略相反方向差异会导致HOG 忽略一些目标本身表现出的差异信息。其中的几个示例如图2 所示,由于这类不同形状物体的梯度方向相反,且大小和数量相等,导致HOG 特征描述符是一样的,产生相同的直方图,见图1 中的右图。因此,HOG特征对这类物体不具有区分能力。
图2 HOG 对某些目标的表达问题
针对上述问题,本文提出了改进的HOG 直方图表示方法。令[0,2π]划分为L 个区间,其中L 为偶数,将每个细胞内的像素进行投票,得到梯度方向直方图Hg:
其中Hog(i) 和Hg(i) 分别是HOG 和Hg中的第i 个元素值。
为了提高HOG 表达能力,本文在HOG 之后,串联一组新的直方图Hng,其长度和HOG 相等,每个元素值为:
令新的梯度方向直方图为差分HOG(DHOG),当相同物体出现在背景明暗条件下时,Hog和Hng是一样的,从而使得Hnew在2 种条件下也是一样的。而对于图2 中的这类物体,Hnew的表达如图3 所示。对比图3(b)与图3(c)可知,显然,Hnew比Hog的表达能力更强。
通过将细胞组合变成块,可使HOG 更为鲁棒地表达复杂物体,但是这一过程中的截断处理会使HOG 的表达能力变弱。如图4 所示,对于仅有长边缘差异的2 个物体,传统的HOG 在每个区间(bin),会对这2 个物体产生相同的直方图。为此,本文提出一种新的归一化方法:
图3 HOG 和DHOG 对比
其中,N 是每个块中细胞的个数,Hd(i) 表示细胞的DHOG,Hdcn为归一化的结果。
以图4 中的物体为例,DHOG 的表达如图5 所示。对比图4 和图5 可知,归一化后的DHOG 表达能力更强。
图4 传统HOG 归一化结果
图5 DHOG 归一化结果
基于改进HOG 特征,设计了相应的行人检测机制,见图6。
图6 本文机制流程图
本节将通过在INRIA、Daimler 数据库上的实验来验证改进HOG 的有效性和鲁棒性。为了便于实验,令本文设计的HOG 描述符为DHOG;对照组为当前HOG 以及文献[14]的HG 描述符-VJ 方法。
整个实验在频率为4 核1.6 GHz、4 G 内存的电脑上运行,代码使用Matlab 编写。实验数据库使用INRIA、Daimler 数据库。对于INRIA 数据库,训练样本包括2416 张已裁剪的正样本和1218 张未裁剪的负样本图片,滑动窗口尺寸为128×64。对于Daimler 数据库,训练数据包含3 组裁剪的正负样本,每组分别包含尺寸为36×18 的4 800 张正样本和5 000 张负样本。
为了比较不同特征的性能差异,本文使用固定误检率(False Positives per Window,FPPW)、下漏检率(Miss Rate,MR)、log 平均误检率(Log-Average Miss Rate,LAMR)和正确率(Accuracy)为评价标准[15-16]。
实验中,细胞的大小为3 ×3、分块大小为12 ×12、投票方向区间为[0,2π]、区间数L=10、每个块中细胞量N 为16。每个块由不重叠细胞组成。每个细胞直方图长度为18。在归一化中截断阈值设置为0.08。分类器采用线性SVM,检测过程从INRIA 中选择288张图片,图片进行多尺度缩放,每次缩放比例为1.05,从Daimler 中选择大小为36 ×18 的4 800 张正样本和5 000 张负样本图片进行测试。
在上述2 个图像库中测试,检测结果见图7。从图中可知,本文机制的检测效果比较好,行人姿势等细节清晰可见。
图7 本文机制检测实例
为了测试DHOG 特征的性能,实验选用传统HOG 和HG 特征在2 个数据库中作对比试验,首先不对特征做处理,直接送入分类器,然后先对特征进行PCA 降维处理,再送入分类器,实验结果见表1。同时,为进一步测试DHOG 特征的综合性能,本文使用经典HIKSVM 框架[17],在这个框架下,分析了HOG 特征和DHOG 特征对结果的影响,如表1 所示。从表1 可以看出,DHOG 在2 个数据库中的结果都比HOG 和HG 性能优越,在HIKSVM 框架下,DHOG 特征也比HOG 特征有更好的性能。
表1 DHOG 特征在INRIA 和Daimler 中的性能比较
图8 各方法的ROC 曲线
图8 给出了HOG+HIKSVM、DHOG+HIKSVM和Viola 提出的VJ 方法[14]在INRIA、Daimler 中的ROC 曲线。可以看出,本文所提改进HOG 特征能够在窗口误检率(FPPW)一定的情况下,比传统HOG和VJ 方法有更低的漏检率。在Daimler 库中,当误检为0.2 时,传统HOG 的漏检率为9.52%,VJ 方法的漏检率为13.17%,而所提DHOG 特征仅有6.23%。
特征值表达能力的好坏直接影响行人检测的性能,本文针对HOG 特征固有的目标表达缺陷问题,提出了改进HOG 特征描述符。首先分析了HOG 特征在投票区间处理和归一化处理中所存在的表达缺陷问题,然后提出对应的改进操作,最后在INRIA、Daimler 数据库中进行了实验。实验结果表明,与传统HOG 特征相比,本文提出的改进HOG 描述符在行人检测上具有更好的性能。
[1]李晖,曲仕茹.基于分层梯度方向直方图和SVM 的人体识别[J].计算机测量与控制,2010,18(11):2602-2606.
[2]苏松志,李绍滋,陈淑媛.行人检测技术综述[J].电子学报,2012,40(4):814-820.
[3]张春凤,宋加涛,王万良.行人检测技术研究综述[J].电视技术,2014,38(3):157-162.
[4]孙锐,陈军,高隽.基于显著性检测与HOG-NMF 特征的快速行人检测方法[J].电子与信息学报,2013,35(8):1922-1925.
[5]朱向军,王洁,冯志林.基于统计分类的多行人检测跟踪算法[J].电视技术,2012,36(11):118-120.
[6]Paisitkriangkrai S,Shen C,Zhang J.Performance evaluation of local features in human classification and detection[J].IET Computer Vision,2008,2(4):236-246.
[7]Wu Jiefa,Yang Sheng,Zhang Lingling.Pedestrian detection based on improved HOG feature and robust adaptive boosting algorithm[J].Image and Signal Processing,2011,79(26):1535-1539.
[8]Andres Sanin,Conrad Sanderson.K-Tangent spaces on Riemannian manifolds for improved pedestrian detection[J].Computer Vision and Pattern Recognition,2014,56(1):35-37.
[9]Pierre Sermanet,Koray Kavukcuoglu,Soumith Chintala.Pedestrian detection with unsupervised multi-stage feature learning[J].Computer Vision and Pattern Recognition,2013,42(2):1-8.
[10]赵瑞宇,孙首群,吕晓军,等.高铁闸机智能监控系统中的行人检测算法研究[J].计算机应用与软件,2013,30(3):25-28.
[11]夏清,张振鑫,王婷婷.基于改进Sobel 算子的红外图像边缘提取算法[J].激光与红外,2014,43(10):1158-1161.
[12]Yang Jian,Liu Chengjun,Zhang Lei.Color space normalization:Enhancing the discriminating power of color spaces for face recognition[J].Pattern Recognition,2010,43(4):1454-1466.
[13]Vu N S,Caplier A.Enhanced patterns of oriented edge magnitudes for face recognition and image matching[J].IEEE Trans.Image Processing,2012,21(3):1352-1365.
[14]Viola P,Jones M J,Snow D.Detecting pedestrians using patterns of motion and appearance[J].International Journal of Computer and Vision,Springer Link,2005,63(2):153-161
[15]Zheng Yongbin,Shen Chunhua,Richard Hartley.Effective pedestrian detection using center-symmetric local binary/trinary patterns[J].Computer Vision and Pattern Recognition,2010,14(2):1-11.
[16]姚雪琴,李晓华,周激流.基于边缘对称性和HOG 的行人检测算法[J].计算机工程,2012,8(5):179-182.
[17]孙锐,侯能干,陈军.基于特征融合和交叉核SVM 的快速行人检测方法[J].光电工程,2014,41(2):53-62.