一种基于时空HOG与级联SVM的行人检测算法

2016-10-14 00:08徐志通骆炎民柳培忠欧阳怡

海峡科学 2016年7期

徐志通骆炎民柳培忠欧阳怡赵亮

徐志通1骆炎民1柳培忠2欧阳怡1赵亮1

1.华侨大学计算机科学与技术学院 2.华侨大学工学院

行人检测技术是计算机视觉和人工智能领域的核心问题，在现代智能监控中具有重要的应用前景，随着计算机视觉与模式识别技术的发展，基于监控视频的行人检测算法不断被提出。由于现有的行人检测算法受到光照、视角、尺度、姿势以及部分遮挡等因素的影响，使得行人检测仍然是一个开放性的问题。该文针对现有行人检测算法在处理复杂背景以及尺度变化等情况时存在检测精度不高的问题，提出了一种基于时空梯度方向直方图与级联支持向量机的行人检测算法。时空梯度方向直方图用于描述行人的外观特征和运动特征，通过对外观特征、运动特征进行融合，采用级联支持向量机算法对行人检测器进行训练，最终得到分类效果好的行人检测器，实现更好的检测性能。

行人检测监控视频时空梯度级联支持向量机特征融合

1 概述

随着近些年人工智能及计算机视觉领域的飞速发展，行人检测技术也受到了大量的关注，行人检测技术在智能机器人、无人驾驶、人机交互和视频监控系统等方面都有较广泛的应用，对于智能安防监控应用具有重要的现实意义。行人检测是视频监控系统的核心所在，属于最基本的底层算法，也是智能视频监控中更高层的行人跟踪和行人行为理解与分析的基础，这使得行人检测算法需要有较高的准确率。由于行人是非刚性的，在单摄像头固定的情况下，行人姿势与角度等会存在一定程度的变化，而且容易受到行人本身衣着，尺度以及光照、背景的晃动甚至遮挡的影响，使得行人检测成为计算机视觉研究上的一个难点。

对于目标为非刚性的行人来说，检测过程第一步需要设计出一个区分能力强的描述子，而行人特征可以分为颜色、纹理等底层特征，也可以通过多种底层特征进行融合得到混合特征。一般从大量训练样本中通过机器学习算法对行人检测器进行训练[1]，基于此，研究者们提出了大量的行人检测算法，包括采用HOG[2,3]特征通过图像的梯度信息对行人进行检测、采用边缘特征从样本中学习到行人的形状分布，以及积分通道特征通过对多种特征进行融合等方法，这些算法的主要问题是当行人出现了姿势的变化、角度的变化和衣着的变化时，容易出现误拒率，在复杂背景条件下，也容易出现假警率。因此，基于行人外观的行人检测算法很难达到高性能。

目前的行人检测算法容易出现误拒率和假阳率的情况，为此，本文提出了一种基于时空梯度方向直方图与级联支持向量机的行人检测算法。考虑到行人不但具有行人的外观，而且运动特征也是具有一定周期性的，行人手臂和腿部运动呈现出一种周期性摆动的动作，该算法首先通过结合空间维度的行人的外观信息和时间维度上的运动信息作为特征[4,5]，采用级联支持向量机进行两层分类[6]，实现更高的检测精度。

2 相关工作

行人检测[5, 7-11]大致分为三个过程：运动目标检测、特征提取和识别行人。从监控视频中预测出行人可能出现的位置是视频监控中的行人检测的一个核心问题，为了解决这个问题，研究者们已经做了大量的研究，Gavrial[1, 10-12]在将轮廓形状作为行人特征之后，提出了一种基于倒角匹配算法的分层形状分类系统，而更多研究者们重点关注行人的外观特征描述子。Zhu[7, 12]等对HOG特征分块时，采用大小不一的分块方式，并且通过积分直方图对HOG特征进行计算，最后通过AdaBoosting算法对分类性能较强的块进行线性加权组合，形成分类性能较强的分类器，用于分类行人与其他物体。Ojala[1, 13]等提出了局部二值模式，根据纹理进行分类，这种特征在行人检测中并不常用，但是Mu[8, 13]等对行人特点进行了分析，提出了局部二值模式的两种变种方法：语义局部二值模式和傅里叶局部二值模式。通过将局部二值模式加入到梯度方向直方图中形成一个新的描述子，用于降低背景噪声的影响和部分遮挡问题，对于行人外观在尺度上发生较大变化时，Park[14]等提出将HOG特征结合地面约束条件[4]，去除一些行人到达不了的区域，比如天空、房顶、树顶等。Roth[15]等通过对目标对象和背景分别建立分类器，将检测到的前景物体通过两个分类器进行分类，计算相似度，将前景物体归类于相似度高的类别。

现有的许多行人检测算法都是使用行人的外观信息来描述行人特征，这种描述方式并不能很好地对行人进行检测，因为当行人发生姿势的变化或者是复杂背景下存在与行人类似形状的背景时，检测将会发生错误。一般的解决方法是通过引入大量的正负训练样本，通过够多的训练样本尽可能包含更多的行人类型，但是引入大量样本会导致过拟合现象的出现。本文通过将时间维度上的运动特征加入到行人外观特征上，由于在摄像头是固定的情况下，静止背景可以直接被过滤掉，对于运动的背景，可以根据运动背景的运动状态与定义好的行人运动状态进行比较，若低于一定的阈值，则认为是背景，否则认为是前景，再对前景目标采用级联支持向量机进行分类，从而去除一些非人的运动前景，以提高行人检测精度。

3 研究方法

时空梯度方向直方图用于描述行人的外观特征和运动特征，若背景与行人的外观相似时，可以结合运动信息来判断检测到的目标是行人还是背景，运动信息主要通过行人的手臂和腿部循环运动得到。一般地，当外观不相似时，通过级联SVM第一阶段分类，将其直接视为背景；当外观相似时，再对需要检测的目标的运动特征与定义好的行人运动特征之间做差值，通过级联SVM的第二阶段进行分类，如果大于给定阈值的话，则视为背景，否则视为行人[6, 16]。

3.1 时空梯度方向直方图

一个视频序列通常被认为是基于三维空间而存在的，静止背景不存在运动信息，可以直接过滤掉，对于运动的目标前景，可以将其分解到空间维度上的外观信息和时间维度上的运动信息，而对于非行人的运动物体而言，运动信息也不存在与行人类似的循环摆动的运动信息，检测到运动的行人时，该运动将会产生时间维度和空间维度上的对应向量，通过对应的向量信息代替行人的运动信息和外观信息，可以以较高的精度从监控视频中检测到行人。

(3)

空间维度上的梯度信息[1, 17]描述了行人的外观信息，时间维度上的梯度信息描述了行人的运动信息，可以将空间梯度信息和时间梯度信息以某种形式融合起来，形成一种更能描述行人信息的特征描述子[5, 16, 18]，其中每一个梯度的直方图都被划分成9个。本研究通过将时间梯度信息与空间梯度信息串联起来，形成一个时空梯度描述子[4, 19]，将所有时空梯度特征描述子输入级联支持向量机，进行目标分类。

3.2 级联支持向量机

级联支持向量机作为分类器使用，级联过程分为两个阶段，第一阶段根据正样本训练好行人的分类器模型，对视频中出现的每一帧，通过检测窗口定位法定位好检测区域，如果在检测窗口中检测出的特征与分类器中的行人特征不相同，则表示所检测的对象为背景或非行人前景，在第一次级联过程中将这种目标对象进行过滤，直接丢弃该帧。在第一次级联过程中，希望尽可能多地去除一些不相关的负样本区域。在第一次级联过后，只有少量的区域能够通过该次级联，对于一些类似行人特征的检测对象；在第二次级联阶段，对另外一批正样本进行训练，得到更加满足行人特征的行人检测分类器，通过该分类器对通过第一次级联的检测对象进行检测，从而提高行人检测的检测精度。图1为行人检测框架。

图1 行人检测框架

3.3 检测窗口定位法

对于从视频中提取到的图像帧，常用的方法是通过大小固定的滑动窗口以一个较小的步长对图像进行扫描，对扫描的图像进行特征提取，将提取的特征输入由正样本训练好的分类器中对该图像进行分类。在固定大小的扫描窗口中，可能会出现大部分不包含感兴趣目标的区域，而这些区域是可以不必扫描的，若采用固定大小的滑动窗口进行目标定位的话，可能会出现两个问题：一是扫描过多没必要扫描的窗口，加大了时间的消耗，影响行人检测效率；二是在如此多的扫描窗口中，有可能会因为误检而导致假阳率的升高，影响检测的精度[6, 20]。

本文提出的检测窗口定位法是基于地面几何约束的，对于行人而言，一般只会出现在地面上，而对于离地面较远的地方，比如天空、屋顶和树梢上，一般是不会出现行人的，所以采用地面几何约束可以去除一些离地面较远的图像部分，减少搜索范围，对于离地面较近的行人可能出现的区域采用跳跃滑动窗口的形式进行搜索，这可以通过局部特征块进行投票，能在一定程度上处理部分遮挡和多姿态问题，检测出目标对象之后，采用非极大值抑制的方式[9, 21]可以更加精确地得到行人目标。

4 实验结果与分析

本文实验的训练样本图像和测试样本图像均来自于INRIAPerson数据库(http://pascal.inrialpes.fr/data/human/)，实验所用的硬件为Intel Core i5 CPU 2.6GHz 2.6G，操作系统为Windows 8，内存8GB，软件平台使用Matlab 2013a。从INRIAPerson数据库中提取出来的图片通过级联支持向量机进行分类，判断出该图片是否包含行人，该数据库中包含的图片信息是通过现实生活中的一些生活照片拍摄而成，与监控视频中出现的图像具有较高的一致性。

4.1 检测窗口定位法

每一段视频中都会包含正负样本所对应的目标对象，从INRIAPerson数据库中提取了614张图像，手动标记为正样本集，部分正样本如图2所示；将1218张图像手动标记为负样本集，部分负样本如图3所示，将标记好的正负样本集作为输入，通过级联支持向量机训练行人分类器。

图2 训练行人分类器的部分正样本

图3 训练行人分类器的部分负样本

4.2 检测结果

本实验通过从INRIAPerson数据库中选取60张从视频监控中拍摄到的图片进行行人检测，利用级联支持向量机对样本进行训练，进行三组对比实验。实验结果如图4所示，其中(a)是利用基于HOG特征与SVM的行人检测算法检测结果，(b)是利用基于STHOG特征与SVM的行人检测算法检测结果，(c)是利用基于STHOG特征与级联SVM的行人检测算法检测结果。

通过实验得知，提取HOG特征通过SVM分类器进行分类时，分类效果并不好，既出现了漏检，也出现了误检的情况，因为仅仅提取HOG特征的话，只考虑到行人的外观与形状特征，当背景出现了和行人外观类似的情况，则很容易发生误检的现象；基于STHOG特征的行人检测，不仅考虑了行人的外观，也考虑了行人的运动信息，通过引入时间维度上的运动信息，可以去除一些与人外观类似的静止背景，从而降低假阳率；而将STHOG特征通过级联SVM进行分类时，能够在分类的第一阶段就去除大量不包含行人的背景，第二阶段将提取的前景根据STHOG特征进一步分类，可以降低漏检率，从而提高行人的检测精度。

在检测过程中，每幅图像的假阳率与漏检率以检测错误均衡曲线来表示，如图5所示。从中可见，在行人检测假阳率相同的情况下，基于STHOG特征与级联SVM的误检率更低；而在误检率相同的情况下，该方法的假阳率也更低，说明本文提出的方法对于提高行人检测精度具有肯定的意义。

图5 行人检测错误均衡曲线

5 结束语

本文提出了一种基于STHOG特征与级联SVM的行人检测算法，该算法首先通过提取行人空间维度上的外观特征与时间维度上的运动信息，对外观特征与运动特征进行融合，在通过分类器分类时可以去除静止背景和大量不包含行人任何部位的像素，再对提取到的前景通过级联SVM进行第二次分类操作，以提高行人的检测精度，但是存在一个行人在分类前预测出多个检测结果的情况，为此采用非极大值抑制方法对多个检测结果进行聚类，从而获得最终的行人检测结果。

本文提出的算法还存在很多不足，比如：对于存在遮挡的行人检测，需要引入基于部位的检测子；在最后提取阶段，聚类算法的好坏直接会影响到行人检测效率，因此需要进一步提出更好的聚类算法，这是未来需要解决的问题。

参考文献：

[1] 苏松志, 李绍滋, 陈淑媛,等. 行人检测技术综述[J]. 电子学报, 2012, 40(4): 814-820.

[2] Dalal N, Triggs B, Schmid C. Human Detection Using Oriented Histograms of Flow and Appearance[C]// European Conference on Computer Vision, 2006: 428-441.

[3] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C] // IEEE Conference on Computer Vision & Pattern Recognition, 2005: 886-893.

289例急诊血液送检标本中，有22例标本存在问题，占总样本的7.6%。其中患者姓名与标本信息不符有2例（9.1%）；肉眼可见微小凝块标本8例（36.4%），采血量与抗凝剂比例不当4例（18.2%），怀疑在输液时抽血标本3例（13.6%），用药或进餐后采血标本2例（9.1%），标本溶血3例（13.6%），结果见表1。

[4] Hua C, Makihara Y, Yagi Y, et al. Onboard monocular pedestrian detection by combining spatio-temporal hog with structure from motion algorithm[J]. Machine Vision & Applications, 2015, 26(2-3):161-183.

[5] Hua C, Makihara Y, Yagi Y. Pedestrian Detection by Using a Spatio-Temporal Histogram of Oriented Gradients[J]. Ieice Transactions on Information & Systems, 2013, E96.D(6): 1376-1386.

[6] Ding X, Xu H, Cui P, et al. A cascade SVM approach for head-shoulder detection using histograms of oriented gradients[C]//IEEE International Symposium on Circuits and Systems, 2009:1791-1794.

[7] Zhu Q, Yeh M C, Cheng K T, et al. Fast Human Detection Using a Cascade of Histograms of Oriented Gradients[C]// IEEE CVPR, 2006: 1491-1498.

[8] Mu Y, Yan S, Liu Y, et al. Discriminative local binary patterns for human detection in personal album[C]//IEEE CVPR, 2008:1-8.

[9] Su S Z, Liu Z H, Xu S P, et al. Sparse auto-encoder based feature learning for human body detection in depth image[J]. Signal Processing, 2015, 112(C): 43-52.

[10] Gavrila D M, Munder S. Multi-cue Pedestrian Detection and Tracking from a Moving Vehicle[J]. International Journal of Computer Vision, 2007, 73(1): 41-59.

[12] Gavrila D M. A Bayesian, Exemplar-Based Approach to Hierarchical Shape Matching[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 29(8):1408-1421.

[13] Ojala T, Harwood I. A Comparative Study of Texture Measures with Classification Based on Feature Distributions[J]. Pattern Recognition, 1996, 29(1):51-59.

[14] Dennis Park, Deva Ramanan, Charless Fowlkes. Multiresolution Models for Object Detection[C]//European Conference on Computer Vision, 2010: 241-254.

[15] Roth P M, Sternig S, Grabner H, et al. Classifier Grids for Robust Adaptive Object Detection[C]//IEEE Conference on Computer Vision & Pattern Recognition, 2012:2727-2734.

[16] Fardi B, Schuenert U, Wanielik G. Shape and motion-based pedestrian detection in infrared images: a multi sensor approach[C]//IEEE Intelligent Vehicles Symposium, 2005: 18 - 23.

[17] Marin J, Vazquez D, Geronimo D, et al. Learning appearance in virtual scenarios for pedestrian detection[C]// IEEE Conference on Computer Vision & Pattern Recognition, 2010:137-144.

[18] Wang H, Ullah M M, Kläser A, et al. Evaluation of Local Spatio-temporal Features for Action Recognition.[C]// British Machine Vision Conference, 2009.

[19] Viola P, Jones M J, Snow D. Detecting Pedestrians Using Patterns of Motion and Appearance[J]. International Journal of Computer Vision, 2013, 63(2):153-161.

[20] Yamauchi Y, Fujiyoshi H, Hwang B W, et al. People detection based on co-occurrence of appearance and spatiotemporal features[C]//IEEE International Conference on Pattern Recognition, 2008:1-4.

[21] Shuai B, Cheng Y, Li S, et al. A Hierarchical Clustering Based Non-Maximum Suppression Method in Pedestrian Detection[M]. Springer Berlin Heidelberg, 2012:201-209.

* 本文为国家社科基金一般项目，华侨大学科研启动项目，华侨大学研究生科研创新能力培育计划资助项目“基于监控视频的公共场合行人异常行为分析研究”的阶段性成果之一。