复杂背景下红外人体目标检测算法研究

2017-03-26 11:51胡谋法

红外技术 2017年11期

马也，常青，胡谋法

复杂背景下红外人体目标检测算法研究

马也，常青，胡谋法

（国防科技大学电子科学与工程学院ATR重点实验室，湖南长沙 410073）

红外图像信噪比和对比度较低、缺乏颜色纹理信息、目标周围有光晕效应、边缘模糊，这些缺点对红外图像中人体目标检测提出了挑战。本文对复杂环境下红外图像序列中运动人体目标检测技术进行研究。首先采用基于改进的混合高斯模型（Gaussian mixture model，GMM）的背景减除法对人体目标进行分割，通过多个带有权值的高斯过程来描述复杂变化的背景，对模型个数、权值、学习率进行更新。然后对分割得到感兴趣区域（Region of interest，ROI）采用融合边缘方向累加和特性的梯度方向直方图（Accumulation of oriented edge and histogram of oriented gradient，AOE-HOG）进行特征描述，利用支持向量机（Support vector machine，SVM）实现对人体目标分类检测。实验表明，本文算法能够在复杂场景下正确检测出人体目标，对于多目标距离较近甚至有部分粘连的情形，也具有较好效果。

红外图像；人体检测；混合高斯模型；边缘方向累加和；梯度方向直方图；支持向量机

0 引言

人体目标检测是目前计算机视觉领域热点研究课题，在智能视频监控、车载辅助驾驶、机场安防等领域都有广泛应用前景。人体姿态多样、形状大小不一，是典型的非刚体目标，并且目标遮挡、粘连、重叠和背景干扰等状况非常常见，再加上红外图像本身特性，使得快速准确检测出红外图像序列中人体目标难度较大。

人体目标检测主要分为ROI分割过程和分类检测过程[1]。红外图像序列ROI分割方法主要有光流法[2]、帧差法[3]和背景差法[4]。光流法建立各个像素点的速度矢量特征，根据光流矢量的连续变化情况，确定运动目标的位置、数量和运动速度等信息。光流法对噪声敏感、运算量大、实时性较差，常用于理论分析。帧差法对图像进行时域差分，提取图像中的运动目标区域或目标轮廓，适用于目标运动速度较快或对分割精度要求不高的情况。背景差法利用当前帧图像与参考背景进行差分，检测速度依赖于背景建模，并且对光照和干扰目标比较敏感，需要提高背景建模的实时性和鲁棒性。

人体目标分类检测的常用方法有：基于模版匹配[5]的方法、基于目标运动信息的识别[6]方法和基于目标特征提取分类[1]的方法。基于模版匹配的方法由于所需的模板库庞大，且泛化能力较差，实现比较困难。而基于目标运动信息的方法运算量大，且易受噪声和干扰目标影响，应用范围有限。目标特征提取分类的方法通过提取目标的某些特征来对目标进行描述，由于泛化能力好而得到人们关注，比较经典的目标特征描述方法有：局部二值（LBP）特征[7]、Haar-like特征[8]和HOG特征等[9]。LBP特征是一种用于纹理分类的特征提取方法，当图像比较模糊或者光照变化强烈时，LBP特征难以有效描述人体目标纹理特征。Haar-like特征最早应用于人脸检测，只能描述特定走向（水平、垂直、对角）结构。但由于红外图像的质量通常较差、图像模糊，关键点并不明确，使得关键点检测算法难以准确检测出目标。而HOG特征通过扫描窗口对待检测图像进行密集扫描并计算梯度方向，梯度特征是红外图像中比较稳定的特征，对红外人体目标检测准确率较高，但实际应用中还需要进一步解决红外图像带来的特异性缺陷。

红外成像虽然使得阴影、光照突变、环境光和夜间可视性等影响传统计算机视觉的关键问题得到有效解决，但是对比度低、边缘模糊、信噪比低、噪声大、缺乏色彩信息以及成分复杂等特点也使得其面临特有的挑战。针对复杂背景下红外序列图像中人体目标检测，本文提出了一种有效的改进算法，采用基于改进的GMM人体目标分割和基于AOE-HOG特征的人体检测方法在一定程度上提高了实时性和准确性。本文首先采用自适应更新GMM个数算法，对红外图像序列中ROI进行分割，得到人体候选目标；然后对候选目标提取AOE-HOG特征；对包含人体目标和非人体目标的训练样本进行训练，得到基于核函数映射的SVM分类器，根据AOE-HOG特征对目标进行分类；最后根据分类结果剔除非人体目标，筛选出人体目标。算法流程图如图1所示。

图1 算法流程图

1 基于改进GMM的人体目标ROI分割

通常情况下，人体温度恒定且比周围环境的温度要高，因此红外图像中人体亮度比背景亮度要高，并且通常保持稳定。对于较为单一场景，例如开阔地带、空天等，可以采用帧差法和区域阈值法等较为简单直接的方法；而针对变化大、干扰目标多的复杂场景，比如水面波纹、树叶摆动等，红外图像序列中对应像素的灰度值变化范围更大，这时常使用背景差法提取前景目标，而GMM是背景建模的经典方法之一。GMM对存在小幅度周期运动的复杂背景适应性较好，例如喷泉、摇动的树枝、飘动的旗帜以及波动的水面等情况，可以抑制动态背景对目标检测的影响。

1.1 经典GMM

最早提出的GMM是利用多个状态描述每个像素点在不同时刻的灰度值来对背景建模，将待检测像素点的灰度值与多个状态的灰度值比较，判断待检测像素点是前景目标还是背景[10]。

定义某个高斯分布出现的概率与其方差的比值，作为判断目标像素点的度量，用公式表示为：

＝,t/,t(3)

因为背景点比起前景点更稳定、出现次数更多，因此背景点对应的高斯分布会有较小方差和较大权值。当比值大时，说明这个高斯分布更有可能表示背景像素点；反之，则表示可能为目标像素点。将个高斯分布按照值的大小进行降序排列。设选取前个高斯分布描述背景，则有：

如果该点像素值满足这一不等式，则判定此点匹配该高斯分布，将其判定为背景像素点；如果不匹配所有的高斯分布，则判定该点属于目标像素点。对某一帧的所有像素点都进行匹配，得到的所有目标像素点构成的集合就是可能的人体目标。最后根据匹配结果对模型进行更新，更新策略为：

1）如果该点像素匹配一个或者一个以上的高斯分布，则判定该点属于背景像素点。模型更新用公式组表示为：

式中：∈[0, 1]为学习率，＝/,t为权值更新率，表示高斯分布中各参数更新快慢程度，I表示当前时刻任意像素点像素值。

2）如果该点像素值与所有高斯分布都不匹配，则判定该点属于目标像素点，并按照当前像素灰度值产生新的高斯模型（均值0即为像素灰度值，方差为02，并选取较小权值），替换权值最小的高斯分布。对其余－1个高斯模型仅更新权值，保持均值和方差2不变，表示为：

1.2 改进的GMM

经典GMM的高斯模型个数是确定的，通常取3～5。实验发现，设定＝3难以满足干扰目标较多、有多个前景目标或者目标运动较快的情况，分割结果往往带有很多噪声点，甚至条状分布的虚假目标，不利于后续分类检测；而设定＝5时，对较为简单的运动场景却耗时过长，难以满足实时性需求。原因在于，高斯模型个数不变时，背景大部分像素点变化很小，每次更新都会有高斯模型与该背景像素点相匹配，导致其权值逐渐变大，而不匹配的高斯模型权值会逐渐变小。所以当高斯模型个数固定时，每个高斯模型对于没有变化的背景像素点都进行了无效的更新，更新策略冗余导致耗时过长。因此，本文采用自适应更新GMM个数的算法，快速高效地训练背景模型，提取背景图像，保证分割效果较好的同时可以提高实时性。

自适应更新GMM个数在初始时对每个像素点只分配一个高斯模型，接下来进行模型匹配时，如果能够与该模型匹配，那么保持该高斯模型不变；如果不能与该模型匹配，则需要判断模型个数是否达到所设定的极限值（为适应复杂场景，设定极限值＝5），如果未达到极限值，则新增加一个高斯模型，如果达到极限则用新的模型替换权值最小的高斯模型。更新完成之后，利用公式(3)，按照的大小进行排序，再利用公式(8)对权值进行归一化处理。改进的GMM算法流程图如图2所示。

采用改进算法得到的结果如图3所示，图a为第330帧原始灰度图像，采用设定经典GMM个数＝3不变，得到的分割结果含有很多背景像素点（图b），耗时为1.786 s/帧；而设定＝5不变时，得到的结果较好（图c），但是耗时为5.436s/帧，难以满足实时性需求。采用改进的GMM，设定模型极限值为＝5，得到的分割结果包含背景像素点较少，且目标轮廓清晰准确（图d），耗时为0.782s/帧。实验结果证明，改进算法能够大大减小背景更新幅度，减少计算量。

2 基于AOE-HOG特征的人体检测

由于复杂背景的变化，前述ROI分割得到人体候选目标可能含有虚假目标，需要通过特征提取、分类进一步判断候选目标是否为人体目标。

2.1 HOG特征

HOG特征通过计算、统计图像局部区域的梯度方向直方图来构成特征，能够很好地描述局部目标的形状和表象，常结合SVM应用于图像识别。HOG特征构建过程如下：

图2 改进的GMM算法流程图

图3 经典GMM和自适应更新GMM分割结果对比

1）计算灰度图像梯度

首先定义图像中像素点(,)的像素灰度值、水平方向梯度和垂直方向梯度分别为：(,)、G(,)和G(,)，则(,)处的梯度幅值和梯度方向表示为：

式中：

2）为每个细胞单元构建HOG

把训练样本图像分割为若干个像素的单元（cell），把梯度方向平均划分为9个区间（bin），在每个单元里面对所有像素的梯度方向在各个方向区间进行直方图统计，得到一个9维特征向量。每相邻4个单元构成一个块（block），把一个块内的特征向量联起来得到36维特征向量，用块对样本图像进行扫描，扫描步长为一个单元。

3）特征串联

最终得到一个高维度向量**，、、分别表示每个区间中细胞单元的数目、每个细胞单元中像素点的数目、每个细胞的直方图通道数目。

4）HOG特征向量归一化

对每一个块内的HOG特征向量进行归一化，用公式表示为：

式中：表示特征向量，||||表示范数（通常＝1,2），为了避免分母为零无意义，加入一个较小的正数。

HOG特征与其他特征描述方法相比有以下优点：第一针对图像局部方格即细胞单元进行提取的HOG特征具备几何和光学不变性；第二是经过对各细胞单元归一化后，对人体轻微肢体动作的包容性较强，可以忽略而不会影响检测效果；第三是HOG特征对空域抽样、方向抽样不敏感，只要人体大体上能够保持直立的姿势，不会影响检测结果。综合考虑，HOG在图像中人体目标检测有较强适用性。

本文采用1570幅128×64像素大小的灰度图像作为训练样本，其中人体目标470个，非人体目标1100个。把每幅图像的每8×8像素组成一个单元，每2×2个单元组成一个块，因为每个单元有9维特征，所以每个块内有4×9＝36维特征，以8个像素为步长，则水平方向将有7个扫描窗口，垂直方向将有15个扫描窗口。也就是说，128×64像素大小的图片总共有4×9×7×15＝3780维特征。

2.2 AOE-HOG特征提取

Dalal[9]最早将HOG特征用于可见光图像中的人体目标检测，识别正确率较高，但对红外图像中目标接近、粘黏和部分遮挡情况的适应性较差；而对于多个人体目标的场景，存在漏警现象，降低了识别的正确率。考虑到红外图像中纹理细节较少，而人体目标边缘特性带来的有效信息非常重要，能够降低局部噪声的影响，因此本文引进边缘方向累加和这一统计特性描述边缘信息。边缘方向累加和是图像边缘在各个方向的概率统计累加结果，因此能够利用ROI的边缘信息来检测红外图像中非刚性的人体目标。经过验证，本文融合边缘方向累加和特性对HOG特征进行改进，能够明显提高运动人体目标识别的正确率。

边缘方向累加和的算法具体如下：

2）卷积运算提取边缘信息。将每一幅训练图像与5个卷积核分别进行卷积滤波，每个卷积核对应生成一幅滤波后图像，因此共有5幅滤波后图像。

3）将滤波后每幅图像各像素灰度值进行各自累加，得到5个标量，作为边缘方向累加和特性。

4）对边缘方向值进行归一化。采用的归一化因子为像素灰度值的最大值。由此生成一个5维特征向量，并与HOG特征的3780维特征向量进行特征串联，形成一个3785维的特征向量。

利用经典的HOG特征和AOE-HOG特征进行人体目标分类的结果如图4所示。实验结果证明，增加边缘方向累加和特性后能够更好地描述红外图像人体目标的特征，对边缘特性较差的目标有更准确的分类结果，提高了分类正确率；由于改进方法仅增加了5维特征，因此耗时没有明显增加。

图4 采用经典HOG特征和AOE-HOG特征提取人体目标的结果对比

2.3 采用SVM进行目标分类检测

SVM[11]是一种有监督的机器学习方法，通过构建分类界面实现对目标区域的分类，即采用一系列的正负训练样本对分类器进行监督训练，求出最优的分类决策函数。SVM以结构化风险最小化为原则，在选择分类模型和模型参数上兼顾训练误差和测试误差最小化。

而在实际问题中，很多都是非线性可分的情况，这时需要放宽约束条件，引入松弛变量≥0，＝1, 2,,，此时最优超平面的目标函数为：

式中：定义为惩罚参数。目标函数的第一项为最大化分类间隔，第二项为分类造成的错误代价，此时问题转化为使得目标函数最小化。

对于人体目标检测这一非线性可分问题，可以通过适当的核函数将多维向量映射到更高维的空间，来建立一个有最大间隔的超平面，这个最优超平面即作为分类决策函数。核函数是一个对称函数:R×R®，将2个R空间中的维向量映射为一个实数，计算高维空间中的点积得到：

式中：:R®R。本文采用在实际应用性能更优的径向基核函数作为支持向量机的内积函数[12]，公式为：

式中：为核参数。在训练样本集的选取上，选取多种形态动作的人体目标和一些相似程度较高的干扰目标，来增加多样性，确保分类算法健壮。

经过以径向基核函数为内积函数的SVM分类后，进行交叉验证（Cross validation，CV）验证分类器性能。本文选用K-folder CV进行验证[13]：将训练样本均分为个子集进行交叉比对测试，考察其分类平均准确率。将1100个非人体目标样本和470个人体目标样本随机分成8～12组进行验证，得到不同分组情况下的平均耗时和平均准确率。综合耗时和准确率考虑，选取10组作为交叉验证组数较为合理，平均耗时为5s左右。此时，确定惩罚参数C的最佳值为128，核参数最佳值为＝4，交叉验证平均准确率接近99.9%。

通过训练样本建立SVM分类器，将ROI提取得到的特征向量作为SVM分类器的输入，根据输出判别结果判断其是否为人体目标。

3 实验与结果分析

本文选取OTCBVS测试数据库中6个室内外场景的红外视频源，包含多个人体、楼道、窗户、天花板、顶灯、树林、草地、车辆等多种目标，并且多个人体目标有分隔距离较大、分隔距离较小、粘连、部分遮挡、目标穿越遮挡物等多种情况。这些视频对人工场景和自然场景具备一定代表性，贴合实际中的复杂场景。

在Intel Core i7-7500U CPU 2.70GHz处理器上安装64位Windows10操作系统，运行Matlab R2016b版本软件，程序读取同一红外图像序列，将分割出的ROI归一化为128×64像素大小后分别提取经典HOG特征和AOE-HOG特征，然后使用参数为(,)＝(128, 4)的径向基核函数SVM进行分类。得到实验统计结果如表1所示，正确率和平均耗时结果对比分别如图5、图6所示。部分实验结果例图如图7所示。

实验结果表明，对红外图像采用基于改进的GMM的背景减除法对红外图像进行分割，提取AOE-HOG特征后进行分类识别，虚警率低于3.5%、漏警率低于3%，准确率在97%以上，平均耗时较低。证明本文的人体目标检测算法能够在复杂场景下正确检测出人体，对于目标距离较近（图7(a)）、多个目标同时检测（图7(b)）、部分目标粘连（图7(c)）、部分目标遮挡（图7(d)）和车辆行驶干扰（图7(e)）、穿越遮挡物干扰（图7(f)）的情形有较好效果。

表1 不同测试集的人体检测结果

图5 HOG和AOE-HOG的正确率结果对比

图6 HOG和AOE-HOG的平均耗时结果对比

图7 基于AOE-HOG特征的三个测试集人体目标检测结果例图

4 结论

本文针对红外图像中的人体目标检测技术进行研究，采用基于改进的GMM的背景减除法进行人体目标分割，取得了较好的效果。在有树叶摆动等微小目标干扰的复杂环境下具备较强的抗干扰能力。针对人体目标形态多变的特点采用AOE-HOG特征来描述人体目标，用支持向量机对人体目标和非人体目标进行分类。实验结果表明，本文提出的人体目标检测方法，能够在复杂场景下正确检测出人体，且平均耗时较低。但本文算法对于人体被遮挡部分较多、异常成像导致图像缺失、多个目标发生重叠时的情况还未能有效解决。实验结果中虚警和漏警也集中出现在目标被遮挡和多个目标重叠的情况。

[1] 苏松志, 李绍滋, 陈淑媛, 等. 行人检测技术综述[J]. 电子学报, 2012, 40(4):814-820.

SU Songzhi, LI Shaozi, CHEN Shuyuan, et al. A survey on pedestrian detection[J].2012, 40(4): 814-820.

[2] Enkelmann W. Investigations of multigrid algorithms for the estimation of optical flow fields in image sequences[J]., 1988, 43(2):150-177.

[3] Lipton A J, Fujiyoshi H, Patil R S. Moving Target Classification and Tracking from Real-time Video[C]//, 1998: 8.

[4] Seki M, Fujiwara H, Sumi K. A Robust Background Subtraction Method for Changing Background[J]., 2000: 207-213.

[5] Liu T L, Chen H T. Real-Time Tracking Using Trust-Region Methods[J]., 2004, 26(3): 397-402.

[6] Hampapur A, Brown L, Connell J, et al. Smart video surveillance: exploring the concept of multiscale spatiotemporal tracking[J]., 2005, 22(2):38-51.

[7] Oren M, Papageorgiou C, Sinha P, et al. Pedestrian Detection Using Wavelet Templates[C]//, 1997: 193.

[8] Ojala T, Harwood I. A Comparative Study of Texture Measures with Classification Based on Feature Distributions[J]., 1996, 29(1): 51-59.

[9] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]//., 2005: 886-893.

[10] Stauffer C, Grimson W E L. Adaptive Background Mixture Models for Real-Time Tracking[C]//,, 1999: 252.

[11] C J. Burges. A Tutorial on Support Vector Machines for Pattern Recognition[J]., 2010, 2(2): 121-167.

[12] 王鹏, 朱小燕. 基于RBF核的SVM的模型选择及其应用[J]. 计算机工程与应用, 2003, 39(24): 72-73.

WANG Peng, ZHU Xiaoyan. Model Selection of SVM with RBF Kernel and its Application[J]., 2003, 39(24): 72-73.

[13] Vapnik V, Chapelle O. Bounds on error expectation for support vector machines[J]., 2000, 12(9): 2013-2036.

Research on Infrared Human Detection from Complex Backgrounds

MA Ye，CHANG Qing，HU Moufa

(,410073,)

Infrared images have disadvantages such as low signal-to-noise ratio and contrast, a lack of color texture information, and a halo effect around target and blurry edges. These factors pose challenges for detecting humans in infrared images. This study focuses on human detection technology used for infrared image sequences in complicated environments. Specifically, we use a background subtraction method to segment a human-body target based on a modified Gaussian mixture model. First, we use multiple Gaussian processes to simulate the complex changes in the background with the appropriate weight values. These processes also update the number, weight values, and learning rate of the Gaussian model. We then use the fusion of the accumulated oriented edges and a histogram of oriented gradient characteristics to describe the region of interest. Finally, we employ a support vector machine to classify the human targets precisely. Experiments show that the algorithm can detect human targets accurately in complex backgrounds and that it generates good results on multiple objects,near in distance, and even some of havingadhesion multiple objects, near distance, and even some of the adhesion.

infrared image，human detection，GMM，AOE，HOG，SVM

TP391.4

1001-8891(2017)11-1038-07

2017-04-15；

2017-06-28.

马也（1994-），男，四川西昌人，硕士研究生，主要研究方向为信息与通信系统。E-mail：bigmaye@qq.com。