胡庆新,王磊
(合肥工业大学 计算机与信息学院 安徽 合肥 230009)
基于多特征的红外图像行人检测
胡庆新,王磊
(合肥工业大学 计算机与信息学院 安徽 合肥 230009)
基于提高红外图像行人检测准确率的目的,提出了一种基于多特征的红外行人检测算法。首先提取训练样本的梯度方向直方图特征和强度自相似性特征,利用二者相结合得到联合特征训练支持向量机(SVM),之后利用滑动窗口法対整幅红外图像进行遍历,用训练好的SVM进行分类检测。在LSI Far Infrared Pedestrian Dataset数据库上实验证明,基于多特征的检测方法相较于单一特征的方法提高了红外行人检测的精度,降低了误检率和漏检率。
红外行人检测;梯度方向直方图;强度自相似特征;支持向量机
行人检测就是把图像中出现的行人从背景中分割出来并精确定位,行人检测是计算机视觉领域的研究难点与热点[1]。红外图像相较于可见光图像而言具有明显的优势,一般而言,红外图像中的行人的亮度比背景的亮度要高,且几乎不受肤色,纹理和阴影等因素的影响,红外图像中对行人目标的识别检测在军事侦察、安全监控、辅助驾驶、机器视觉等领域有着重要的应用。因此,红外图像中的行人检测具有重要的研究价值和意义。
经过多年的研究,研究者们已经提出了多种多样的检测方法,针对红外图像特点,许多利用了基于阈值分割的方法来进行红外图像中行人的检测[2],通过构建行人模板来进行行人检测[3],利用特征提取和机器学习来进行行人检测[4]。
在可见光图像行人检测领域,Dollar[1]对于 16种最流行的行人检测算法进行了分析研究和性能比较,发现 Stefan Walk[5]提出的颜色自相似性特征(Color Self-Similarity,CSS)同经典的HOG特征[6]相结合取得的检测效果较好,受到CSS特征的启发,Alina Miron[7]提出了适用于红外图像行人检测的强度自相似特征(Intensity Self-Similarity,ISS),本文中我们考虑结合ISS特征和经典的HOG特征,利用多特征训练支持向量机,进行红外图像中的行人检测。
基于多特征的红外图像行人检测主要分成训练和检测两个阶段,在训练阶段分别提取正负样本的ISS特征和HOG特征,对SVM进行训练;在检测阶段,对于输入的待检测图片,进行滑动窗口遍历,对于遍历得到的子图片提取其ISS特征和HOG特征,利用训练好的SVM对其进行判别,经过窗口合并输出检测结果。原理框图如图1所示。
图1 本文算法原理框图Fig.1 The diagram of this algorithm
2.1 强度自相似性特征
通过对红外图像的大量观察,我们发现在一幅包含行人的红外图像中,头部区域和人体的四肢的像素值具有较高的相似性,而人体的躯干部分由于受到衣物遮挡等原因的影响,所辐射出的热量值较未受遮挡的区域要低,所表现出的像素值偏低。基于此,我们利用强度自相似性特征[7](Intensity Self-Similarity,ISS),将其用于红外图像行人检测领域中。图2是红外图像中行人可视化强度自相似性效果图,展示了人体的相似度信息,将行人样本图片分成若干个区域,在图中标定了4个区域(头部,躯干,四肢,背景),可以看出各个区域对应的相似度效果图,在对应区域的效果图中,其他区域亮度越高,则说明与标定区域越相似。
图2 强度自相似性可视化效果图Fig.2 Visualized images of Intensity Self-Similarity
首先,将一幅包含完整行人的样本图片分成n个固定大小的区域cell,统计各个cell的直方图信息。
之后对两两cell之间的直方图进行相似度的对比,这样就获得了一个关于相似度的n*(n-1)/2维的向量,对于两个直方图H1和H2相似度的计算常用的方法有以下几种:
关于相似度的计算,考虑到我们要处理的数据量较大,所以只利用了卡方系数和相交系数这两种方式进行了试验,最后发现相交系数这种相似度比较方法计算简单且实验结果较好。
2.2 梯度方向直方图特征
Dalal[6]在2005年提出了梯度方向直方图特征(Histogram of Oriented Gradients,HOG),人体的局部形状能够通过局部梯度强度的分布和边缘方向很好地表现出来。下面针对我们样本的HOG特征提取进行介绍。
首先,利用[-1,0,1]模板计算样本图像的梯度表示,求出每个像素点的梯度模值和方向,其中Gx(x,y)表示横向梯度,Gy(x,y)表示纵向梯度,I(x,y)表示原始图片。
其次,将大小为32×64的样本按照8×8像素的单元(cell)进行划分,从而得到了32个cell,将梯度方向(0°-180°)分成9个区间(bins),各像素点的角度信息由θ(x,y)确定,各像素点的梯度幅度由G(x,y)确定,统计各个cell中每个像素点的方向,以此为投票依据,以梯度幅值为投票权重,得到每个cell的梯度方向直方图。
之后,令相邻的cell(2×2)组成一个块(block),相邻block之间有一半的区域是重叠的。将block中的4个cell的梯度方向直方图串联起来,利用L2-norm范式进行归一化,得到block的梯度方向直方图特征。
最后将所有的block的梯度方向直方图特征串联起来就得到了我们整幅样本图像的HOG特征。
本实验的数据集采用的是Daniel[8]等人提供的LSI Far Infrared Pedestrian Dataset。数据集分为两个部分Classification dataset和Detection Dataset。在我们的实验当中,训练集和测试集均选自 Classification dataset数据集,我们从中随机挑选了2 384张正样本和3 190张负样本分别作为我们训练集的正负样本,挑选了1 506张正样本和2 877张负样本分别作为我们测试集的正负样本。图3是我们选取的部分正负样本图片,其中第一行是部分正样本,第二行是部分负样本。
图3 部分正负样本图片Fig.3 Several positive and negative samples
在提取样本图像的ISS特征阶段,我们首先要考虑将32×64 pixels大小的样本图片分成若干个cell。对于cell大小的选取有以下3个方案2×2 pixels,4×4 pixels,8×8 pixels。cell大小为2×2时,样本被分成了512个cell,最终的特征向量维数将超过10万维,维数过大,因此不选取这种方式。cell大小为4×4时,样本被分成了128个cell,最终的特征向量维数为8 128维。cell大小为8×8时,样本被分成了32个cell,最终的特征向量维数为496维。所以,我们就主要对4×4和8×8两个方案进行比较。在8×8的方案中,又考虑到cell重叠的影响,将8×8的方案又分为两个子方案,即相邻cell无重叠和相邻cell重叠一半,无重叠时分成的cell个数是32个,最后的向量维数为496维,重叠一半时分成的cell个数是105个,最后生成的向量维数是5 460维。
为了直观的显示不同大小cell对实验结果的影响,我们采用DET(detection error tradeofff)曲线来进行分析,DET曲线即对数尺度下的误检率(FPPW,False positive per window)对漏检率(Miss Rate)曲线,横坐标表示误检率,纵坐标表示漏检率。计算方法如下所示:
其中,FP(False Positive)表示被预测模型预测为正的负样本,TN(True Negative)表示被预测模型预测为负的负样本,FN(False Negative)表示被预测模型预测为负的正样本,TP (True Positive)表示被预测模型预测为正的正样本。
在误检率相同的情况下,漏检率越低,则正确检测率就越高,表现在DET曲线上,即曲线越低越好。由于我们的测试集图片样本数据在10-3级别,所以主要在误检率FPPW为10-3级别进行分析讨论,图4(a)中表明了cell大小的影响,在FPPW为10-3时,cell大小为4*4时的漏检率为10.42%,cell大小为8×8,且cell无重叠时的漏检率为15.94%,cell大小为8×8,且cell有一半重叠时的漏检率为17.66%,因此,对于cell大小的选取定为4×4 pixels,这样也就确定了最终的ISS特征向量维数为8 128维。
在ISS特征提取的第二个问题是统计cell中的直方图信息,此处的直方图是对0~255这个灰度值范围进行划分,分成8个区域(8bins),16个区域(16bins),32个区域(32bins),对处在这些区域的像素个数进行统计。如图4(b)所示,在FPPW为10-3时,bins大小为8时的漏检率为15.8%,bins大小为16时的漏检率为10.36%,bins大小为32时的漏检率为9.429%,在此综合考虑到ISS特征的向量维度较大和漏检率的影响,所以对于bins大小的选取我们定为16。
在ISS特征提取的第3个问题是计算cell直方图的相似度方法的选取。如图4(c)所示,在FPPW为10-3时,用相交系数得到的漏检率为10.42%,用卡方系数得到的漏检率为21.98%。相交系数方法漏检率明显低于卡方系数,所以最终选择利用相交系数来进行cell直方图相似度的计算。
图4 关于ISS特征的不同参数选取的DET曲线Fig.4 DET curves of different parameter selection of ISS feature
最后对相似度再统一进行归一化,就得到了最终要求的ISS强度自相似性特征。此外,还针对ISS特征适用分类器进行了讨论分析,本文我们采用SVM作为本实验的分类器,这就涉及到了SVM核函数的选取,在图4(d)中我们选取线性核和RBF核来进行支持向量机性能的比较,在FPPW为10-3时,使用线性核的漏检率为14.48%,使用RBF核的漏检率为10.42%。所以选择RBF核SVM来进行分类实验。
最后我们将得到ISS特征和HOG特征串联起来,得到联合特征向量,如图5所示,在FPPW为10-3时,联合特征的漏检率为0.79%,HOG特征的漏检率为2.52%,ISS特征的漏检率为10.42%。结果显示利用联合特征方法对于检测率的提高有明显的增加,在测试集中的实验检测精度高达99.78%。
在整幅图片上进行行人检测时,采用滑动窗多尺度遍历图片的方法进行检测,对检测窗口进行缩放,缩放比例设为1.2,这是针对行人尺度大小不同而进行的必要工作,会导致对同一目标产生多个检测结果,在此引入检测窗口的合并。当两窗口相交的面积与两窗口面积的比值均大于0.7时,计算两窗口的平均位置和平均大小,融合检测窗口,最后就得到了最终的检测结果。部分检测结果如图6所示。
图5 3种算法的DET曲线Fig.5 The DET curves of three algorithms
图6 部分检测结果Fig.6 Several detection results
文中通过结合红外图像中行人的轮廓和强度相似性等信息,提出了一种基于HOG和ISS特征的红外行人检测算法,检测精度得到了明显的提高。但本算法也有以下不足,首先联合特征的维度较高,不利于算法的实时性;其次,在检测整幅图片的时候利用的是滑动窗口法,窗口将遍历很多不包含行人的区域,这同样造成了大量时间的浪费,不利于算法实时性。在今后我们要寻找可靠有效的感兴趣区域提取方法,对行人可能存在的区域进行简单的粗定位,再在特定区域进行遍历特征提取分析,相信这将大大提高本算法的实时性。
[1]Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:An evaluation of the state of the art[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(4):743-761.
[2]高晶,孙继银,刘婧,等.基于区域模糊阈值的前视红外目标识别[J].光学精密工程,2012,19(12):3056-3063.
[3]杨阳,杨静宇.基于显著性分割的红外行人检测[J].南京理工大学学报,2013,37(2):251-256.
[4]Li W,Zheng D,Zhao T,et al.An effective approach to pedestrian detection in thermal imagery[C]//Natural Computation(ICNC),2012 Eighth International Conference on.IEEE,2012:325-329.
[5]Walk S,Majer N,Schindler K,et al.New features and insights for pedestrian detection[C]//Computer vision and pattern recognition(CVPR),2010 IEEE conference on.IEEE,2010: 1030-1037.
[6]Dalal N,Triggs B.Histograms of oriented gradients forhuman detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.
[7]Miron A,Besbes B,Rogozan A,et al.Intensity self-similarity features for pedestrian detection in far-infrared images[C]//Intelligent Vehicles Symposium(IV),2012 IEEE.IEEE,2012: 1120-1125.
[8]Olmeda D,Premebida C,Nunes U,et al.Pedestrian Classification and Detection in Far Infrared Images[J].Integrated Computer-Aided Engineering,2013(20):347-360.
Pedestrian detection in infrared images based on multi-features
HU Qing-xin,WANG Lei
(Hefei University of Technology,School of Computer&Information,Hefei 230009,China)
In order to improve the accuracy of pedestrian detection in infrared images,an infrared pedestrian detection method is proposed in this paper.Firstly extract train samples′Histogram of Oriented Gradients feature and Intensity Self-Similarity feature,combine these two features to train support vector machine(SVM),then use sliding window method to traverse an infrared image,the trained SVM is used to classification and detection.Experiments in LSI Far Infrared Pedestrian Dataset prove that based on multi-features method compared with based on single feature method improve infrared pedestrian detection accuracy,reduce the false positive rate and miss rate.
infrared pedestrian detection;histogram of Oriented Gradients;Intensity Self-Similarity;Support Vector Machine
TP391.4
A
1674-6236(2016)04-0182-04
2015-03-24 稿件编号:201503325
胡庆新(1965—),男,河北邯郸人,硕士,副教授。研究方向:信号与信息处理,图形图像处理。