朱 龙,战荫伟
(广东工业大学 计算机学院,广东 广州 510006)
基于局部二值模式和四元数的行人检测
朱 龙,战荫伟
(广东工业大学 计算机学院,广东 广州 510006)
局部二值模式(LBP)特征具有光照不变性、旋转不变性及计算简单等特性,能有效表示行人特征,广泛应用于行人检测。LBP 特征的提取方法通常基于灰度图像,如果用于彩色图像,则没有充分考虑各通道之间的相关性,不能保证行人检测的准确性。为此,对彩色图像的红、绿、蓝三通道的LBP 特征,以四元数的形式表示,利用四元数的性质,提出一种P-LBP特征,再利用k-最近邻算法训练分类器。该方法在INRIA数据集上进行实验,与HOG、S-LBP、F-LBP、HOG-LBP特征进行比较,具有更好的效果。
行人检测;局部二值模式;四元数;k-最近邻算法
随着信息技术的发展,视频监控系统被广泛应用于人们生活工作中(如城市公路、大型商场、居民小区等)。行人检测是视频监控中一个重要的环节,是实现身份鉴定和行为分析的基础。因为行人的多样性(如衣着、姿态、外形等)与环境的易变性(如光照变化、树枝摆动等),行人检测一直是计算机视觉中的研究难点。
目前最流行的行人检测方法是基于特征的机器学习方法。该类方法首先对样本图像提取特征,然后利用机器学习的方法训练分类器,最后使用分类器对目标图像进行检测。提取一个能有效描述行人的特征是确保检测精度的关键,近年来对特征提取的研究有了大量的成果。Papageorgiou[1]首先提出使用 Haar-like特征来描述行人,用水平、垂直和对角3个方向的小波在不同尺度上提取特征,构成特征模板,该模板在整幅图像上的全部特征值构成了Haar-like特征。为了得到更加精确的特征,Viola和Jones[2]进一步对Haar-like特征进行了扩展,增加了在旋转45°角方向上的特征。Dalal等[3]在2005年提出的方向梯度直方图(HOG)是目前广泛使用的行人特征描述子。将图像窗口分为一些小的空间区域(单元格),对每一个单元格,计算出关于它的像素的梯度方向或边缘方向的一维直方图,这些直方图的联合就构成了HOG 特征。它对光照变化和小量的偏移有很好的鲁棒性,能有效地刻画出人体的边缘特征。HOG特征因为维度高、计算量大使得检测速度较慢。Wojek等[4]采用并行计算,在GPU上实现HOG,大大提高了检测速度。Mu 等[5]根据行人的特点,提出了Semantic LBP(S-LBP)和Fourier LBP(F-LBP)。S-LBP利用几何特征降低了LBP的维度,提高了计算速度;F-LBP将空域问题转换到频域,并通过去除高频进行压缩,降低了计算的复杂度。Wang等[6]提出了以HOG-LBP 联合特征来训练分类器进行行人检测,并且通过利用全局分类器和局部分类器有效解决了部分闭塞问题。Wu[7]等人提出描述局部形状的Edgelet 特征,它记录一段长为k的直线(或曲线)上各像素点的梯度幅值和方向,每一个Edgelet描述人体的某个部位,然后使用Adaboost算法训练出一组最能有效描述整个人体的Edgelet。Payam[8]提出了Shapelet特征,它是一系列中层特征的集合。这些特征是通过adaboost方法将底层的梯度信息组合构建而成,该特征将HOG特征的误检率降低了10倍。Wang 等[9-10]指出在交通场景中行人和汽车的路径是不同的,行人多出现在斑马线上,以此场景特征训练分类器能有效地进行行人检测。
一般监控系统所采集的图像都是彩色图像。但是上述方法都忽略了彩色图像各通道间的相关性,这在一定程度上影响了分类器的准确率。Sangwine[11]使用四元数来表示彩色图像,将所有通道表述为一个整体,保证了各通道间的相关性,能更有效地描述彩色图像。Rushi等[12]根据四元数的旋转性质,提出了一种新颖的相位特征,并利用相位差来比较两个四元数,得到了四元数的LBP特征(QLBP),然而该方法忽略了四元数的模对其大小的影响。为了解决该问题,本文先分别提取了彩色图像RGB三个通道的LBP特征,将各通道的LBP 特征用四元数表示,提出一种四元数的相位特征(P-LBP)与四元数的模特征结合,并利用k-最近邻算法训练分类器。实验表明,利用该分类器能得到更好的效果。
1.1 LBP算子
局部二值模式(Local Binary Pattern,LBP)是一种用于纹理分类的特征。最初的 LBP 算子定义为:在3×3的窗口内, 以窗口中心像素点的灰度值为阈值,将邻域的 8 个像素点的灰度值与其作比较,大于该阈值的像素点被标记为 1,否则标记为 0,从而得到一个 8 位的二进制数,将它转换为十进制数作为该窗口中心像素点的LBP值。LBP的计算过程如图1所示。
图1 LBP的计算过程
基本的 LBP 算子只覆盖了一个固定半径范围内的小区域,因而无法提取大尺寸结构纹理特征。为了适应不同尺度的纹理特征,并满足旋转不变性的要求,Ojala等[13]对LBP算子进行了改进,将3×3矩形区域扩展到任意大小的圆形区域,如图2所示。设当前像素点为c,对应像素值为gc。以c为心,做半径为R的圆,在圆周上均匀选取P个点,通过插值得到对应的像素值gp,p=0,1,2,…,P-1,定义像素点c的LBP值为
(1)
a LBP8,1 b LBP16,2 c LBP8,2图2 LBP算子
这两点变化使得LBPP,R得到了循环对称的采样点,因此具有了旋转不变性。通过改变邻域半径R,可以得到不同尺度的纹理特征。从式(1)中看出,随着采样点的增加、二进制模式呈指数增长,存储空间和纹理表达的难度也随之增大。定义循环二进制数从1到0或者从0到1的跳变次数
(2)
Ojala等[13]通过实验证明绝大多数LBP对应的循环二进制数最多只包含两次从 1 到 0 或者从 0 到 1 的跳变,于是采用所谓的“均匀模式”重新定义LBP值
(3)
由式(3)可以看出,均匀模式LBP值的数量为P(P-1)+2,所有非均匀模式都取值为P+1。显然,采用均匀模式极大地降低了总体模式的数量,并且参文[13]表明,均匀模式可以描述绝大部分的纹理信息。
1.2 四元数
四元数是由著名的数学家Hamilto[14]于1843年提出的。定义四元数q=a+ib+jc+kd,其中a,b,c和d为实数,i,j,k为虚数单位,满足i2=j2=k2=ijk=-1,a称为四元数q的实部,ib+jc+kd为虚部,分别记作S(q)和V(q),q可表示为q=S(q)+V(q),对于一个彩色图像像素f(x,y),可以用纯四元数的形式表示为
f(x,y)=fR(x,y)i+fG(x,y)j+fB(x,y)k
(4)
式中:fR(x,y),fG(x,y)和fB(x,y)分别代表红、绿和蓝通道分量。
四元数拥有复数的一些性质:
4)纯四元数:q=ib+jc+dk。
5)四元数乘法的不可交换性:ij=-ji=k,jk=-kj=i,ki=-ik=j
6)四元数的欧拉表示:q=|q|euθ,其中u为单位纯虚数,θ为相位角,其大小为0≤θ≤π。
本文先得到表示彩色图像的红、绿、蓝3个通道的LBP特征向量,并利用四元数进行表示。根据四元数的特性,提出了一种四元数的相位特征(P-LBP)和四元数的k-最近邻算法来训练分类器,实现行人检测。
2.1 LBP特征提取
彩色图像的LBP特征的提取步骤:
1)图像分块:将图像分割为多个固定大小的子图像。
2)求取子图像的LBP特征直方图:处理灰度图像时,采用LBP8,1算子,根据式(1)~(3)求出59个不同的LBP特征值,统计每一个LBP特征值出现的频率,从而得到子图像的 LBP 特征直方图;对于彩色图像,采用上述方法分别对红、绿和蓝3个通道进行处理,得到子图像在红、绿和蓝3个通道的 LBP特征直方图。
3)特征级联:处理灰度图像时,将所有子图像的LBP特征直方图进行连接成为一个特征向量,也就是整幅图的LBP纹理特征向量;对于彩色图像,红、绿和蓝3个通道都按照相同的子图像连接顺序来连接LBP特征直方图,得到表示彩色图像的3个特征向量。
2.2 四元数的 k-最近邻算法
k-最近邻 (kNN) 算法是由 Hastie等[15]首先提出的,Sunil 等[16]进一步将其推广应用。kNN 算法的工作原理:存在一个训练样本集,其中每一个数据都有一个标签表示其对应的类别。输入没有标签的新数据后,将新数据的每一个特征与样本集中数据对应的特征进行比较,然后提取样本集中与新数据最相似 (最近邻) 的分类标签。一般来说,只选择样本集中前k个最相似的数据,这就是 kNN 算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的类别,作为新数据的类别。
在一般的kNN算法中,都是计算不同特征值之间的欧式距离来实现分类。但彩色图像的每一个特征包括红、绿和蓝3个通道的特征值,为了保证3个通道颜色信息的相关性,使用四元数来表示该特征值,并利用P-LBP特征和四元数的kNN算法训练分类器。
假设q是一个四元数,p是一个单位四元数,将q绕p的左旋转和右旋转定义为
Rl(q,p)=pq,Rr(q,p)=qp
(5)
根据四元数的性质,q绕p的左旋转和右旋转没有改变q的模大小,即|q|=|Rl(q,p)|=|Rr(q,p)|。将从训练样本提取的特征向量中的一个特征记作F,将测试样本的特征向量中一个特征记作T,用四元数表示F和T,即F=ir+jg+kb,T=ir0+jg0+kb0。假设p=ix+jy+kz为单位纯四元数,Rr(F,p)表示F绕p的右旋转
Rr(F,p)= (ir+jg+kb)(ix+kz)=-(rx+gx+bz)+
i(gz-by)+k(ry-gx)
(6)
记θF为F绕p右旋转后的相位角度,通过式(6)得到
(7)
D=∂Dθ+(1-∂)Dl
(8)
式(8)中的∂为影响因子,通过改变∂值,利用滑动窗口法进行目标检测,得到每个窗口正样本行人检测的准确率TPPW。如表1所示,当∂=0.8时,能更好地检测出行人。
表1 不同∂值下的行人检测准确率
00.20.50.81.0TPPW0.40.60.80.90.8
利用上述方法计算从每一个训练样本的特征向量与测试样本中特征向量的差异值,并将这些差异值从小到大进行排序,选择前k个差异最小的训练样本,这里将k值取为20。统计训练样本对应的类别,将出现次数最多的类别作为测试样本的类别。
3.1 数据集预处理
在INRIA Person行人检测样本库上进行实验。INRIA数据集的训练样本中有2 416个正样本,大小为96×160,1 218个负样本,大小从320×240到486×648不等。在INRIA数据集的测试样本中有1 126个正样本和453个负样本。为了方便提取特征,将训练样本图像剪切为64×128的图片,对正样本要保留包含行人的部分,图3显示了部分训练样本图像。接下来将剪切后的训练样本进行分块,文献[13]指出LBP8,1算子能表示最大比例的纹理信息,因此,选择LBP8,1算子来进行特征提取。如果采用8×8的块大小对样本图像进行分割,计算块的LBP8,1算子时,需要将块的边界点舍弃,导致丢失的信息比重太大。如果以32×32的块大小对样本图像进行分割,而图像本身大小为64×128,分割后的块数量太少,无法得到足够的局部信息。于是采用16×16的块大小对样本图像进行分割。
图3 训练样本示例(前3幅为正样本,后3幅为负样本)
3.2 数据分析
将本文的方法与HOG、S-LBP、F-LBP、HOG-LBP等方法进行了比较。分别统计这五种方法的正样本正确分类数(TP)、正样本错误分类数(FP)、负样本正确分类数(TN)以及负样本错误分类数(FN),如表2所示。 为了让检测结果更直观,使用DET(Detection Error Tradeoff) 曲线来表述检测结果,即对数尺度下的误检率对漏检率曲线,横坐标表示误检率,纵坐标表示漏检率,如图4所示。从中可以看出P-LBP算法优于其他算法,提高了行人检测的准确率。图5展示了部分行人检测结果,从中可以看出,使用HOG等方法进行行人检测时,当背景中出现类似于行人的柱状物时,容易出现误检,如图4中出现的石柱;当行人所穿的衣服与背景相似或相互靠近的行人像素值差异不大时,容易出现漏检。本方法因为充分利用了各通道的颜色信息,对于色彩差异比较敏感,能有效避免上述情况出现的漏检和误检。
表2 HOG,S-LBP,F-LBP,HOG-LBP 和 P-LBP 分类情况
方法TPFPTNFNHOG83629041736S-LBP87724942429F-LBP89723942924HOG-LBP95417243518P-LBP100112543914
a HOG等方法
b 本文方法
图4 检测结果
图5 5种算法在INRIA 数据集上的DET 曲线
本文通过利用四元数的旋转性质,提出了能有效描述彩色图像各通道信息的P-LBP特征,并且利用P-LBP 特征与 kNN 算法来进行行人检测。通过与 HOG、S-LBP 等方法进行对比,发现本文方法提高了行人检测的精确度。但是 k-最近邻算法需要大量的计算,时间复杂度较高,将来会采用基于GPU的并行算法来提高计算速度。
[1] VIOLA P,JONES M J.Detecting pedestrians using patterns of motion and appearance[C]//Proc. International Conference on Computer Vision.Nice,France:IEEE Press,2003:734-741.
[2] JONES M J,SNOW D.Pedestrian detection using boosted features over many frames[C]//Proc. International Conference on Pattern Recognition.Tampa,FL:IEEE Press,2008:1-4.
[3] NAVNEET D,BILL T.Histograms of oriented gradients for human detection[C]//Proc. International Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2005:886-893.
[4] WOJEK C,SCHIELE B.Dagm symposium on pattern recognition[M]. German:Springer,2008.
[5] MU Yadong,YAN Shuicheng.Discriminative local binary patterns for pedestrian detection in personal album[C]//Proc. International Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE Press,2008:1-8.
[6] WANG Xiaoyu,YAN Shuicheng.A hog-lbp human detector with partial occlusion handling[C]//Proc. International Conference on Computer Vision. [S.l.]:IEEE Press,2009:32-39.
[7] WU B,NEVATIA R.Detection of multiple, partially occluded humans in a single image by bayesian combinationof edgelet part detectors[C]//Proc. International Conference on Computer Vision. [S.l.]:IEEE Press,2005:90-97.
[8] GREG M,PAYAM S.Detecting pedestrians by learning shapelet features[C]//Proc. International Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE Press,2007:1-8.
[9] WANG Xiaogang,LI Wei. Scene-specific pedestrian detection for static video surveillance[J].IEEE Trans. Pattern Analysis & Machine,2013,36(2):361-374.
[10] WANG Xiaogang,WANG Meng.Automatic adaptation of a generic pedestrian detector to a specific traffic scene[C]//Proc. International Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE Press,2011:3401-3408.
[11] PEI S C,CHENG C M.A novel block truncation coding of color images by using quaternion moment preserving principle[C]//Proc. International Symposium on Circuits and Systems.Atlanta,GA:IEEE Press,1996:684-687.
[12] LAN Rushi,ZHOU Yicong.Person reidentification using quaternionic local binary pattern[C]//Proc. International Conference on Multimedia and Expo.Chengdu:IEEE Press,2014:1-6.
[13] OJALA T,PIETIKAINEN M.Multi-resolution gray scale and rotation invariant texture analysis with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2002,24(7):971-987.
[14] HAMILTON W.Elements of quaternions[M].London,U.K:Longmans Green,1886.
[15] HASTIE T,TIBSHIRANI R. Discriminant adaptive nearest neighbor classification[J]. IEEE Trans. Pattern Analysis & Machine Intelligence,1996,18(6):607-616.
[16] ARYA S,SILVERMAN R. An optimal algorithm for approximate nearest neighbor searching in fixed dimensions[J]. JACM,1994,45(6):573-582.
Pedestrian Detection Based on Local Binary Pattern and Quaternion
ZHU Long, ZHAN Yinwei
(ComputerDepartment,GuangdongUniversityofTechnology,Guangzhou510006,China)
Local binary pattern (LBP) feature owns the properties of invariability in illumination, invariability in illumination rotation and simplicity in calculation. Therefore it can describe pedestrian effectively, and is widely used in pedestrian detection. Most existing methods usually extract LBP features from gray images, if these methods are used in the color image, they can't guarantee the accuracy of pedestrian detection for the reason of neglecting the correlation between each color channel. Therefore, the quaternion is used to express the LBP features of red, green and blue channels which are extracted from the color images. By using the property of quaternion, a P-LBP feature is put forward, and then the k-neighbour algorithm is used to train the classifier. Comparing with the HOG, S-LBP, F-LBP and HOG-LBP features, the experiments in the INRIA dataset show that the proposed method perform better.
pedestrian detection; local binary pattern; quaternion; k-nearest neighbour algorithm
广东省教育厅高等院校学科建设专项(12ZK0362)
TN98
A
10.16280/j.videoe.2015.24.025
2015-06-23
【本文献信息】朱龙,战荫伟.基于局部二值模式和四元数的行人检测[J].电视技术,2015,39(24).
朱 龙(1989— ),硕士生,主研计算机视觉、图像处理、人工智能;
战荫伟(1966— ),硕士生导师,主要研究方向为计算机图形学、图像处理和视频分析等。
责任编辑:许 盈