李盈盈,李菲菲,陈 虬
(上海理工大学 光电信息与计算机工程学院,上海 200093)
视觉信息是人类从客观世界获取的主要信息。随着目标检测系统的广泛应用,对于目标检测的精度要求越来越高。然而在复杂环境下实现高可靠性的目标检测仍面临着很大的困难,成为研究中重要和急需解决的问题。因此,本文就如何提高检测精度进行了研究。
文献[1]提出了一种静态人体目标检测方法,即基于Boosting算法的目标检测的共现概率特征。采用方向梯度直方图(Histogram of Oriented Gradient, HOG)特征量,通过2段式Real AdaBoost算法进行学习,生成共生概率特征量(Co-occurrence Probability Feature ,CPF)来进行目标检测。基于此方法,本文选取不同类型的局部特征量,筛选后全部放入特征池中,通过特征量的两两配对来计算共生概率特征量是否会更加有效。
基于局部模式提取特征在特征提出中发挥着重要作用。局部特征的类型有很多,文献[2]提出的HOG特征具有较好的几何和光学不变性;文献[3]提取出的局部二值模式(Local Binary Pattern,LBP)特征具有灰度和旋转不变的纹理特性;文献[4]将HOG与LBP相结合,用于解决人体目标检测中的局部遮挡问题;而文献[5]提出了颜色自相似性(Color Self-similarity,CSS)算法,一种通过成对提取局部空间的色彩分布进行统计计算的新的颜色特征描述方法。下面对HOG、LBPHOG、CSSHOG这3种特征的提取及融合进行阐述。
HOG特征是一种用来进行物体边缘梯度检测的特征描述子。首先需要将检测图像进行灰度化和Gamma归一化。然后计算每个像素的梯度包括大小和方向,如式(1)所示
(1)
其中Gx(x,y)和Gy(x,y)为x方向和y方向的梯度分量。然后为了统计局部图像梯度信息并进行量化,对每个单元格(cell)构建梯度方向直方图
(2)
其中统计梯度信息时采用三线性插值,然后将单元格组成块(Block),实现块内归一化梯度直方图,此处使用了L2-Norm方法
(3)
最后将所有Block的描述符串联生成图像的HOG特征描述向量。HOG特征的可视图如图1所示。
图1 灰度图像与HOG特征可视图
LBP算法是一种典型的结构与统计相结合的图像纹理分析方法,多用于数字图像处理和模式识别,度量和提取图像局部纹理信息。LBP包含了原始模式、圆形模式、旋转不变模式和等价模式[4-6]。
LBP的前3种模式均满足2P的模型数量,即随着采样点数的增加,其模型数也呈指数增加。虽然较多的数据有助于提高精确度,但对特征的提取和分类都是较为不利的。因此进行进一步改进,当0、1跳变小于等于两次时归为等价模式[4]。
(7)
其中,U(LBPP,R) 为排序后的最小值
U(LBPP,R)=|s(gp-1-gc)-s(g0-gc)|+
通过不断的改进,模型数由原来的2P减为P+1,仍保留所需的重要信息。当实验选取R=1,P=8,模型数由256种减为9种,使得特征维数大幅减少,同时也减少了高频噪声带来的影响。
共生概率特征的生成,需要具有相同的直方图特性。这里将LBP和HOG特征进行融合。融合过程如下,LBPHOG特征的可视图如图2所示。融合过程:
(1)输入样本 {Xi},i=1,…,N;
(2)进行如下计算:
对于样本集中的每张图像:
对于图像中的每一个cell:
计算CELL= Uniform-LBP(cell)
对于CELL图像中的每一个cell:
计算HOG(cells)
计算HOG(Blocks);
(3)输出LBPHOG特征。
图2 LBP与LBP-HOG特征的可视图
CSS特征是一种基于色彩的局部相似特征描述算子,通常利用服装和皮肤颜色的相似性来进行图像检测[3,7],常见的图像色彩一般为RGB图像。
首先需要将RGB图像转化为HSV图像,而HSV图像为3个通道,所以计算时要将其转化为原点系坐标,转化公式为
(8)
转化过后做以下计算
可是接下来的一幕把所有人都吓傻了,周暄一拳头挥过去把那人打倒在地,又冲上去补了两拳,对方不甘心,跟周暄厮打,饭局一片混乱,一群人费了好大劲儿才把他俩拉开。
(9)
其中,c为当前所计算的cell,M×M为cell的大小,r={u,t,v},Ic(x,y,r)为每个像素在3个通道上的值。
然后采用X2距离计算cell中每个像素与cell的相似性。计算见公式
(10)
将得到的S(x,y,c)作为每个像素的相似值,对该相似特征值采用HOG算法进行处理。计算步骤如下,可视图如图3所示。
图3 CSS与CSS-HOG特征的可视图
计算步骤:
(1)输入样本集{Xi},i=1,…,N;
(2)进行如下计算:
对于样本集中的每一张图片:
对于图像中的每一个cell:
计算相似值Value = CSS(pixel)
计算HOG(cells)
计算HOG(Blocks);
(3)输出CSSHOG特征。
CPF是一种新提出的图像处理算法,通过不同数据特征的联合来提高图像处理的精度[8-9]。
首先将提取的HOG、LBPHOG和CSSHOG特征放入同一个特征池。概率密度函数通过局部特征的直方图计算得到
(11)
(12)
其中,Dt(i)=1/N为样本权重,N为样本总数,y∈{+1,-1}为样本类别标签,j为直方图中的一个方向。
然后通过概率密度函数计算弱分类器,计算公式为
(13)
其中,v为输入的局部特征; 是防止分母为零的系数。
最后计算CPF,有两种操作手法:一种是加法,代表了两个被选特征的弱关系;另一种是乘法,代表了两个被选特征的强关系
CPF+=f1(vc1)+f2(vc2)
(14)
CPF×=f1(vc1)+f2(vc2)
(15)
分类器模型有很多,其中基于统计模型的分类器占据主导地位,包括人工神经网络、SVM和AdaBoost等。多分类器级联机制的引入显著提高了目标检测效率[10-11]。
图4 Real AdaBoost的训练过程
文献[12]运用不同的分类器对人体进行检测,经过大量实验得出了SVM检测效果最好,AdaBoost级联方法检测率高且运算复杂度低的结论。另外文献[13]又提出了一种基于隐形SVM的目标检测系统,并且在PASCAL数据库上取得了优秀的检测结果。
本实验采用Real AdaBoost分类器,并且在分类器的使用过程中采用了嵌套的形式,即利用两个Real AdaBoost分类器,其中一个作为另一个(最终分类器)的训练环节。详细计算步骤参见图4,具体实现如下:在上述流程中,(1)为通过第一阶段的Real AdaBoost 实现特征筛选的过程;(2)为通过第二阶段的Real AdaBoost 生成最后强分类器的过程。
两段式Real AdaBoost分类器的实现
(1)输入带标签的训练样本:
{xi,yi}i=1,2,…,N,yi∈{-1,+1};
(2)初始化权重
D1(i)=1/N;
(3)训练过程如下:
对于学习次数t=1,…,T:
对于弱分类器个数m=1,…,M:
生成CPF
计算概率密度函数W
计算弱分类器
生成评估值Zm
生成弱分类器:
h1=arg minZt,m
更新样本权重:
Dt+1(i)=Dt(i)exp[-yiht(xi)];
(4) 输出强分类器:
通过上文可以发现,想要计算所有特征的CPF需要消耗大量的时间并且会产生较高的数据维度,所以在计算局部特征的概率密度函数后使用巴塔恰里亚下界(Bhattacharyya Bound,Zt)缩小特征选取范围,见式(16)。选取错误率较小的前200个特征进行CPF的计算,实现数据维度和计算量的减小
(16)
概率密度函数来源于式(11)和式(12),将筛选出的特征用来计算CPF。
近年来,大量公开数据库提供了不同光照、背景、姿势、视角等多种复杂情况下的目标图片用于评估目标检测方法的性能。实验选用INRIA数据库。在进行试验前需将正负样本进行尺寸统一(64,128)。表1为训练和测试的正负样本个数。
表1 训练和测试正负样本个数
为了证明本实验提出的方法行之有效,将所建立的新方法与文献[1]中的方法进行比较。由于数据库存在些许差异,所以又采取了另外一种验证方式,即使用没有结合的HOG特征先经过PCA降至200维,然后直接使用Real AdaBoost分类器进行分类检测。所有的实验结果均通过受试者工作特性曲线(Receiver Operator Characteristic,ROC)进行观察比较。ROC曲线是以负正类率(False Positive Rate,FPR)为纵坐标、真正类率(True Negative Rate,TPR)为横坐标绘制成曲线,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。
实验结果的ROC曲线如图5所示,其中HOG(1) 表示的是传统使用PCA进行数据维度降低后的RealAdaBoost分类检测率。而HOG(CPF)是使用文献[1]中算法得到的检测率。剩余的6条曲线为本实验提出的改进特征对应的检测率。可以发现HOG(CPF)特征的检测率比传统的HOG特征检测率有明显的提升,而改进后特征对应的检测率比HOG(CPF)特征对应的检测率又有了相应不同程度的提升,详细数据参见表2。经过改进的特征融合了纹理和色彩特性,有效解决了行人检测中出现的遮挡和半重叠问题,如图6所示。然而在进行检 测的过程中,由于存在行人姿态多变性和严重遮挡等问题,因此仍存在一定的误检和漏检情况,如图7所示。
图5 实验ROC特性曲线
图6 有效实现遮挡和半重叠的检测
图7 左图黑框为漏检,右图黑框为误检
1%2%3%4%5%HOG(1)63.7580.8389.791 793.5495.312HOG(CPF)94.062 595.65297.161 597.942 798.072 9LBPHOG94.37596.2597.656 297.968 898.255 2CSSHOG94.479296.484 497.838 598.15198.333HOG+LBPHOG94.947 997.057 398.15198.359 498.541 7HOG+CSSHOG95.286 597.369 898.203 198.489 698.543 8LBPHOG+CSSHOG95.755 297.838 598.463 598.697 998.802 1HOG+LBPHOG+CSSHOG96.328 198.046 998.854 298.854 299.010 4
表2描述了不同FPR下的检测率。可以发现在FPR为1%时,HOG(CPF)特征比HOG(1)特征提升了30.31%,而LBPHOG特征和CSSHOG特征与HOG(CPF)特征相比又分别提升了0.312 5%和0.416 7%。从显示的数据来看,尽管随着FPR的增大,检测率的提升速度有所缓和,但在FPR为5%时,改进特征的最高检测率为99.010 4%,仍比传统HOG特征对应的检测率提高了3.608 4%。以上实验结果及分析证明了本文所提算法的有效性。
本文对图像处理常用的HOG特征提出了改进,并基于该改进特征生成共生概率特征。本文提出的算法改进使得共生概率特征不仅具有HOG、LBPHOG、CSSHOG这3种特征的特性,还大幅减少了计算维度,在保证计算速度的同时提高了检测精度。不过通过上述实验结果显示CSSHOG的特征曲线一直高于LBPHOG的特征曲线,与预估稍有偏差。接下来要做的是考虑LBP和CSS特征在不与HOG特征融合的情况下能否实现共生概率特征的计算。