基于场景感知的运动目标检测方法

2016-12-09 06:33崔弘亮

电子学报 2016年11期

关键词：邻域像素点前景

宋涛,李鸥,崔弘亮

(1．信息工程大学信息系统工程学院,河南郑州 450002;2．南京理工大学自动化学院,江苏南京 210094)

基于场景感知的运动目标检测方法

宋涛1,李鸥1,崔弘亮2

(1．信息工程大学信息系统工程学院,河南郑州 450002;2．南京理工大学自动化学院,江苏南京 210094)

背景减除法是一种主要的运动目标检测框架,但在复杂环境中构建一种初始模型建立周期短、可靠性高、鲁棒性好的模型仍是一大难题.本文从场景感知的角度出发,在背景减除框架的基础上提出一种目标检测方法.该方法根据前两帧中稳定的结构信息感知背景中潜在的前景区域,在第二帧建立初始模型时利用最近邻域背景像素点代替可能的前景像素点,提高了初始模型可靠性;结合颜色信息和二进制特征提出了像素点二级分类判决机制,并通过感知像素点邻域内的纹理复杂度自适应调整局部判决阈值和更新频率;在模型更新阶段提出处理误判的反馈机制.在公开视频序列上同几种流行检测算法的实验对比结果证明了本文算法的有效性和优越性.

目标检测;场景感知;二进制特征;反馈机制

1 引言

在计算机视觉领域,运动目标检测是指在视频序列上发现并捕捉到感兴趣目标的行为,是目标跟踪、分类和行为理解等更高层次处理的关键底层技术,其检测效果将直接影响系统后续处理的各项性能.当前,越来越多的检测算法被开发以满足不同的应用需求(比如,智能机器人、自动监控系统和人机交互等),其中应用比较广泛的是以背景减除法[1,2]为核心的运动目标检测框架.背景减除法通过对比背景模型和当前帧图像来检测运动目标,对简单场景有很好的检测效果.但是,在实际复杂应用环境中,由于光照变化、噪声和动态背景等干扰因素,使得构建性能稳健的基于背景减除的运动目标检测方法成为一项极具挑战性的研究课题.

基于背景减除的目标检测方法必须要处理好以下四个关键问题[3]:(1)如何定义并建立背景模型？文献[4]中,Stauffer和Grimson根据图像序列中单个像素点的时间分布特性提出了一种经典的高斯混合参数模型(GMM,Gaussian Mixture Models),但固定的模型参数K不能真实反映复杂的检测环境.文献[5]提出了一种基于核密度估计(KDE,Kernel Density Estimation)的非参数统计模型,该方法根据前N帧的像素点构建背景模型,能够真实反映背景像素的概率密度分布情况,但这种建模方法需要消耗大量存储空间和运算成本.文献[6]利用图像分割技术将背景划分为多个子块,构建像素级和区域级相结合的阶层背景模型,但该方法要求初始化图像帧内不能包含运动目标,限制了其应用范围;(2)如何在没有任何附加条件的情况下快速有效地初始化背景模型？近年来,仅有少数文献讨论了背景模型的初始化问题,文献[4]和[6]要求在模型的初始化周期内没有或仅有少量的运动目标,这在实际应用中很难做到;文献[3]、[7]、[8]均采用单帧初始化模型的方法,利用邻域像素构建背景模型,缩短了初始背景模型的建立周期,但是这种方法不适用于纹理丰富的复杂场景,且当初始帧包含运动目标时,会产生错误的ghost目标(即不属于任何真实运动目标的前景区域);(3)如何在分类判决阶段设计合理的判决和反馈机制？文献[3]和[4]均采用全局阈值来分类判决像素点,没有考虑不同局部环境存在不同程度的敏感度,易产生误判;且两类算法都缺乏处理误判的反馈机制,不能迅速消除ghost目标问题;(4)在模型更新阶段,采用什么样的更新策略和更新频率？模型更新是算法适应背景变化的关键步骤,文献[9]采取“先入先出”的更新策略,无法处理长期存在的目标.文献[3]和[10]均采用固定频率的随机抽样方法来更新背景模型中的样本点,使得采样点可以长期存在,能够处理短期或长期存在的目标,但该方法不适用于帧率变化较大的应用场景.

针对上述问题,本文在背景减除框架的基础上提出一种基于场景感知的非参数化目标检测方法.在模型初始化阶段,不同于大多数文献的背景模型构建原则(粗建立,细调整),该方法通过感知前两帧中可能存在的运动目标,利用邻域背景信息在线建立更加可靠、有效的初始模型.在像素点分类判决阶段,该方法以颜色信息作为第一级触发器,通过计算邻域二进制特征给出第二级判决,并根据像素点局部邻域的纹理复杂度自适应调整两级判决的阈值,提高了像素点的分类精度;同时,根据判决结果提出了处理ghost目标的反馈机制.在模型更新阶段,根据应用场景自适应调整更新频率.

2 基于场景感知的背景模型初始化

2.1基于空时结构信息的场景感知方法

本文通过Canny算子检测初始帧的空间结构信息,判断背景图像的纹理复杂程度,定位背景中的平坦区域和复杂区域,为背景像素点建模提供先验信息.

(1)

2.2 背景模型的初始化

参数背景建模方法存在一定的理论缺陷:参数统计需要较长的统计周期、无法自适应确定所需参数的个数、通常需要假设背景像素值比前景值出现的更加频繁;不适用于复杂的应用环境.本文在场景感知的基础上,采用样本集合的非参数方法构建背景模型B(x),依据背景复杂度Sum0自适应决定所需样本个数N(场景越复杂N越大,反之N越小).

B(x)={b1(x),b2(x),…,bN(x)}

(2)

其中,x表示背景像素点的位置坐标;每个样本bi(x)=[vi,ei,wi]i=1,…,N分别表示该样本点的颜色信息、二进制特征(本文采用文献[8]的思想改进LBP纹理特征,利用邻域像素之间的相似度描述像素点x与其周围像素的空间信息)和样本点的权值.

B0(x)={b1(x)=[v1,e1,w1],

b2(x)=0,…,bN(x)=0}

(3)

其中,v1为第2帧中像素点x或其最近邻域像素点的原始颜色信息,对像素值的变化比较敏感,能精细捕捉颜色变化;w1=1/N是样本点b1(x)的初始权值;e1为第2帧中像素点x或其最近邻域像素点的12bit局部二进制特征信息LBP12,2,对噪声、光照变化有较强的鲁棒性.

如图2所示,在中心像素点Ix的5×5邻域内,用12bit二进制特征e近似表示25bit的局部邻域信息Ineighbour,使特征的表达式更加简洁有效.其中,四个对角上的灰色像素点是通过其4邻域像素利用双线性插值法确定其值;阈值决定过程由式(4)计算得出:

(4)

其中,Ii=0,…,11表示中心点像素周围的12个邻域像素;|·|表示两个像素点之间颜色信息的绝对差值;Tb是度量邻域像素点之间相似度的阈值,通常设为Tb≈0.5vx.

3 像素点的分类判决过程

本文采用与背景像素建模相同的方法表示第t输入帧像素点x,如式(5)所示:

(5)

文献[3～6]对比输入帧与背景模型像素点之间的颜色信息,能够捕捉细微的前景变化区域,但该类方法无法处理复杂场景下动态干扰和光照变化等问题.文献[8]、[11]和[12]利用二进制特征来检测前景运动目标,对光照变化有较强的鲁棒性,但该类方法无法处理纹理比较平坦的应用环境.本文采用颜色信息v和二进制特征e相结合的方法检测前景变化,需要解决图3所示的几个难点.

一般情况下,像素点分类过程主要是为了判断单独背景像素点、靠近前景目标的背景像素点、位于前景目标边缘的前景像素点和前景目标内像素点(分别对应图3中的像素点1～4)是否属于背景模型的方法.其中,像素点1是位于平坦区域的背景像素点,在分类判决中易受到光照影响,使得颜色信息v的变化大于Tv,但其二进制特征e变化较小,类似于像素点4,易被误判为前景;像素点2的5x5邻域内引入了前景信息,其二进制特征e将会发生变化,分类判决结果取决于阈值Te的大小;像素点3的特征v和e均发生了变化,判决结果取决于阈值Tv和Te;像素点4位于平坦的前景区域内,如果仅依赖分类方法,易与受到光照变化影响的像素点1发生混淆,产生误判.所以,阈值Tv和Te的设置及辅助机制是分类过程的关键.

4 背景模型的更新方法

本文采用类似于文献[3]的保守更新策略,只将被判为背景的像素点(lxt=0)融入模型,当lxt=1时则保持原有的背景模型.

4.1 保守更新策略存在的问题和解决方案

保守更新策略使得背景模型中不存在任何前景像素点,其可靠性较其他盲更新策略更高;但保守更新策略没有解决像素点误判的机制,背景像素点一旦被误判为前景就不能再融入背景模型、无法处理ghost目标和长期静止的目标.为了解决上述问题,本文根据像素点的分类判决结果和邻域像素点值域分布一致性原则[7]提出一种处理像素点误判的反馈机制.

图4显示了ghost目标的形成过程(第一行是视频序列,第二行是对应的检测结果).在模型初始化阶段,处于静止状态的前景目标将作为背景融入模型;当该目标开始运动时,其原来覆盖的背景和目标本身都将被检测为前景目标,分别对应图4第56帧中的灰色和黑色矩形框;保守更新策略无法将前景信息融入模型(如图4第175帧中的灰框区域),ghost目标将一直存在.

s.t.Ix*∈背景

(6)

对于停止运动并长期静止的目标,本文给出一种折中的处理方法:为每个检测到的前景目标设定一个计时器,如果目标停留在同一个位置的时间超过预设阈值,就将该目标融入背景;反之,保留此前景目标.

4.2 模型样本更替方法和更新频率

5 实验结果与分析

为了验证所提算法的有效性,本文选择CDnet2014(the ChangeDetection.net Dataset)[13]提供的带有真实目标检测结果的公共标准图像序列进行测试.为了证明所提算法在模型初始化和抑制ghost目标方面的优越性,本文与两类具有代表性的目标检测算法ViBe[3]和GMM[4]进行了两组对比实验;并通过实验3证明了所提算法在不同复杂应用场景下的鲁棒性.所有相关实验都是在Intel双核2.2GHz CPU、2.0GB内存的PC平台上,利用C/C++、Matlab和OpenCV函数库实现的.实验中的参数设置:GMM的模式数K=2、两个学习率a1=a2=0.2、模型阈值T=0.8;ViBe的粒子数N=20、邻域范围R=20、阈值#min=2、子抽样时间t=1;本文算法的粒子数N=10、阈值#min=1、Tc=6、学习率a=3,其他参数Tv、Te由不同的实验环境具体计算.

本文利用常见的目标检测性能评价标准:召回率Recall、精确度Precision和F1-Measure,对上述对比实验进行定量分析.

(7)

其中,TP表示被正确检测为感兴趣目标的像素点个数;FN表示被误判为背景的像素点个数;TP+FN即为感兴趣目标的真实大小;FP表示被误判为感兴趣目标的背景像点个素数;TP+FP即为检测算法得到的前景目标大小.式(7)中,Recall为检测算法得到的正确分类数占真实目标的比例;Precision体现了检测算法的正确率;这两个指标均比较片面,无法真实反映检测算法的整体性能.从检测-跟踪的角度出发,本文认为检测算法首要任务是发现目标,即检测得到的前景区域中包含正确分类TP越大越好,为后续匹配跟踪、识别提供可靠的初始信息,所以对跟踪任务而言,Precision是一个重要指标.F1-Measure是度量检测算法性能的综合指标,反映了检测算法的灵敏性和有效性.

实验1 定性分析了本文算法、GMM和ViBe在背景模型初始化阶段的检测性能,实验场景是CDnet2014的三段交通监控图像序列,检测目标包括车辆和行人;ViBe直接以初始帧为背景、本文算法根据前两帧计算背景模型、GMM根据预设的高斯模式数来计算背景.从图5(c)可以看出,GMM无法在模型建成的初期有效检测运动目标,这是因为初始帧背景中存在运动目标,导致背景模型包含了大量前景目标像素.ViBe以初始帧为背景,在模型建立初期近似于最简单的背景减除法,会造成大量ghost目标,如图5(d)所示.本文算法根据前两帧的空时信息,能够准确定位潜在的运动目标,利用最近邻域的背景像素信息对可能存在运动目标的区域进行建模,从图5(e)可以看出,本文算法在模型形成初期就具有很好的检测效果.

为了进一步定量分析本文算法、GMM和ViBe在实验1中检测结果的准确性和可靠性,本文根据召回率R、精确度P和F1对各算法的检测结果进行了统计平均,如表1所示.实验1是为了验证各算法在模型建立初期的检测性能,从表1可以看出:GMM的P指标较高但其他两项指标均非常低,这是因为GMM的初期模型中包含了大量前景像素,导致检测结果存在空洞;ViBe的三项指标都比较低,平均小于30%,这是由ghost目标造成的;本文算法的各项指标均比较高,且P指标接近85%,说明本文算法的初始模型具有较高的可靠性,能在应用初期快速有效地捕捉到运动目标.

对于采用背景减除框架的检测算法而言,如果背景中预先存在的静止目标开始运动,就一定会出现ghost目标问题.因此,能否快速有效地解决ghost目标是衡量一个检测算法优劣的重要标准.

实验2 本文采用的三段CDnet2014图像序列均在初始帧中包含感兴趣目标,当目标开始运动时就会出现ghost目标(灰色矩形框).从图6第一列关于“streetLight”的检测结果可以看出,GMM和ViBe算法都在第6帧出现了完整的ghost目标,其中GMM直到第316帧才将ghost目标的大部分区域清除,而ViBe的ghost问题在第316帧依然存在.图6第二和第三列关于“sidewalk”和“traffic”的检测结果同样验证了GMM和ViBe无法快速去除ghost目标,其中GMM和ViBe分别在“sidewalk”、“traffic”场景下直到第339、380帧和第343、1083帧才清除ghost目标.本文算法根据反馈机制对前景目标进行二次判决,能够直接解决ghost目标,如图6第四行所示,本文算法在检测过程中并没有出现ghost目标.

表1 实验1中三种检测算法的R、P和F1指标对比

运动目标检测算法“Highway”“Opencv-road”“Tramstop”RPF1RPF1RPF1GMM0.1370.8190.2350.3730.6950.4850.4680.5630.511ViBe0.1560.2940.2040.2320.3740.2860.1250.0380.058本文算法0.8340.8570.8450.8210.8450.8330.7860.8190.802

实验3 定性分析了本文算法在不同复杂应用环境下的目标检测能力,实验场景是CDnet2014的四段图像序列,如图7所示.“blizzard”列显示了本文算法在恶劣天气条件下的检测结果,从图7第三行可以看出,虽然汽车与周围环境的相似度较高,但本文算法依然可以正确检测到目标;表2中的三项指标均大于80%.

“canoe”和“fall”列均属于背景纹理复杂且存在动态背景干扰的应用场景,从图7第三行可以看出,本文算法可以检测到大部分目标(R指标较高),但检测结果中存在较多椒盐噪声干扰(P指标较低).本文算法在“bungalows”列的检测结果中将目标阴影判决为前景目标,不能去除阴影干扰,导致表2中相关的P和F1指标较低(平均值接近50%).

表2 实验3中本文算法在四种不同应用环境下的R、P和F1指标对比

6 结论

本文利用图像帧的空时信息提出一种基于场景感知的运动目标检测方法.该方法通过异或前两帧图像的结构信息捕捉到背景中可能存在的运动区域,去除了背景中的前景信息,提高了初始模型的可靠性.为了增强检测算法的有效性,该方法融合像素点的颜色和二进制特征提出了一种二级分类判决方案,并根据像素点邻域的纹理复杂程度自适应调整局部判决阈值和样本更新频率;根据判决结果给出了处理误判的反馈机制.实验结果表明,相较于GMM和ViBe两类算法,本文算法的背景模型在建立初期就具有较高的检测精度,有助于迅速发现并捕捉到较为完整的感兴趣目标,且算法能够有效抑制ghost目标问题;实验3证明了本文算法在四类不同复杂应用环境下依然能够有效检测运动目标,但在目标阴影和动态背景干扰的复杂场景中存在较多误判.在未来工作中,本文将重点研究解决目标阴影和动态背景干扰的方法,进一步提高算法的可靠性.

[1]Radke R J,Andra S,Al-Kofahi O.Image change detection algorithms:a systematic survey[J].IEEE Transactions on Image Processing,2005,14(3):294-307.

[2]Wang B,Dudek P.A fast self-tuning background subtraction algorithm[A].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops[C].Columbus OH:IEEE Press,2014.401-404.

[3]Van Droogenbroeck M,Barnich O.ViBe:a disruptive method for background subtraction[A].Proceedings of the Background Modeling and Foreground Detection for Video Surveillance[C].USA:CRC Press,2014.1-23.

[4]Stauffer C,Grimson W.Adaptive background mixture models for real-time tracking[A].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C].Fort Collins:IEEE Press,1999.246-252.

[5]Martins P,Caseiro R,Batista J.Non-parametric Bayesian constrained local models[A].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].Columbus OH:IEEE Press,2014.1797-1804.

[6]Chen S Y,Zhang J H,Li Y F.A hierarchical model incorporating segmented regions and pixel descriptors for video background subtraction[J].IEEE Transactions on Industrial Informatics,2012,8(1):118-127.

[7]Jodoin P,Mignotte M,Konrad J.Statistical background subtraction using spatial cues[J].IEEE Transactions on Circuits and Systems for Video Technology,2007,17(12):1758-1763.

[8]St-Charles P,Bilodeau G,Bergevin R.SuBSENSE:a universal change detection method with local adaptive sensitivity[J].IEEE Transactions on Image Processing,2015,24(1):359-373.

[9]Cuevas C,Mohedano R,Garcia N.VersatileBayesian classifier for moving object detection by non-parametric background-foreground modeling[A].Proceedings of the 19thIEEE International Conference on Image Processing[C].Orlando FL:IEEE Press,2012.313-316.

[10]Van Droogenbroeck M,Paquot O.Background subtraction:experiments and improvements for ViBe[A].Proceedings of the IEEE Computer Vision and Pattern Recognition Workshops[C].Providence RI:IEEE Press,2012.32-37.

[11]Wu J,Rehg J M.CENTRIST:a visual descriptor for scene categorization[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1489-1501.

[12]St-Charles P L,Bilodeau G A.Improving background subtraction using local binary similarity patterns[A].Proceedings of the IEEE Winter Conference on Applications of Computer Vision[C].Steamboat Springs CO:IEEE Press,2014.509-515.

[13]Wang Y,Jodoin P M,Porikli F.CDnet 2014:an expanded change detection benchmark dataset[A].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops[C].Columbus OH:IEEE Press,2014.393-400.

宋涛男,1983年出生于河南焦作,现为解放军信息工程大学信息系统工程学院博士研究生,主要研究方向为计算机视觉和目标跟踪技术.

E-mail:taosong-1983@126.com

李鸥男,1961年出生于河南郑州,现为解放军信息工程大学信息系统工程学院教授、博士生导师,主要研究方向为无线通信网络、信息融合和目标跟踪技术.

E-mail:zzliou@126.com

A Moving Object Detection Method Based on Scene Perception

SONG Tao1,LI Ou1,CUI Hong-liang2

(1.InstituteofInformationSystemEngineering,InformationEngineeringUniversity,Zhengzhou,Henan450002,China;2.SchoolofAutomation,NanjingUniversityofScienceandTechnology,Nanjing,Jiangsu210094,China)

Background subtraction algorithm is a kind of main moving object detection framework,but it is too difficult to build a model with short establishing period,high reliability and good robustness.From the perspective of scene perception,a technique for object detection based on the framework of background subtraction is proposed.To improve the reliability of initial model,the potential foreground pixels in background,which are obtained on the basis of stable structural information in the former two frames,are replaced by the nearest neighbor pixels belonging to background,when the initial model is being established in the second frame.Integrating color information with binary feature,a two-stage classification decision mechanism is proposed,meanwhile the local decision threshold and update frequency are adaptively adjusted in accordance with the texture complexity of pixels neighborhood.Subsequently,a feedback mechanism for misclassification is presented in the update model phase.Experimental results using challenging public video sequences show the effectiveness and superiority of the proposed method,compared with other state-of-the-art tracking approaches.

object detection;scene perception;binary feature;feedback mechanism

2015-03-26;

2015-08-11;责任编辑:马兰英

国家科技重大专项(No.2014ZX03006003)

TP319

0372-2112 (2016)11-2625-08

��学报URL:http://www.ejournal.org.cn

10.3969/j.issn.0372-2112.2016.11.009