张 超 吴小培 吕 钊
随着国内外安全局势的日益复杂和各种社会问题的不断凸显,全社会对新型安全监管手段的需求日益紧迫。智能视频监控系统作为传统视频监控在新时期的最新发展,其相关理论研究和工程应用已取得很多成果,如交通监控和分析[13]-,行为理解[46]-,入侵检测和报警[79]-等。
作为智能视频监控的基础性组成部分,运动目标检测是智能视频系统中目标跟踪和各种后期更高级分析处理的基础。本质上说,运动目标检测就是从包含背景的图像序列中提取出运动物体。很多综述已对众多的运动目标检测算法进行了详细的归类和总结[1012]-。常用的静止背景下的运动目标检测算法主要有帧间差分法[13]和背景差分法[14,15]。基于多维统计分析的方法为运动目标检测提供了新的途径。主分量分析(Principal Component Analysis,PCA)[16]通过消除不提供运动信息的背景分量完成运动目标检测,可以一定程度上抵消光照对目标检测的影响。文献[17]提出使用独立分量分析(Independent Component Analysis, ICA)进行运动目标检测,文中使用2通道数据构成观测向量并使用粒子群优化算法(Particle Swarm Optimization,PSO)搜索分离矩阵,可实现较单一场景下的运动目标检测。文献[18]给出基于ICA的自适应背景减算法,算法使用2通道数据进行前景背景分离,可适用于室内和室外场景,但使用2通道数据能否达成很好的分离效果仍有待进一步讨论。
本文对基于独立分量分析的运动目标检测算法中的通道数选择和观测向量生成方式进行实验讨论,文中分别采用多种通道数进行前景背景分离,同时通过不同的观测向量生成策略得出不同数据组织形式下的检出前景并进行综合,以期克服现有ICA方法使用小通道数和单一观测向量生成方法而导致的目标检测不全问题。
独立分量分析[19]给出了在满足一定条件下从混合信号中得到相互独立的源信号的方法。运动目标检测中使用的ICA瞬时混合与分离模型见图1。
图1 ICA算法一般流程图
为对源信号s的良好估计。ICA算法的基本思路是针对观测信号选择独立性判据构造目标函数,再使用数学寻优方法对目标函数进行优化以得到最优解。
ICA算法的核心是通过最优化表征统计独立的目标函数来实现对混合信号的分离。本文使用峭度作为目标函数,并使用梯度法进行寻优。基本的目标函数为
对于使用白化矩阵V白化处理后的观测信号z=Vx,目标函数为
考虑到实际中分离矩阵的归一化限制,迭代计算过程中使用的梯度计算方法为
当ICA算法得到初步的前景分量后,需要基于此完成对运动目标的提取,本文使用如下全局均值门限进行前景分割
其中Foreground为前景图像;I为分离后图像;M,N分别为图像的宽高;C为一根据任务背景进行调整的经验系数,可设置为1.0~1.5,在像素值进行了归一化等处理后也用其调整判决门限。
传统ICA算法的应用对象大多是1维信号,而图像是2维信号,由2维信号构造观测向量的过程将对ICA的分离结果产生直接影响。文献[17,18]中均使用按行组合降维的方法。事实上,不同目标在图像中往往具有特有的运动特性和对应的空间位置关系,单纯按行组合观测向量并不能获得最佳的分离性能,而应寻求可以涵盖数据空间变化的观测向量生成方式。图像中像素点八邻域方向涵盖了其所有邻接关系点以及在相邻帧中由运动引发的变化方向。受此启发,本文分别使用按行、按列、45°和135°(也可记为-45°, 315°等)的方式对原始图像降维生成观测向量,并对不同方式下的分离结果进行综合形成最终的检测结果。对于分辨率为MN×(默认MN≤)的图像中的任意一点I(i, j),其转换为观测向量中的x(k)的4种不同方式对应的索引计算方法具体为
按行生成:
按列生成:
按135°生成,方阵(M=N)情况下有
当M<N时,有
按45°生成,方阵(M=N)情况下有
当M<N时有
ICA算法中通道数的选择同样直接影响分离结果。通道数即观测信号矩阵的(行)分量个数,其每一分量代表观测到的一路混合信号。在ICA算法的经典应用领域中,受传感器规模和应用背景的制约,ICA算法使用的通道数从2通道到数十通道不等。事实上,由于视频图像序列本身固有的连续性,每一帧图像都可视为一路观测到的由背景和前景组成的混合信号,不存在由采集设备规模受限导致的通道数限制,具备多通道数据的应用可行性。本文实验使用多通道(最多 16通道)数据形成观测信号矩阵,多通道数据的引入在增加有效信息量的同时增强了源的独立性假设,为得到更好的分离结果创造了条件。结合以上的4种观测向量生产方式和16通道数据,本文所提算法流程见图2所示。
为了验证不同通道数和观测信号生成方式下ICA算法的性能差异并进行ICA算法和其他算法的对比,本文使用检出率(DR)和误检率(FAR)两个指标[20]对不同算法的检测结果进行量化分析。
首先进行相同观测信号生成方式下不同通道数ICA检测算法的性能对比。实验1使用一段包含移动行人的视频。实验中分别使用2, 4, 8, 16通道数据按行生成观测信号矩阵进行检测,检测结果见图3所示。从图3可见,在使用2通道数据进行运动目标检测时,得到的前景破碎严重,完全无法表征目标的几何外形等属性。随着通道数的增加,ICA对运动目标的检测效果逐渐改善。
为了验证4种观测向量生成方式下检测效果的差异和综合4种结果得到最终结果的实际性能,本文在实验2中分别使用4种不同观测向量生成方式进行对比,实验结果见图 4。从实验结果可见,不同的观测向量生成方式下的检测结果具有一定的差异,这表明不同的观测向量生成方式突出了不同的运动信息,其检测结果都应作为最终结果的有效部分。4种结果的综合见图 4(d)所示,可见综合后的最终结果比任何一种单一方法下的检测结果都具有更加完整的目标形态。
图2 本文所提算法流程图
图3 实验1中不同通道数下的检测结果对比
图4 实验2中4种不同观测信号生成方式下的检测结果对比
由于并非直接使用像素值进行建模,基于ICA的运动目标检测算法在目标缓慢移动或目标与背景区分性较低的场景下具有一定的性能优势。为了进一步验证所提改进方法的有效性,我们在实验3和实验 4中将本文所提改进 ICA算法与自适应背景减、高斯混合建模(Gaussian Mixture Modeling,GMM)和帧差法进行对比。实验使用的参数设置如表1所示,实验基于Matlab仿真环境进行,计算机硬件配置为笔记本i5双核处理器,2.3 GHz主频,4G内存,32位Win7系统。
表1 几种对比算法的参数设置
实验3采用VS-PETS 2001 dataset中的人字路口监控视频,实验选取视频中两车交会缓慢运动的部分进行,几种不同算法的检测结果见图 5。图5(a1)~(a3)为选取的原始视频图像。图 5(c1)~(c3)为使用自适应背景减方法得到的运动目标检测结果,虽然目标车辆检测较为完整,但由于右车由静止开始缓慢移动,自适应背景减方法短时间内无法及时更新模型导致在车辆初始位置产生大量误检(如图5(c3)黑色箭头所示),使得算法检测结果中含有较多的非目标噪声。图5(d1)~(d3)为帧间差分法的检测结果,由于目标运动缓慢,帧间差分法只获得了目标的大致轮廓。图 5(e1)~(e3)给出了高斯混合建模方法的检测结果,由于两车交会时移动缓慢,GMM 算法中的权值累积和模型更新机制将前景误判为背景,导致了检测结果中大量的目标部分漏检。图5(b1)~(b3)为本文方法的检测结果,在目标低速移动的情况下,ICA方法依旧较完整地检测到了目标,且检出前景中不含有过多的非目标噪声。
图5 实验3中4种不同算法的检测结果对比
实验4使用的视频含有两个行人,整段视频始终有两人的慢速走动及站立交谈和握手等动作,对比实验的结果见图6。图6(a1)~(a3)为原始视频图像。~图6(c1)(c3)为使用自适应背景减方法的运动目标检测结果。和实验3中的情况类似,目标短时间的停留使后续过程中背景模型无法及时更新,导致了如图6(c2)中的大量误检。图6(d1)~(d3)为帧间差分法的实验结果,行人的缓慢行走使得帧间重叠较大而无法获得完整的目标。图6(e1)~(e3)为GMM的前景检测结果,由于行人的缓慢行走和停顿,图像中一个行人已经大部分被吸收入背景。图6(b1)~(b3)为本文所提方法的检测结果,可见不论缓慢行走还是站立握手的行人均得到更好的检测。
图6 实验4中4种不同算法的检测结果对比
独立分量分析具有的从混合信号中恢复独立源信号的特殊性质使其可以应用于运动目标检测。传统基于独立分量分析的运动目标检测方法均基于单一的观测向量生成方式并使用 2通道数据进行检测,削弱了可供前景背景分离的运动状态信息。本文对传统基于ICA的运动目标检测算法的观测信号通道数选择和观测向量生成方式进行实验分析,并在此基础上提出了综合4种观测向量生成方式并使用16通道数据进行分离的改进的ICA运动目标检测算法。4种观测向量生成方式下分离结果的综合充分涵盖了运动目标的运动特性,16通道数据的使用也为ICA算法提供了更有效的峭度信息。仿真实验表明,在目标慢速运动或目标与背景区分性较低的场景,多通道数据的使用和多种观测向量生成方式的综合使算法以较低的误检率代价获得了较明显的检测性能提升。
[1] Huang D Y, Chen C H, Hu W C, et al.. Reliable moving vehicle detection based on the filtering of swinging tree leaves and raindrops[J]. Journal of Visual Communication and Image Representation, 2012, 23(4): 648-664.
[2] Song H, Liu X, Zhang X, et al.. Real-time monitoring for crowd counting using video surveillance and GIS[C].Proceedings of the 2nd International Conference on Remote Sensing, Environment and Transportation Engineering,Nanjing, China. 2012: 1-4.
[3] Sidla O, Rosner M, Ulm M, et al.. Traffic monitoring with distributed smart cameras[C]. Proceedings of the IS&T/SPIE Electronic Imaging, 2012: 830103-1-830103-12.
[4] Park S and Aggarwal J K. A hierarchical Bayesian network for event recognition of human actions and interactions[J].Multimedia Systems, 2004, 10(2): 164-179.
[5] Shotton J, Sharp T, Kipman A, et al.. Real-time human pose recognition in parts from single depth images[J].Communications of the ACM, 2013, 56(1): 116-124.
[6] Schwarz L A, Mateus D, and Navab N. Recognizing multiple human activities and tracking full-body pose in unconstrained environments[J]. Pattern Recognition, 2012,45(1): 11-23.
[7] Haritaoglu I, Harwood D, and Davis L S. W4: real-time surveillance of people and their activities[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2000, 22(8): 809-830.
[8] Held C, Krumm J, Markel P, et al.. Intelligent video surveillance[J]. Computer, 2012, 45(3): 83-84.
[9] Komagal E, Vinodhini A, Srinivasan A, et al.. Real time background subtraction techniques for detection of moving objects in video surveillance system[C]. Proceedings of the IEEE International Conference on Computing,Communication and Applications, Tamilnadu, India, 2012:1-5.
[10] Hu W, Tan T, Wang L, et al.. A survey on visual surveillance of object motion and behaviors[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2004, 34(3): 334-352.
[11] Radke R J, Andra S, Al-Kofahi O, et al.. Image change detection algorithms: a systematic survey[J]. IEEE Transactions on Image Processing, 2005, 14(3): 294-307.
[12] Joshi K A and Thakore D G. A survey on moving object detection and tracking in video surveillance system[J].International Journal of Soft Computing and Engineering,2012, 2(3): 2231-2307.
[13] Kameda Y and Minoh M. A human motion estimation method using 3-successive video frames[C]. Proceedings of the International Conference on Virtual Systems and Multimedia, Gifu, Japan, 1996: 135-140.
[14] Manzanera A and Richefeu J C. A new motion detection algorithm based on Σ-Δ background estimation[J].Pattern Recognition Letters, 2007, 28(3): 320-328.
[15] Maddalena L and Petrosino A. A self-organizing approach to background subtraction for visual surveillance applications[J]. IEEE Transactions on Image Processing, 2008, 17(7):1168-1177.
[16] Rymel J, Renno J, Greenhill D, et al.. Adaptive eigenbackgrounds for object detection[C]. Proceedings of the IEEE International Conference on Image Processing, Singapore,2004, 3: 1847-1850.
[17] Tsai D M and Lai S C. Independent component analysisbased background subtraction for indoor surveillance[J].IEEE Transactions on Image Processing, 2009, 18(1):158-167.
[18] Jiménez-Hernández H. Background subtraction approach based on independent component analysis[J]. Sensors, 2010,10(6): 6092-6114.
[19] Hyvärinen A, Karhunen J, and Oja E. Independent Component Analysis[M]. New York: John Wiley & Sons, 2004:165-178.
[20] Fakharian A, Hosseini S, and Gustafsson T. Hybrid object detection using improved gaussian mixture model[C].Proceedings of the 11th International Conference on Control,Automation and Systems, Gyeonggi-do, Korea, 2011:1475-1479.