段松传,韩彦芳,徐伯庆
(上海理工大学光电信息与计算机工程学院,上海200093)
运动目标的检测和分割[1,2]是计算机视觉领域中一个重要的课题,是进一步对目标进行分类、跟踪、定位、识别等技术研究的关键和基础[3]。
背景差分法[4]是解决这一问题的有效方法,是当前用的比较多的方法。可以用单高斯模型[5]来描述像素亮度值的不断变化,高斯混合模型[6]是利用混合高斯的方法对背景建模,但是每个像素的高斯分布假设都要受到参数的限制,所以后面提出了非参数的模型[4]。
在复杂背景中,基于像素的方法将不能有效地检测出运动目标,因为他们没有考虑像素间的相关性。基于区域的方法通常将一幅图像分成许多小块,计算特定块的特征。文献[7]中,对特征向量距离的进行归一化处理。在文献[8]中,计算一个块的边缘直方图作为其特征向量。所以仅仅能够粗略的检测出运动目标。
为了克服现有方法在复杂背景中的不足之处,提出了一种协方差矩阵描述子[9]。因为较大的旋转和光照的变化也会被协方差矩阵吸收,所以能够在复杂背景中有效的检测出运动目标。
在文献[6]中,介绍了协方差矩阵描述子,主要应用在目标检测和分割中。由于受到文献[9]的影响,在背景差分中,把协方差描述子用来描述区域。为了使协方差矩阵描述子能够适合于复杂背景中的运动目标检测,构建的协方差矩阵不同于文献[9]中的方法。
设I是一维的灰度图像或三维的彩色图像,F是从I中提取的W×H×d矩形特征图像。
式中,函数φ可能是亮度、纹理、梯度等的映射。已知矩形区域R⊂F,设 {fk}k=1,2……n是矩形区域 R 中的d维特征向量。与文献[6]中方法不同,特征向量fk是通过两类属性构建的:空间属性,通过像素的坐标值表示;表面属性,通过亮度、局部二进制模型(LBP)、亮度在x和y方向的一阶导数:
式中,x和y是像素的坐标,I(x,y)是像素的亮度,LBP(x,y)是局部二进制模型(它是通过每一个像素与其周围领域的像素做差值得到的一个二进制),Ix(x,y)和Iy(x,y)是亮度在 x和 y方向的一阶导数。用d×d维的协方差矩阵代替矩形区域R:
式中,μR是区域R的特征向量的平均向量。在复杂背景中,协方差矩阵作为描述子有很多优点。首先,在协方差计算的过程中,噪声在一定程度得到滤除,因此协方差矩阵建模对噪声具有一定的鲁棒性。其次,对于特征的均匀变化,协方差具有不变性。例如:色度的均匀变化。再次,协方差矩阵的对角线项描述的是每一维特征的变化(方差),其他项描述的是每一维特征之间的相关性(协方差),这个性质对于复杂背景建模很重要。最后,可以通过一种快速的积分图像方法[9]来计算特征图像的协方差矩阵。
设R是以像素P(x,y)为中心的M×N矩形区域,在这个区域上构建一个协方差矩阵C作为像素P(x,y)的特征向量,用K个自适应的协方差矩阵{C1,C2… …Ck}构建像素P(x,y)的背景模型,每一个模型矩阵都有一个0~1之间的权值,以至于K个协方差矩阵模型的权重之和为1。其中第k矩阵模型的权重标记为ωk,
式中K的选取一般由计算能力和内存决定,通常选3或5,虽然更大的K的能体现更复杂的场景,但同时消耗更多的时间。
图1 背景模型的初始化过程
对于第1帧图像,把它作为背景模型,通过第1帧图像建立5个协方差矩阵(K=5)。其中,F是第1帧图像,C1是第1帧图像的协方差矩阵,C2是第1帧左半图像的协方差矩阵,C3是第1帧右半图像的协方差矩阵,C4是第1帧上半图像的协方差矩阵,C5是第1帧下半图像的协方差矩阵。其中,
式中,ρ(A,B)是 A和 B之间匹配的衡量标准。{λi(A,B)}i=1,…,d是 A 和 B 之间的广义特征值。
如果C'与所有的K个模型矩阵的距离大于阈值Tp,则用替换权值最小的那个模型矩阵,赋予一个权值低的权重;如果与部分模型矩阵的距离小于阈值Tp,则把这部分模型矩阵作为匹配矩阵。t时刻的匹配矩阵通过新的数据进行如下更新:
式中,i和j是矩阵行和列的指标,ab是用户可设置的学习速率。而且模型矩阵的权重更新如下:
式中,αω是另一用户可设置的学习速率,Mk,t对于匹配矩阵值为1,其他矩阵值为0。背景模型的自适应速率是由ab和aω控制的。学习速率越高,背景更新的速度越快。
为了能够准确有效地检测出前景目标,把K个模型矩阵进行重新排列,因为权值大的矩阵,越可能成为背景模型,所以按照权值ωk从大到小顺序进行排列。结果最有可能成为背景模型的矩阵在第1位。前B个矩阵被选作为背景矩阵如下:
式中,1≤B≤K,TB是用户可以选择性的设置的,在单模态的情况下TB可以选择较小的值,在多模态的情况下TB选择较大的值。
图2 基于协方差矩阵的目标检测的过程
协方差矩阵算法在英特尔酷睿2四核Q6600@2.40 GHz处理器、4 GB内存、操作系统为Windows XP的条件下,以VC++6.0和OpenCV1.0为软件开发工具进行试验,测试视频的分辨率为320×240像素。用2个复杂背景的场景做实验。如图3所示,第1个场景是树枝背景,特征是树枝摇摆;如图4所示,第2个场景是湖面背景,特征为起伏的波浪和漂浮的物体等。第1行是第1场景的69帧,第2行是第2场景的422帧。
图3 树枝运动目标检测结果
图4 湖面运动目标检测结果
从图3和图4中可以发现,当背景中出现诸如摇摆的树枝、起伏的水波、流动的喷泉、飘扬的红旗和阴影等动态背景中的一些时,由于这些复杂的背景对目标提取的影响非常大,单纯的混合高斯模型或者LBP纹理模型处理结果都不理想,出现了很多的误判断。实验结果说明,使用的算法能够较好地消除了原本运动物体产生的阴影,有效地消除一些周期性变化的动态背景的干扰信息,并且能很好地检测出运动物体。
提出的复杂背景中目标检测方法是通过一组协方差矩阵为一个像素周围的矩形区域建模,集成了像素级和区域级的特征以及特征的相关性,所以能够有效地为复杂的动态背景建模,实验结果表明该方法满足视频图像序列中运动目标检测实时性和准确性要求,适用于广泛的场景模式,具有一定的实用价值。
[1] 林海涵,唐慧明.基于视频的车辆检测和分析算法[J].江南 大学学 报 (自 然科学 版),2007(3):323-326.
[2] 季白杨,陈纯,钱英.视频分割技术的发展[J].计算机研究与发展,2001(1):36-42.
[3] 刘翔,吴谨,祝愿博,等.基于视频序列的目标检测与跟踪技术研究[J].计算机技术与发展,2009,19(11):179-182.
[4] ELGAMMAL A,HARWOODD,DAVISLS.Nonparametric Model for Background Subtraction[C]∥Copenhagen:Proceedings the 6th European Conference Computer Vision,2000:751-767.
[5] WREN C R,AZARBAYEJANI A,DARRELL T,et al.Pfinder:Real-time Tracking of the Human Body [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):780-785.
[6] STAUFFER C,GRIMSON W E L.Learning Pattern of Active Using Real-Time Tracking [J].IEEE Trans.Pattern Analysis and Intelligence,2000,22(8):747-757.
[7] OJALA T,PIETIKANINEN M,HARWOOD D.A Comparative Study of Texture Measures with Classification Based on Feature Distributions[J].Pattern Recognition,1996,29(1):51-59.
[8] MASON M,DURIC Z.Using Histograms to Detect and Track Objects in Color Video[R].Washington:Applied Imagery Pattern Recognition Workshop,2001.
[9] TUZEL O,PORIKLI F,MEER P.Region Covariance:A Fast Descriptor for Detection and Classification[C]∥.Graz:Proceedinds the 9th European Conference.Computer Vison,2006:589-600.