程艳云 朱松豪 代心灵
1.南京邮电大学;2.南京华苏科技股份有限公司
传统的视频监控系统,主要用于记录,对异常行为事件的实时检测和事后的事故原因分析仍需人的参与。智能视频监控系统具有自主判断监控场所行为的能力,即当监控视频中发生异常行为时,智能监控系统能较快地做出反应,并向视频监视人员发出警报。因此,智能监控系统中的目标检测、目标跟踪、异常行为检测,日益成为近年来计算机视觉领域研究的一个热点。
运动目标检测技术作为智能监控技术中的核心部分,常用的方法有背景减除法、帧差法和光流法等。传统目标减除方法各有优缺点,国内外许多学者采用背景模型和帧差法相结合的目标检测方法,这在一定程度上改进了检测性能,但在检测长时间停滞的目标时,由于背景建模无法有效建立,导致检测效果不是十分令人满意。
背景建模虽然计算简单,但受光照突变、目标遮挡等因素影响,容易将背景像素错判为前景目标,引起检测误差。此外,运动目标的阴影也会导致误判。因此,本文依然沿用三维自组织背景减除算法中HSV颜色空间欧式距离的计算方法。
本文提出结合超像素算法与三维自组织背景减除算法结合的框架,实现运动目标检测。该框架的主要思想如图1所示,描述如下:首先,利用超像素算法,对图像帧进行区域分割;然后,通过三维自组织背景减除算法,对每个分割区域进行背景建模;最后,使用最佳权重策略,准确提取前景目标。相比三维自组织背景减除算法,本文提出的融合超像素分割的三维自组织背景减除算法,在一定程度上提高了检测精度和处理速度。
图1 本文所提方法的框架
创新与发展——大数据、云计算、网信安全及其他新技术
前景提取的目的是从图像中得到较为完整的前景目标运动区域,本文采用融合超像素分割的自组织背景减除算法(Self-Organizing Background Subtraction algorithm,SOBS),能很好地构建背景模型。
3DSOBS算法是一个基于自组织方法,自动生成神经网络模型的运动目标检测方法,能在提取运动目标时去除阴影区域。该算法采用神经网络模型:首先,构建一个n层神经网络模型;然后,计算当前帧与背景模型的最佳权重,从而判断每个像素是否为背景像素。该算法主要包括以下三个主要步骤:模型初始化、前景检测、模型更新。
在3DSOBS算法中,背景初始模型的构建过程就是将第一帧图像的所有像素x扩展为n层的神经网络模型Bt的过程:
初始背景模型B0中每个像素x的权重,为每个像素的亮度值:
背景模型的更新是通过将t时刻图像It的像素x与背景模型Mt-1(x)的像素x进行比较,以确定是否存在一个最佳的权重mbt-1(x):如果存在一个可接受的匹配权重,则将图像It的像素x视为背景像素;如果不存在一个可接受的匹配权重,则可将图像It的像素x视为前景像素。
1.3.1 背景模型的更新
在t时刻,通过背景模型的像素Mt-1(x)={m1t-1(x),m2t-1(x),…,mnt-1(x)}与当前图像It的像素比较,以确定最佳的背景模型:
上式中的第i个背景图像像素的权重mit-1(x)与图像像素值It(x)之间的距离公式如下:
上式中的(mH,mS, mV)和(IH,IS,IV)分别表示mit-1(x)和It(x)的色调、色度和强度分量。
1.3.2 背景模型的权重更新
为使神经网络背景模型更好地适应场景的微小变化,对t时刻的背景模型Mt-1(x)进行更新:
上式中的Nx是像素x的w2D邻域。
式(5)中的α(x,y)表示像素x与其邻近像素y∈Nx间的关系权重:
上式中的γ表示学习因子,G2D(•)=N(•;0, σ2)表示均值为0、方差为σ2的二维高斯低通滤波器,Dt(x)表示包含像素x在内的背景区域的占有率,St(x)表示运动目标阴影的掩码值。
式(6)中学习因子的大小取决于场景变化的强度:较大的值,能确保背景模型的学习速度与背景变化的强度保持一致,但同时也会将背景模型像素误判为前景目标像素;相反,较小的值,有利于适应缓慢变化的背景模型,且能依据自组织避免过多的误判。
由于式(5)仅能更新当前背景模型以选择最佳背景图像模型,所以,本文利用下式对最佳背景图像的相邻背景图像进行更新:
上式中的i表示最佳背景图像的邻域。
式(7)中的δ (x)表示像素x与其邻近像素y∈Nx间的关系权重:
上式中的v为学习因子,与式(6)中的学习因子γ具有相同的性质。G1D(•)= N(•;0, σ21D)是在邻近区域的一个均值为0、方差为σ2的一维高斯低通滤波器,Dt(x)和St(x)与式(6)中Dt(x)和St(x)的意义相同。
1.3.3 背景区域的占有率更新
利用连续像素间像素值的差异,可有助于实现连续区域的判断:来自同一前景目标的邻近像素间像素值的差异强度是一致的,而自不同前景目标的邻近像素间像素值的差异强度是不连贯的。因此,利用场景目标与场景背景的空间一致性,可计算背景区域的占有率:
上式中的NCFt(x)表示像素的邻域一致性:
上式中的Hx={y:|x-y|≤h}表示像素x的(2h+1)×(2h+1)的二维邻域,Ωx表示Hx集合最佳的匹配像素:
上式中的∈表示区分前景像素与背景像素的阈值:较大的阈值,会导致将前景目标像素误判为背景像素;而较小的阈值,则有利于避免将前景像素误判为背景像素。
式(9)中的Dt(x)用于确保选择性地更新背景模型,以适应不同场景:当NCFt(x)>0.5时,表示像素x及其邻近像素能很好地代表背景模型,此时可将像素x视为背景像素,则Dt(x)=0;当NCFt(x)≤0.5,表示像素x及其邻近像素不能很好地代表背景模型,可将像素x视为前景像素,则Dt(x)=1。
1.3.4 前景目标阴影区域识别
相对于前景目标像素,前景目标阴影像素的色度和强度会明显降低很多。因此,在t时刻,当前图像帧It的前景目标阴影的掩码值St(x)可表示为:
上式中的(mH,mS,mV)和(IH,IS,IV)分别表示m i t-1(x)和It(x)的色调、色度和强度分量,阈值τVl,τVu,τS及τH需根据实际情况动态设置。
由上述可知,3DSOBS的学习因子是恒定不变的,且运动区域的权重也是恒定不变的。因此,当如式(13)所示的前景像素发生较小更新时,式(14)所示的背景模型则会发生较大的更新。
由于背景模型较为复杂,所以使用如式(15)所示的自适应学习因子更新背景模型:
上式中的Tinc和Tdec为预先设置常量,且:
由于自组织背景减除算法中的权重计算较为复杂,所以需对图像进行超像素分割,从而降低算法复杂度。
超像素对图像进行分割时,在既定的区域周围,将同质像素归为一类,即为一超像素。简单线性迭代聚类 (simple linear iterative clustering,SILC)算法是依据颜色、位置信息,实现聚类的超像素分割。本文利用Lab空间信息及像素的x、y坐标信息构造相似性度量,实现图像局部聚类,形成超像素区域;然后,利用GPU、NVIDIA、CUDA等硬件加快处理速度,将简单线性迭代聚类算法速度提高10~20倍,促使简单线性迭代聚类算法应用到实时性要求比较高的系统中。
简单线性迭代聚类算法的具体实现步骤包括:
(1)初始化种子点。假设将含有N×N个像素点的图像分割为K×K个超像素,则每个超像素大小接近N2/K2,且每个种子点的间距近似为S=N/K。为避免种子点位于图像边缘,以致对后续聚类处理造成干扰,需将种子点从以它为中心的3×3窗口内,移到如公式(18)所示的梯度值最小的位置,同时为每个种子分配一个标签。
上式中的l(x, y)是LAB颜色空间中的像素值。由此得到初始种子点pi(i=1, 2, ……, K2)。
(2)相似度度量。 SLIC算法的相似度度量公式为:
上式中的dlab表示像素点间的色差,dxy表示像素点间的空间距离,S表示像素个数与设置的超像素个数间的比值。d(i,k)为第i个像素点与第k个聚类中心间的相似度,取值越小,两者越相似。m为平衡参数,用以平衡颜色值与空间信息在相似性度度量中的比重,本文取经验值m=10。通过计算像素点与聚类中心的距离,可将距离较近的像素点聚为一类,实现预分割,得到超像素。
(3)快速K均值聚类方法更迭种子点。假定在X-Y平面上聚类中心的像素点位于2S×2S区域内,所有像素点关联到最近的种子点后,将新种子点更新为同类别中所有像素点特征的平均值。反复此过程,直到收敛,停止迭代。
(4)形成超像素。将最相似的聚类中心标签赋给像素点,形成K×K个超像素。
从上述算法实现过程中可看出,简单线性迭代聚类算法存在分割数目固定的缺点:分割数目K由研究者自行确定,且K值确定之后将不再变化;若指定分割数目欠妥,则容易出现欠分割或者过度分割的现象,不能达到满意的分割效果。所以,本文采用自适应的K值调整方法:
为了更好地降低算法的复杂度,对式(19)中的色差和空间距离进行简化,使用绝对值的方法进行计算,虽然在一定程度上引入了误差,但是这种误差是在允许范围内的:
由于3DSOBS算法中权重向量的计算复杂度较高,且需计算每个像素对应的权重向量,所以在实时性要求比较高的系统中无法使用。本文使用SLIC算法对整幅图像进行超像素分割,得到K个超像素,从而减小算法复杂度,提高算法效率。
(1)首先使用SLIC算法对图像帧进行处理,得到K×K个超像素的标签。(2)然后使用3DSOBS对处理之后的图像进行前景检测。计算式(3)中像素x的最佳权重时,利用超像素内若干像素点的平均特征表示这个超像素的特征,从而减小计算量:
更新权重向量时,依然使用原方法。
计算背景区域的占有率时,同样利用超像素内若干像素点的平均特征表示这个超像素的特征,从而简化计算。对式(10)的改进如下:
上式中的Hx={yj:|x-yj|≤h, yj∈Li}表示像素x的(2h+1)×(2h+1)二维邻域,Ωx表示Hx集合中找最佳的匹配像素:
上式中的yj表示超像素Li中的像素。
融合SLIC与3DSOBS算法的图像分割过程如下表所示。
本次的操作系统设置为:Windows 7x64,酷睿i7 4790 3.6GHz,GTX960 4G,8G内存。
本次的实验平台设置为:基于OpenCV计算机开源视觉库搭建的VS2013开发实验平台。本次的实验数据为:MSA、PETS2009数据库。
本次的对比算法有:传统的高斯混合模型算法、ViBe背景减除算法、3DSOBS算法。实验结果如图2-图5所示。
图2 MSA数据库第158帧的运动目标检测结果
图3 PETS2009数据库S0中Background场景中第118帧的检测结果
图4 PETS2009数据库S0的City_Center场景中第48帧的检测结果
图5 PETS2009数据库S2L1场景中第56帧的检测结果
从图2-图5的检测实验结果可以看出,基于本文算法的检测效果要明显好于其它三种算法。对于3DSOBS算法,本文使用GPU进行加速且融合超像素分割算法,有效地提取速度有所提升。从图2-图5的目标检测试验中,传统的混合高斯模型和ViBe模型对于进入场景之后静止的物体无法进行提取,从而对后续的丢弃物等异常无法进行识别。
虽然已经在前景检测邻域取得了丰硕的成功,但是依然存在很多实际应用中的问题需要解决,以便更好地实现后续的跟踪、识别等一系列的处理。后续处理均需要从前景检测中提取信息,所以前景检测作为智能监控领域一个较为重要的研究方向,提高前景检测的效率和准确率能够有效改善后续对图像的处理。基于融合SLIC的3DSOBS算法在实验中表现出较好的性能。
本文围绕前景检测的关键技术进行研究,研究内容涉及运动目标的检测和运动目标进入场景静止之后再运动。具有一定的理论研究价值和现实的应用意义。