张国家,左敦稳,黎向锋,史晨红
(南京航空航天大学 机电学院,江苏 南京 210016)
手势识别技术作为一种新型人机交互技术,已在军事、智能交通等多个领域取得应用。前景提取技术是手势识别技术的基础,前景分割的品质直接影响手势特征的提取和识别精度。目前,前景提取技术多采用背景建模的方法,其中以平均背景模型、高斯背景模型、CodeBook背景模型以及非参数化估计背景模型研究较多,并取得了一系列成果。王传旭等[1]采用基于邻域相关性和帧间连续性的运动目标分割算法。Ariel Amato等[2]提出一种以色彩和亮度为依据的分割算法。这两种算法受噪声的影响大,为此,Elgammal等人提出一种非参数核密度估计背景建模方法,前景提取效果好,但其单帧处理时间长,实时性较差[3]。为了提高实时性,Darrnn E Butler和Michael V提出一种在时域上对像素进行聚类的方法[4]。Kedar A.Patwardhan等[5]使用最大概似法进行背景或者前景判断。相对于非参数密度函数估计,混合高斯背景模型(GMM)是一种典型的参数化模型,其对多类别和复杂背景下的前景提取具有比较好的效果。并已有众多学者对其进行了改进,AGMM[6],TLGMM[7],STGMM[8],SKMGM[9],SEMGMM[10], ADGMM[11],旨在改善高斯混合模型的检测效果,提高算法实时性,降低算法空间复杂程度。但其实时性和空间复杂度等仍然难以满足广泛的应用要求。可见,高斯混合模型、核密度估计等基于数据聚类分析的算法具有优越的检测效果,但时间和内存消耗大等问题极大地限制了其应用。而基于简单的单帧和帧间信息的背景模型,因为背景适应能力和鲁棒性差等问题同样没能得到广泛应用。本文针对复杂单模背景提出了一种运用背景差分构建辅助背景滤除噪声,以色彩相似度为评价标准的前景有效提取算法。在保证检测效果的同时,减小空间复杂度,提高算法的实时性。
该算法主要包括五个流程:1) 均值背景建模;2) 提取辅助背景;3) 用辅助背景对背景差分图进行空域滤波;4) 构建像素色彩相似度评价标准并进行前景区域检测;5) 更新背景和辅助背景。算法流程如图1所示。本文解决的关键技术包括基于辅助背景的图像滤波技术和基于色彩相似度的前景检测技术。
图1 算法总体流程
背景建模完成后,首先用背景差法进行背景减除,获得背景差分图像:
outt(x,y)=ft(x,y)-ubft(x,y)
(1)
背景差图像outt(x,y)中包含前景目标和大量的噪声点,如果直接对差分图像进行前景目标提取,将使前景区域出现大量的空洞和残缺,所以,在前景区域检测前必须对背景差分图像进行滤波,以减小环境噪声的影响。ubf0(x,y)是在没有前景目标时训练的辅助背景,其描述了背景图像中噪声的分布。用ubf0(x,y)对outt(x,y)进行空域滤波,去除大部分的环境噪声,获得不含环境噪声的背景差分图像out_st(x,y),再对out_st(x,y)进行前景目标提取可以抑制前景区域中的空洞和残缺现象的产生。
在RGB色彩模型中,将每个像素值理解为一个三维向量,本文以像素向量之间的相似程度作为判断像素隶属前景或背景区域的标准。在向量相似度中,常用两个向量夹角的余弦值来衡量两者的相似程度,但对于像素色彩相似度,该方法常出现误检测。误检测包含两种,1) 将前景区域误判为背景,这常是由于噪声引起的;2) 将背景区域误判为前景,这不仅是由于噪声的影响还有阴影的影响。如图2所示,向量A和B的夹角θ值比较小,可以将二者归为一类,但由于光照的影响,将使A出现偏离,θ角变大而出现误检测。有学者采用亮度归一化的方法进行光照抑制,但光照对R,G,B值的影响并不是成比例变化的,亮度不仅改变了向量的模值,也改变了向量之间的夹角。因为亮度变化时,虽然色彩的色调没有变化,但饱和度出现了变化,视觉上会出现色彩偏差,也即R,G,B值的比例发生了改变。经过对像素色彩信息的研究,本文提出如下的色彩相似度理论。设F(x,y)和B(x,y)分别表示像素位置(x,y)处的当前像素值和背景像素值,则:
(2)
图2 像素向量空间关系
表示(x,y)位置处背景和前景的色彩相似度,其中d为数据维数,在RGB色彩模型中d=3。fi,bi为像素的各维度值,ni=|fi+bi|/2用于抑制数据基数对相似度的影响,即亮度变化对相似度的影响。由式(2)可知,只有在像素向量的各维度值都很接近时,其相似度值才会很大,有一者出现偏差都将导致相似度大幅度偏离。其从本质上描述了两种色彩的色调关系,对光照和阴影的影响具有很强的鲁棒性。
利用式(2)对空域滤波后的背景差分图像out_st(x,y)进行前景检测,按下式进行
(3)
式中TH为分割阈值,当相似度小于TH时,判断该像素与背景不相似,把该像素判为前景,标记为1,否则判为背景。试验表明,TH取值在0.5~0.7范围比较合适。前景提取后获得t时刻的前景区域,因为前景检测前已使用辅助背景对环境噪声进行滤除,且本文的像素相似度评价标准对阴影和光照变化具有较强的抑制能力,因此,所获得的前景区域内部空洞比较少,无阴影现象。对前景检测后的图像进行适当的形态学开闭操作,输出完整的前景目标区域output_st(x,y)。
前景检测完后需要对背景模型和辅助背景进行更新,以适应背景变化。对所有像素,令ubft(x,y)更新后为ubft+1(x,y),并按下式进行更新:
ubft+1(x,y)=(1-α)ubft(x,y)+αft(x,y)
(4)
其中α为背景学习率(0~1),α的选取要根据背景状态的变化情况进行,背景变化快时,α取值较大,背景变化慢时,α取值较小。一般取α=0.002 ,较大的α将使前景目标融入背景。另外,为了避免将先运动后禁止的前景目标误检为背景,对前景目标区域不进行更新,只对判断为背景的区域进行更新。试验表明,该更新方法能有效改善静止目标被融入背景的现象。
辅助背景的更新需要不包含前景目标区域的背景差分图,在辅助背景更新前先用output_st(x,y)滤除背景差分图像outt(x,y)中的前景区域,获得只包含环境噪声的背景差分图像Poutt(x,y)。
poutt(x,y)=outt(x,y)-outputt(x,y)
(5)
辅助背景更新的方式与背景模型更新方式相似,按下式进行:
abft+1(x,y)=(1-β)abft(x,y)+βpoutt(x,y)
(6)
其中abft+1(x,y)为更新后的辅助背景,β与α的意义相同,也为背景学习率(0~1),但β的取值应比α大,一般取β=0.1。
为了测试本文算法的有效性,对大量的标准视频和实际视频进行了测试,并与高斯混合模型和CodBook算法进行了比较。测试环境是一台2.3GHz,2G内存的PC,在VC6.0下实现。图3为对IBM人类视觉研究中心监视系统性能评价提供的视频PetsD1TeC1的测试结果,分别是第530帧和940帧时的效果。由图3可以看出,与混合高斯模型算法相比,本文算法对前景目标具有比较完整的检测效果,而且当前景目标静止时,不会因为背景更新而被误认为是背景。在第940帧原图中红圈标出的是第530帧中运动的汽车静止在停车场的情形;GMM算法把静止的前景目标误认为是背景,产生误检测;而本文算法则有效地解决了这个问题。与CodeBook算法相比,本文算法具有较强的抗干扰能力。针对视频PetsD1TeC1,其单帧大小为384×288,经测试本文算法的平均单帧处理时间为42ms,内存消耗为21.6MB,可见本文算法具有良好的实时性和优越的空间复杂度。图4为对IBM人类视觉研究中心监视系统性能评价提供的视频IndoorGTTest1的测试结果,由第515帧和第778帧均可以看出本文算法对前景目标具有比较完整的检测结果。第778帧中红圈标出的是前景目标的阴影区域;可以看出,本文算法和GMM算法对阴影均具有比较好的抑制作用,而CodeBook算法则出现了明显的阴影。
图3 室外场景测试对比图
图4 室内场景测试对比图
本文提出了一种基于RGB色彩相似度的前景有效提取算法。该算法主要解决了两个问题:1) 提出了一种基于辅助背景的图像滤波技术,解决了复杂单模背景下的图像滤波问题;2) 构建像素色彩相似度作为前景区域检测标准,该相似度理论对光照变化和阴影具有较强的抑制作用,为前景分割技术提供了新的思路。由于该算法中的背景模型简单,且只对疑似前景区域进行多次操作,从而降低了算法的内存消耗和计算时间,检测效率有较大提高。多场景试验表明,该算法对复杂单模背景保持了较好的前景检测效果和检测效率,在手势识别和视频监控等领域中具有广阔的应用前景。
[1] 王传旭,张祥光,原春锋,等.基于邻域相关性和帧间连续性的前景目标分割[J].数据采集与处理,2007,22(3):288-291.
[2] Ariel Amato,Mikhail Mozerov, Iván Huerta.et al.Background subtraction technique based on chromaticity and intensity patterns[C].Tampa, Florida, USA:IEEE Conference Publications,2008.
[3] Elgammal A,Dura swami R,Harwood D,et a1.Background and foreground modeling using nonparametric kernel density estimation for visual surveillance[J].Proceedings of IEEE,2002.90(7):1151-1163.
[4] Darrnn E Butler,Michael V.Real-time adaptive foreground background segmentation[J].Real-Time Imaging,2005,6(11):172-185.
[5] Kedar A.Patwardhan,Guillermo Sapiro,Vassilios Morellas.Robust Foreground Detection In Video Layers[C].IEEE Computer Society:Los Alamitos USA,2008.
[6] Zivkovic Z.Vail der Heijden F.Efficient adaptive density estimation per image pixel for the task of background subtraction[J].Pattern Recognition Letters,2006,27(7):773-780.
[7] Yang H, Tan Y, Tian J, Liu J.Accurate dynamic scene model for moving object detection[A], In Proc.Int Conf on Image Processing (ICIP)[C], San Antonio, TX, 2007, 6: 157 -160.
[8] Zhang W, Fang X, Yang X, Wu Q.Spatiotemporal Gaussian mixture model to detect moving objects in dynamic scenes[J], Electronic.Imaging, 2007; 16(2):023013.
[9] Tang P, Gao L, Liu Z.Salient moving object detection using stochastic approach filtering[A].Fourth Int Conf on Image and Graphics (ICIG)[C], Sichuan, China, 2007; 530-535.
[10] B.A.S.Hasan, and Q.J.Gan, Sequential EM for unsupervised adaptive Gaussian mixture model based classifier[A], In Proc.6th Int.Conf.Machine Learning and Data Mining in Pattern Recognition[C], Leipzig, Germany, 2009: 96-106.
[11] 齐玉娟,王延江,索鹏.一种基于混合高斯的双空间自适应背景建模方法[J].中国石油大学学报(自然科学版),2012, 36(05):175-183.