李春华 郝娜娜 刘玉坤
摘要:针对经典视频显著目标提取模型没有充分利用时域显著性线索,易受背景噪声干扰,提取的显著目标不完整等问题,提出了一种在时空对比度指导下的視频显著目标提取模型。首先,自适应融合RGB颜色空间对比度和运动对比度,确定显著目标的先验信息;然后,利用当前帧的前景提取项和邻近帧位置约束项组成能量函数,指导时空显著性线索融合;最后,通过超像素级平滑优化处理,提取完整的视频显著目标。实验结果表明,模型在Visal,SegTrack V2和DAVIS数据集上进行测试,MAE值分别达到了0.030,0.024和0.032,F-measure值分别达到了0.772,0.781和0.812,具有良好的准确性和鲁棒性。因此,所提算法能够有效检测出视频中的显著目标,可为监控系统以及目标跟踪提供理论参考与方法依据。
关键词:信息处理技术其他学科;能量函数;自适应融合;降级优化;时空先验
中图分类号:TN958.98文献标识码:Adoi:10.7535/hbkd.2022yx02004
Abstract:The classical video salient object extraction model does not make full use of time-domain saliency cues,and is susceptible to the background noise interference.The extracted salient objects are incomplete.This paper proposed a video salient object extraction model under the guidance of spatio-temporal contrast.Firstly,adaptive fusion of RGB color space contrast and motion contrast was used to determine the prior information of prominent targets.Then,the energy function was composed of the foreground extraction item of the current frame and the position constraint item of the adjacent frames,which was used to guide the spatio-temporal saliency cue fusion.Finally,the complete video salient target was extracted by super-pixel smoothing optimization.The experimental results show that the model is tested on Visal,SegTrack V2 and DAVIS data sets.The MAE values in Visal,SegTrack V2 and DAVIS data sets are 0.030,0.024 and 0.032,respectively,and the F-measure values are 0.772,0.781 and 0.812,respectively,with good accuracy and robustness.This algorithm can effectively detect the visible targets in the video,thus providing theoretical reference and method basis for the monitoring system and target tracking.
Keywords:other discipline of information processing technology;energy function;adaptive fusion;degradation optimization;spatio-temporal prior
人类视觉系统能够在复杂场景中迅速锁定关注目标,显著性检测技术可以模仿人类这一视觉机能,检测图像中被关注的区域。作为图像压缩[1-2]、图像分割[3]和目标识别检测[4]等应用的重要处理环节,显著性检测技术广泛应用于监控系统[5]、行为检测[6]和目标跟踪[7]等技术领域。近年来,综合利用时间和空间维度的视觉目标检测已成为视频显著目标检测的研究热点。视频目标运动模式的多样性、视频场景的多变性、相机运动等因素增加了视频显著性检测的难度,因此视频显著目标的准确检测具有较大的挑战性。
河北科技大学学报2022年第2期李春华,等:时空对比度引导的视频显著目标提取模型视频显著性检测算法可分为3类:基于空间算法、基于时间算法和基于时空算法。基于空间算法直接将图像显著性检测方法应用于视频显著目标的提取。Itti[8]、背景先验[9]、深度特征[10]、中心先验[11]和贝叶斯推理[12]等方法,虽然在图像检测中具有较好的性能,但是直接用于视频检测时却无法有效处理目标遮挡、运动模糊、时间抖动等问题。基于时间算法包括帧差法、背景差分法和光流法。帧差法[13]通过对相邻帧中对应像素进行差分处理,检测运动对象的边缘信息,提取的目标通常不完整。背景差分法[14]对背景进行建模,利用输入视频帧与背景之间的差异获知运动区域。背景建模的精度直接影响运动目标检测的准确性。光流法[15-16]通过估计像素的运动场,将具有相似运动矢量的像素归并为显著性目标。光流法不依赖于场景的任何先验信息,具有广泛的适应性,但其计算复杂度较高,如果没有高性能硬件的辅助,很难保证实时完成检测任务。基于时空算法通过将运动信息与空间域的低层特征相融合,得到显著性图。文献[17]借助中心环绕对比度将运动特征集成到Itti模型框架中。LIU等[18]利用自适应融合运动直方图和空间显著性提取视频的显著目标。文献[19]和文献[20]采用动态加权的方式综合时间和空间线索,确定显著目标。
虽然大量视频检测模型逐步改善了视频显著目标的提取效果,但其准确性和鲁棒性仍不尽如人意。因此本文提出了一种基于时空对比度指导的视频显著目標提取模型,以提高视频显著目标检测的准确性。
1算法描述
经典显著运动目标检测算法对显著目标的局部运动、运动场变化不明显或在有遮挡的情况下处理效果不理想。针对以上问题,本文提出的视频显著目标检测模型将颜色对比度和运动对比度作为先验条件,构造外观模型和动态位置模型,保证视频序列的一致性,减弱显著目标由局部运动或遮挡情况所带来的影响。算法框架图如图1所示。首先,自适应融合RGB颜色空间对比度和运动对比度,形成显著目标的时空先验信息;然后,利用当前帧的前景提取项和邻近帧位置约束项组成能量函数,优化时空显著性线索融合;最后,通过超像素级平滑处理,提取完整的视频显著目标。
1.1基于对比度的先验信息
在视频播放过程中,不连续视频帧的颜色差异和相邻帧间的运动变化都能够吸引观众的注意。因此,本文所提模型把颜色变化和位置变化作为视频显著性检测的重要线索,在RGB颜色空间内计算帧内全局颜色对比度,利用光流法[21]计算目标的运动速度,进而转化为运动对比度,最后将运动对比度和全局颜色对比度自适应融合为先验显著性图。
1.1.1运动对比度
为了克服像素级上计算光流的复杂性和时间成本高的问题,运用超像素分割技术[22]将视频帧序列I={I1,I2,…,Ik,…}中的各帧划分为超像素集Pk={Pk1,Pk2,…},通过光流法计算各帧超像素的光流矢量。基于超像素估计光流场,可以减少计算负担。由于运动梯度比运动显著线索更可靠[23],本文通过将运动梯度与颜色梯度相结合生成时空梯度,指导低水平对比度的计算。时空梯度Mk的表达式为
2 实验结果与分析
将本文算法在Visal[23],SegTrack V2[27]和DAVIS[28]公共视频数据集上进行测试,并与经典的10种视频显著性检测算法进行比对,其中包含8种传统算法和2种深度学习模型,包括RWRV[29](随机游走)、MST[30](最小成树)、GF[23](梯度流)、SGSP[31](超像素级)、SAG[24](测地线时空先验)、STBP[32](SIFT流的时空背景先验)、SFLR[25](低秩相干时空融合)、SGAF[33](时空一致性)、SCOM[34](深度时空约束优化模型)、DLVS[35](全卷积网络训练模型)。
2.1 主观结果对比
ViSal数据集包含17个具有挑战性的视频序列:背景高度杂乱的hores等;快速运动的car等;慢速运动的boat等;前景背景颜色差异小的motorbike等;移动摄像机的gokart等。这些视频的长度从30帧到100帧不等。
由图5可知,由于RWRV算法简单地将时间显著性作为随机游走器重新分布估计时空显著性,得到显著目标的粗略位置信息,不能精确地提取目标。SGSP和STBP模型在超像素基础上加入运动场的因素,检测效果有所提升,但是当前景目标与背景颜色接近时,例如图5 中gokart视频,不能精准地突出显著性边缘。MST算法与以上3种方法相比,能够更加精准地定位检测目标,但抑制背景噪声的能力一般,例如图5的horse视频。本文模型、GF,SAG,SGAF,SFLR和深度学习方法SCOM,DLVS都是利用光流结合空间特征表现视频序列的显著性,但在减弱噪声影响方面本文算法优于GF,SAG和SCOM算法;图5的horse 2视频中的远处目标时,SFLR,SGAF和DLVS当作背景处理,只有本文模型能够完整的检测出显著目标,证明该模型在抑制背景噪声和目标边缘细节特征方面均优于其他算法,始终最接近真值图。
SegTrack V2数据集包括14个视频序列,其中大部分视频序列的时间周期都非常短(不超过100帧),背景杂乱且变化不大,每一帧都通过前景微妙的局部变化表现目标运动,并且目标的颜色接近背景颜色,使得目标的显著性难以被检测。
由图6可知,对于快速运动的cheetah视频序列出现模糊现象,本文算法在目标完整性和抑制背景的能力上优于其他算法。处理只有胳膊和腿局部运动的girl视频序列,其他算法检测结果大致分为2类:一是头部附近带有背景噪声(MST,STBP),不能清晰检测小女孩的轮廓(RWRV,SGSP);二是将小女孩的手部作为背景抑制,对目标的完整性造成影响。本文所提算法能够较好地抑制复杂背景影响,完整地检测显著区域,整体检测性能优于其他算法。
DAVIS数据集包含50个高分辨率的视频,该数据集中的场景包含大量遮挡(bus等)、外观变化(mallard-fly等)和形状扭曲(breakdance-flare等),使得显著目标的提取面临挑战。
由图7可知,当处理背景复杂且与前景颜色接近的视频时,本文算法抑制噪声能力优于其他算法;当处理外观不明显的视频时,本文算法、SCOM和SFLR表现出相似的检测能力;但是当处理显著目标出现部分被遮挡的情况时,本文算法通过预测下一帧的运动梯度和当前帧的显著外观模型调整检测结果,使得其最接近地面真值图,实验结果再次验证了对复杂场景、运动模糊等具有挑战性的的情况,本文算法模型能够更加准确地检测出显著目标。
虽然所提算法能够完整地检测出大部分显著目标,但是当视频中出现显著目标的阴影或者视频亮度发生明显变化时,检测结果则不尽如人意。图8为本文算法的部分失败案例,原因在于当视频中出现目标物阴影或亮度发生明显变化时,很难实现亮度恒定,阴影部分的显著值高于阈值,在基于对比度的先验信息中直接被认定为前景对象,导致检测结果不准确,鲁棒性降低。
2.2 客观结果对比
为了更客观地评估本文算法,采用标准的PR曲线、平均绝对误差(MAE)以及F-measure(Fβ)和S-measure(Sm)值定量分析算法的性能。
在Visal,SegTrack V2和DAVIS數据集上分别选用6段复杂的视频进行实验分析,得到平均PR曲线、MAE值图和Fβ和Sm客观评价指标如图9所示。由图9 a)可以看出,本文算法的PR曲线略高于DLVS,SGAF,SFLR等算法,说明在相同召回率的情况下,本文算法的准确率高于其他算法,提取的显著目标更加准确。[HJ2.3mm]随着召回率的增加,分割阈值逐渐减小,使得更多区域被判断为显著区域,所以各个算法对应的准确率下降。由图9 b)算法显著图与真值图的像素级直接比较的结果可以看出,本文算法的平均绝对误差更小,与真值图更接近,表明在视频数据复杂度变高时,本文算法检测结果具有更高的准确性。图9 c)为Fβ和Sm客观评价指标数据,从图中可以看出在数据集SegTrack V2和DAVIS中,本文算法的数据分别略逊于DLVS,SCOM算法,这是因为经过全卷积网络训练的DLVS模型对于运动变化明显的显著对象更敏感,能够较好地考虑区域与对象结构的相似性,而在运动缓慢、遮挡或者显著目标变形的情况下,DLVS算法的性能下降;SOCOM算法通过背景势、前景势以及平滑势的统一处理,使其在背景复杂的场景中更稳定地检测目标,但其显著目标的细节检测没有通过约束优化处理。因此,通过图9的结果可以得出本文算法具有更加稳定的准确性和鲁棒性,验证了本文算法的优越性。该算法是通过多种技术的融合,引入时域线索而有效提取视频图像的显著目标,虽然在提取精准性方面有所提高,但是多种技术的融合增加了视频检测的复杂性,通过算法运行时间反映算法效率,时间对比结果如表1所示,从平均运行时间上可以明显看出,所提算法耗时最长,是以牺牲检测效率保证了模型更加稳定的准确性和鲁棒性。
3 结 论
本文提出了基于时空对比度的视频显著目标提取模型,有效改善了提取视频显著目标不完整的问题,提高了检测准确性。首先,自适应融合RGB颜色空间对比度和运动对比度,确定了显著目标的先验信息;然后,将基于对比度融合后的时空先验估计作为线索指导能量函数中外观模型和运动模型的形成,并在优化过程中去除视频中确定的背景区域;最后,通过超像素级平滑处理,提取了完整的视频显著目标。本文算法采用多次降噪优化筛选,具有良好的完整性、准确性和鲁棒性。实验结果表明,所提算法对视频复杂场景中快速运动、遮挡和局部运动的显著目标,表现出相对稳定的检测性能,为监控系统锁定视频显著对象和目标跟踪提供了理论基础和方法依据。但是,本文算法对于视频中出现目标阴影和视频亮度发生明显变化的情况,检测效果不够理想,未来将继续研究如何提高带有阴影视频的显著目标检测结果的准确性。
参考文献/References:
[1] ZHENG B W,ZHANG J P,SUN G L,et al.Fully learnable model for task-driven image compressed sensing[J].Sensors,2021,21(14):4662.DOI:org/10.3390/S21144662.
[2] 刘向增,范立佳,徐雪灵,等.星载JPEG-LS图像压缩质量评价研究[J].微电子学与计算机,2021,38(9):45-53.
LIU Xiangzeng,FAN Lijia,XU Xueling,et al.Research on quality evaluation of spaceborne JPEG-LS image compression algorithm[J].Microelectronics & Computer,2021,38(9):45-53.
[3] WANG K,WU K,WANG C L,et al.Identification of NOx hotspots from oversampled TROPOMI NO2 column based on image segmentation method[J].Science of the Total Environment,2022,803.DOI:10.1016/J.scitotenv.2021.150007.
[4] 薛培林,吴愿,殷国栋,等.基于信息融合的城市自主车辆实时目标识别[J].机械工程学报,2020,56(12):165-173.
XUE Peilin,WU Yuan,YIN Guodong,et al.Real-time target recognition for urban autonomous vehicles based on information fusion[J].Journal of Mechanical Engineering,2020,56(12):165-173.
[5] SULTAN S,JENSEN C D.Metadata based need-to-know view in large-scale video surveillance systems[J].Computers & Security,2021,111.DOI:10.1016/j.cose.2021.102452.
[6] LAHOULI I,KARAKASIS E,HAELTERMAN R,et al.Hot spot method for pedestrian detection using saliency maps,discrete Chebyshev moments and support vector machine[J].IET Image Processing,2018,12(7):1284-1291.
[7] LI SN,QIN Z,SONG H B.A temporal-spatial method for group detection,locating and tracking[J].IEEE Access,2016,4:4484-4494.
[8] ITTI L,DHAVALE N,PIGHIN F.Realistic avatar eye and head animation using a neurobiological model of visual attention[C]//Optical Science and Technology,SPIE's 48th Annual Meeting.San Diego,California,United States:[s.n.],2003.DOI:10.1117/12.512618.
[9] LI CY,YUAN Y C,CAI W D,et al.Robust saliency detection via regularized random walks ranking[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,MA,USA:IEEE,2015:2710-2717.
[10]CONG R M,LEI J J,ZHANG C Q,et al.Saliency detection for stereoscopic images based on depth confidence analysis and multiple cues fusion[J].IEEE Signal Processing Letters,2016,23(6):819-823.
[11]ZHU C B,LI G,WANG W M,et al.An innovative salient object detection using center-dark channel prior[C]// 2017 IEEE International Conference on Computer Vision Workshops (ICCVW).Venice,Italy:IEEE,2017:1509-1515.
[12]LI X H,LU H C,ZHANG L H,et al.Saliency detection via dense and sparse reconstruction[C]//2013 IEEE International Conference on Computer Vision.Sydney,NSW,Australia:IEEE,2013:2976-2983.
[13]MECH R,WOLLBORN M.A noise robust method for segmentation of moving objects in video sequences[C]//1997 IEEE International Conference on Acoustics,Speech,and Signal Processing.Munich,Germany:IEEE,1997:2657-2660.
[14]BOUWMANS T,BAF F E,VACHON B.Background modeling using mixture of Gaussians for foreground detection-a survey[J].Recent Patents on Computer Science,2008,1(3):219-237.
[15]HORN B K P,SCHUNCK B G.Determining optical flow[J].Artificial Intelligence,1981,17(1/2/3):185-203.
[16]TSUI K C,LIU J M.Evolutionary diffusion optimization(I):Description of the algorithm[C]//Proceedings of the 2002 Congress on Evolutionary Computation CEC'02(Cat.No.02TH8600).Honolulu,HI,USA:IEEE,2002:169-174.
[17]SCHLKOPF B,PLATT J,HOFMANN T.Graph-based visual saliency[C]//Advances in Neural Information Processing Systems 19:Proceedings of the 2006 Conference.[S.l.]:MIT Press,2007:545-552.
[18]LIU Z,ZHANG X,LUO S H,et al.Superpixel-based spatiotemporal saliency detection[J].IEEE Transactions on Circuits and Systems for Video Technology,2014,24(9):1522-1540.
[19]AHSAN S M M,NAFEW A N M,AMIT R H.A saliency based approach for foreground extraction from a video[C]//2017 3rd International Conference on Electrical Information and Communication Technology (EICT).Khulna,Bangladesh:IEEE,2017:1-6.
[20]ZHANG J H,CHEN J B,WANG Q C,et al.Spatiotemporal saliency detection based on maximum consistency superpixels merging for video analysis[J].IEEE Transactions on Industrial Informatics,2020,16(1):606-614.
[21]BROX T,MALIK J.Large displacement optical flow:Descriptor matching in variational motion estimation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(3):500-513.
[22]SHEN J B,DU Y F,WANG W G,et al.Lazy random walks for superpixel segmentation[J].IEEE Transactions on Image Processing,2014,23(4):1451-1462.
[23]WANG W G,SHEN J B,SHAO L.Consistent video saliency using local gradient flow optimization and global refinement[J].IEEE Transactions on Image Processing,2015,24(11):4185-4196.
[24]WANG W G,SHEN J B,YANG R G,et al.Saliency-aware video object segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(1):20-33.
[25]CHEN C,LI S,WANG Y G,et al.Video saliency detection via spatial-temporal fusion and low-rank coherency diffusion[J].IEEE Transactions on Image Processing,2017,26(7):3156-3170.
[26]ZENG Z N,CHAN T H,JIA K,et al.Finding correspondence from [JP2]multiple images via sparse and low-rank decomposition[C]// Computer[JP] Vision-ECCV 2012.Berlin Heidelberg:Springer-Verlag Berlin Heidelberg,2012:325-339.
[27]PERAZZI F,PONT-TUSET J,MCWILLIAMS B,et al.A benchmark dataset and evaluation methodology for video object segmentation[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA:IEEE,2016:724-732.
[28]LI F X,KIM T,HUMAYUN A,et al.Video segmentation by tracking many figure-ground segments[C]//2013 IEEE International Conference on Computer Vision.Sydney,NSW,Australia:IEEE,2013:2192-2199.
[29]KIM H,KIM Y,SIM J Y,et al.Spatiotemporal saliency detection for video sequences based on random walk with restart[J].IEEE Transactions on Image Processing,2015,24(8):2552-2564.
[30]TU W C,HE S F,YANG Q X,et al.Real-time salient object detection with a minimum spanning tree[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA:IEEE,2016:2334-2342.
[31]LIU Z,LI J H,YE L W,et al.Saliency detection for unconstrained videos using superpixel-level graph and spatiotemporal propagation[J].IEEE Transactions on Circuits and Systems for Video Technology,2017,27(12):2527-2542.
[32]XI T,ZHAO W,WANG H,et al.Salient object detection with spatiotemporal background priors for video[J].IEEE Transactions on Image Processing,2017,26(7):3425-3436.
[33]GUO Y C,LI Z,LIU Y,et al.Video object extraction based on spatiotemporal consistency saliency detection[J].IEEE Access,2018,6:35171-35181.
[34]CHEN Y H,ZOU W B,TANG Y,et al.SCOM:Spatiotemporal constrained optimization for salient object detection[J].IEEE Transactions on Image Processing,2018,27(7):3345-3357.
[35]WANG W G,SHEN J B,SHAO L.Video salient object detection via fully convolutional networks[J].IEEE Transactions on Image Processing,2018,27(1):38-49