阮若林,伍聃文,伍连啟
(湖北科技学院 电子与信息工程学院,湖北 咸宁 437100)
视觉关注度是计算机图像分析领域中的一个热门研究领域。在视频图像关注度提取研究中,图像的亮度、颜色和方向等特征是图像自身所具有的基本属性,通常通过滤波等技术手段进行分离;然而对于视频图像序列,由于其存在着时间上的连续性,因此除了可以利用滤波等技术手段提取其在空间上的亮度、颜色和方向等底层特性外,还可以利用连续图像序列之间的时间相关性提取其闪烁和运动特征[1]。提取图像或视频序列的基本特征之后,利用Anne Treisman教授提出的图像特征融合理论,将这些单个的图像特征进行融合,就可以得到图像的关注度,进而可以获得其关注度图(灰度图),这个关注度图(Saliency Map,SM)所在区域通常就是最容易引起人眼视觉注意的区域[2]。因此,关注度的提取在感兴趣区域提取、运动目标检测、视觉编码、智能监控等诸多领域具有重要的应用价值。
1980年,美国普林斯顿大学心理学教授Anne Treisman[3]通过对人眼视觉系统进行实验得出颜色、方向和亮度是人类视觉系统最关注的特征,并在此基础上提出了特征融合的理论,它是人类视觉系统的一个重要的理论基础。近年来,对于视频信号关注度模型的研究也逐步开展。1998年,Itti等人[4]对视觉注意中的选择和转移工作机制进行了开创性的研究,提出了可计算的视觉注意模型框架,采用特征融合的方式计算关注度图,并将其用于图像的关注度提取。2010年,He等人[5]改进Itti模型,针对不同特征子图融合时,根据特征子图的关注点数目不同给予不同的权重,获得了较好的关注度图,可以提高准确率15-20%,但是,它也仅仅只是用来提取图像的关注度。
2003年,Itti等人[6]通过考虑前后两帧视频信号的运动特征和闪烁特征,提出视频信号的关注度模型。2004年,在Itti模型的框架上,Hu等人[7]采取动态融合的策略来决定每个特征子图的权重,再将其融合成一幅关注度图;而Simone等人[8]则通过统计每个特征子图的关注点数,调整特征子图权重进行编码。2005年,Wen-Huang Cheng等人[9]针对Itti模型对缓慢运动处理不佳的缺点,将视频序列分段,利用中值滤波得到时间分段的关注度图,但这种方法对于运动剧烈的序列效果不好。2006年,Zhai等人[10]根据图像的活动亮度动态地改变时域关注度子图和空域关注度子图的权值,提升关注度模型的准确性。2007年,Junyong You等[11]通过综合考虑运动关注度、对比关注度、人脸识别、声音识别及摄像机运动等多种高层语义要素,计算视频序列的关注度。2008年,Chang Liu等人[12]利用基于信息熵的时空域关注度融合来弥补时域关注度模型对于缓慢运动处理不佳的缺陷,但其对于时域关注度本身没有改进。2010年,Xia Yang等人[13]针对现有的关注度模型不能同时在快速运动场景和慢速运动场景下均取得令人满意的效果,并且其计算复杂度很高,不能满足实时应用的需求的问题,提出了基于场景分析的关注度模型,将视频场景的运动特征参数引入到关注度的提取模型中,提升其关注度模型的精确性,运动关注度提取的准确率达到了90%左右。同时,目前的视频关注度模型是图像关注度模型的时域扩展,需要逐帧计算关注度,其计算复杂度也较高。
视觉关注度模型是为了从视频场景中提取人眼重点关注的区域,为后续基于区域的编码奠定基础。现有的视觉关注度模型不能同时在快速运动场景和慢速运动场景下均取得令人满意的提取效果,并且需要逐帧计算每帧的关注度,其计算复杂度高,不能满足实时应用的需求。为此本文研究了视频图像特性对关注度提取的影响,提出了基于视频场景运动特征的关注度提取模型,提升了关注度提取模型的精确性;同时,利用多参考帧的提取视频图像的运动特性,以降低关注度提取的计算复杂度。该成果应用于视觉关注度图的提取及预测,可以有效解决视频帧关注度区域提取准确性低和提取复杂度过高的问题。
关注度模型是为了从视频场景中提取人眼重点关注区域,为后续的基于区域的编码奠定基础。如何获得一个精确度高而复杂度低的关注度模型,是人眼关注区域实时提取以及实时高质量视频编码的关键。现有的关注度模型不能同时在快速运动场景和慢速运动场景下均取得令人满意的效果,并且其计算复杂度很高,不能满足实时应用的需求。在本文研究基于场景分析的关注度模型,将视频场景的运动特征参数引入到关注度的提取模型中,提升其关注度模型的精确性,考虑到人眼视觉系统具有的短时记忆效应的特性,可以利用双向预测技术来计算当前帧的关注度图,以降低计算复杂度。
本文对Itti等人提出的视觉关注度图模型进行修正,利用修正模型计算得到视频图像的关注度图。在帧级的关注度计算中(单帧图像关注度的提取),将研究基于视频场景分析的关注度模型,将视频场景的运动特征参数引入到关注度的提取模型中,提升其关注度模型的精确性。在序列级的关注度计算中(利用参考帧的已知关注度预测当前帧的关注度),将研究基于场景分析和时域预测的关注度计算模型,以降低计算复杂度[13,14]。关注度建模主要步骤包括视频图像特征提取、关注度子图生成、关注度子图处理及融合成最终的关注度图,如图1所示。
图1 视觉关注度建模框图
与传统方法不同,本文在运动特征提取和运动关注度子图处理都做了改进。Itti模型仅用了前后2帧进行运动参数的提取,能够捕获的物体速度范围有限,容易造成漏判,本文利用基于多帧参考的运动特征提取方案(原理如图2所示),解决以上问题[15]。另外,基于帧差法的运动特征检测,容易将活动物体的内部标识成低关注度区域,从而造成误判;本文利用基于空域信息的运动关注度增强方法,解决以上问题。并主要通过视频特征提取、关注度子图生成、关注度子图处理及融合成最终的关注度图,并计算得到视频图像相对应的关注度值,视频图像关注度区域提取过程如图3所示,一般先计算得到关注度图,然后确定关注度区域的边界(为了简化起见,通常把关注度区域确定为矩形),最后通过边界确定关注度区域及其大小。
图2 基于多参考帧的关注度预测及关注度提取方法示意图
图3 视觉关注度区域的提取过程示意图
对于YCbCr视频流中的第i帧,分别提取底层特征亮度I、颜色C、方向O、闪烁F、运动M五类特征量。
亮度特征值I可直接对应YCbCr颜色空间的Y分量,方向特征分量O由第i帧和第i-1帧中亮度特征值ci在0°,45°,90°,135°四个方向进行Gabor滤波得到,闪烁特征值F由第i帧和第i-1帧对应位置像素点的亮度值ci相减得到。
本文在运动特征提取上,对Itti的模型做了扩展,利用对整个时间序列进行运动参数的提取,从而能够适应更多的运动情况。Itti模型的运动特征M由第i帧和第i-1帧中的方向特征值co进行一个像素大小的偏移S(θ)计算得到。
Itti模型利用高斯金字塔分解可以捕获不同速率的运动,其可以捕获物体的运动速率为:
其中,v是物体的运动捕获速度,Level是高斯金字塔分解层数,dx、dy是提取运动特征时水平和垂直方向上的偏移量,f是帧率。
在视频序列上,假定物体在短时间内视为连续运动,利用高斯金字塔分解可以捕获不同速率的运动,其可以捕获物体的运动速率为:
其中,cur是当前帧的帧号,prei是参考帧帧号,这意味着运动特征提取时,其可以有多个参考帧。
因此,运动特征参数M的提取方法为:
其中,cic(σ,θ)是当前帧的亮度特征I在尺度σ上用方向θ的Gabor函数滤波的特征图,Sc(σ,θ)是cic(σ,θ)在方向θ上的偏移。cip(σ,θ)是参考帧的亮度特征I在尺度σ上用方向 θ的Gabor函数滤波的特征图,Sp(σ,θ)是cip(σ,θ)在方向θ上的偏移。
在得到了视频信号的底层特征信息之后,利用空域关注度子图对运动关注度子图进行增强处理,使得物体内部的关注度值得以提升。具体过程如下:
(1)得到当前帧的空域关注度图SMspatial:
其中,SMI是亮度关注度子图,SMC是颜色关注度子图,SMO是方向关注度子图,w1、w2和w3是加权系数;
(2)根据一定的阈值T1,将运动关注度高的点标明出来,设该高运动关注度值的点集为{ni},同理,根据一定的阈值T2,将空域关注度高的点标明出来,设此高空域关注度值的点集为{mi};
(3)找到运动前景物体的点集{qi}={ni}∩{mi};
(4)对每一个qi,设其邻域为L,在其邻域内进行搜索,并将属于同一前景物体的点设为关注点:
(5)得到关注点的集合:{t|f(t)=1};
(6)得到运动关注点集:{TSi}={ti}∪{ni};
(7)将{TSi}-{ni}中点的关注度值设置为{ni}中关注度的平均值;
(8)最后,将得到空域关注度、运动关注度及闪烁关注度进行加权合并,得到视频底层特征关注度子图:
其中,λ1、λ2和λ3是加权系数,SMspaital是空域关注度子图,SMM是运动关注度子图,SMF是闪烁关注度子图。由于监控视频中人眼对运动及闪烁特征较为敏感,运动的物体较能吸引监控人员的注意,因此在该式中,λ2>λ3>λ1。
视频图像底层特征提取的方法不同,得到的提取结果就会不一样,导致融合后得到的显著度差异很大,因此,本文后续将通过大量实验来检验该方法的实际效果,并进一步完善本文提出的方法。
本文主要介绍了视觉关注度的基本概念及对人眼视觉关注度模型的研究现状,并对Itti提出的关注度模型进行详细分析,根据当前关注度模型在提取视频图像关注度中存在的问题,提出了改进的关注度模型,进一步提高视频图像关注度提取的精确性。该模型应用于视觉关注度图的提取及预测,可以有效解决视频帧关注度区域提取准确性低和提取复杂度过高的问题。因此,在感兴趣区域提取、运动目标检测、视觉编码、智能监控等诸多领域具有重要的应用价值。
[1]桑农,李正龙,张天序.人类视觉注意机制在目标检测中的应用[J].红外与激光工程,2004,33(1):38~42.
[2]贺俊.基于视觉注意机制的物体关注性研究[D].上海:上海交通大学,2009.
[3]Treisman,A.M.and Gelade,G..A Feature-Integration Theory of Attention[J].Cognitive Psychology,1980,12(1):97~136.
[4]L.Itti,C.Koch and E.Niebur.A Model of Saliency -Based Visual Attention for Rapid Scene Analysis[J].IEEE Trans.Pattern Anal.Machine Intell.,1998,20(11):1254~1259.
[5]Dongjian He,Yongmei Zhang,Huaibo Song.A Novel Saliency Map Extraction Method Based on Improved Itti's Model[A].CCTAE2010[C].2010,pp:323 ~327.
[6]L.Itti,N.Dhavale,F.Pighin.Realistic Avatar Eye and Head Animation Using a Neurobiological Model of Visual Attention[A].Proceedings of SPIE 48th Annual International Symposium on Optical Science and Technology[C].2003,5200:64~78.
[7]Yiqun Hu,Xing Xia,Wei- Ying Ma,et al.Salient Region Detection Using Weighted Feature Maps Based on the Human Visual Attention Model[A].In Proceedings of the Fifth IEEE Pacific- Rim Conference on Multimedia[C].Tokyo Waterfront City,Japan,November 2004.
[8]Simone Frintrop,Andreas Nuchter,et al.Saliency -Based Object Recognition in 3D Data[A].IEEE/RSJ International Conference on Intelligent Robots and System[C].Sendai,Japan.2004.
[9]Wen-Huang Cheng,Wei-Ta Chu and Ja-Ling Wu.A Visual Attention Based Region of Interest Determination Framework for Video Sequences[J].IEICE Trans.Inf.&Syst,2005,E88 -D(7):1578 ~1586.
[10]Yun Zhai,Mubarak Shah.Visual Attention Detection in Video Sequences Using Spatiotemporal Cues[A].Proceedings of the 14th annual ACM international conference on Multimedia[C].2006,pp:815 ~824.
[11]Junyong You,Guizhong Liu,Li Sun,et al.A Multiple Visual Models Based Perceptive Analysis Framework for Multilevel Video Summarization[J].IEEE Transactions on Circuits and Systems for Video Technology,2007,17(3):273~285.
[12]Chang Liua,Pong C.Yuena and Guoping Qiu.Object Motion Detection Using Information Theoretic Spatio-temporal Saliency[J].Pattern Recognition,2009,42(11):2897~2906.
[13]阮若林.基于视觉感知特性的无线视频容错编码技术研究[D].武汉:武汉大学,2011.
[14]Yang Xia,Ruimin Hu,Zhenkun Huang,Yin Su.A Novel Method for Generation of Motion Saliency[A].Proceedings of 2010 IEEE 17th ICIP[C].2010,pp:4685~4688.
[15]Ruan Ruolin,Hu Ruimin,Li Zhongming,Yin Liming.Rate Control Algorithm of Wireless Video Based on Saliency Map Model[J].China Communications,2011,8(7):110~115.
[16]Ruan Ruolin,Xia Yang,Yin Liming.Research on Binocular Stereo Video Attention Model Based on Human Visual System[A].ICCSE2013[C].Colombo Sri Lanka,2013,4.