张云佐
(石家庄铁道大学 信息科学与技术学院,河北 石家庄 050043)
基于运动轨迹分析的监控视频关键帧提取
张云佐
(石家庄铁道大学 信息科学与技术学院,河北 石家庄 050043)
当前,从海量监控视频中高效、准确地提取关键帧是一项极具挑战性的课题,为此提出了一种基于运动轨迹分析的监控视频关键帧提取方法。给出了该方法的实现过程,并进行了实验与分析。结果表明,所提出的方法在关键帧提取准确性上优于当前的主流方法。
尺度变化;方向变化;时空切片;运动轨迹;关键帧提取
随着监控视频数据的爆炸式增长,快速、准确地分析和浏览视频已经成为一个迫切需要解决的难题。关键帧提取作为一种解决方案越来越受到人们的关注[1-3]。关键帧是一种经典、高效的视频浓缩形式,用关键帧代替原视频可以大大降低数据量,同时也便于检索和浏览视频。由于视频数据的多样性和复杂性,以及关键帧的视觉主观性,目前复杂场景下的关键帧提取仍然是一项极具挑战性的课题。
评价关键帧主要看其能否全面、准确地再现原视频的主要事件,在保证全面提取的情况下,尽量降低冗余。广泛应用的关键帧提取算法多是基于视频底层特征分析的[2-5],以单帧或少量帧的特征变化为标准提取关键帧。由于缺乏完整时间维的特征分析,难以从整体上把握关键帧的数量及位置,并且容易受到场景变化、目标姿态变化、目标遮挡等干扰造成重要特征漏检,进而导致真正的关键帧没有被提取到。提取结果与视频的真实语义之间存在差异[5-6],不能全面、准确地反映视频的真实语义,也就是说,关键帧提取结果不符合人眼视觉感知。
人眼视觉总是倾向于关注运动的目标,运动状态改变比运动本身更具视觉吸引力[7]。因为相比于只包含匀速运动状态目标的视频帧,包含目标运动状态改变(比如:启动、停止、伸手、弯腰等)的视频帧能够提供更多的有用信息。因此,本文定义包含目标运动状态改变的视频帧为关键帧,相应地提出了一种基于运动轨迹分析的关键帧提取方法。
时空切片[8]是一种高效的视频时空分析方法,具有计算量低、抗干扰能力强等优点。它只提取图像空间的部分行、列,保留了完整的视频时间维信息,而空间维信息的匮乏可以通过多个切片的信息融合来减缓。在长时间维的历史信息辅助下提取关键帧,可以有效地避免干扰。时空切片通常包括3种:水平切片、垂直切片和对角线切片,如图1所示。
图1 不同方向的视频时空切片
不同方向的时空切片反映的目标运动信息不同。对角线切片反映的是目标在斜向运动时的信息。垂直切片反映的是视频垂直区域的像素灰度变化趋势,主要应用于目标个数统计、瞬时速度估计以及高度测量等。水平切片包含最为丰富的目标信息和场景变化信息,其纹理表征着目标的运动轨迹。
本文中的视频时空切片是水平切片,通过分析时空切片纹理,可以得到目标的运动状态。静止目标的水平坐标固定不变,像素灰度随时间的分布保持一致,切片纹理表现为具有恒定宽度的水平条纹。运动目标的颜色与背景不同,其运动会导致时空切片的灰度变化,产生有别于水平条纹的切片纹理,所产生的纹理变化表征着目标的运动状态改变。
本文中,关键帧定义为包含目标运动状态改变(局部改变和全局改变)的视频帧。传统的轨迹分析方法[9]能够实现运动状态改变的检测,但通常计算复杂度高、消耗时间长。目标运动状态的局部改变和全局改变可以分别由时空运动轨迹的尺度和方向准确地反映出来,因此,本文基于时空切片对运动轨迹的尺度和方向进行分析,提出了一种关键帧提取方法。该方法将时空切片运动轨迹(MotionTrajectoryonSpatiotemporalSlice,MTSS)的尺度和方向发生改变的帧提取为关键帧。
视频V(x,y,t)的水平切片Sk可以表示为
(1)
从式(1)可以推出,静止目标的时空运动轨迹呈现水平条纹,运动目标的时空运动轨迹呈现弯曲。因此,Sk上的MTSS可以表示为
(2)
通常,单一时空切片上的MTSS并不完整,融合多个时空切片可以提高MTSS的完整度。文献[6]给出了一种提取固定数目时空切片(记作Nus)的方法。但是难以选取合适的Nus,因为它与算法计算量以及MTSS完整度密切相关。Nus越大,MTSS越完整,但计算量也会随之增加,致使文献[6]中的方法几乎不可能同时做到计算高效和MTSS的完整提取。再者,大多数监控视频中,运动目标稀疏地分散到冗长的视频流中,存在着大量的静止片段。基于这种考虑,本文提出了粗略、精细相结合的切片提取策略,粗略提取用于确定视频运动片段,精细提取用于获取完整的MTSS。
在粗略提取中,提取少量的时空切片(记作Nss)来确定视频运动片段。MTSS表征着运动目标的存在,MTSS的像素数目(记作Nm)表征着运动目标的相对显著性。基于式(2),第Fi帧的Nm可由下式计算得到
(3)
式中
(4)
根据式(3),Nss时空切片上的Nm可以表示为
Nm=Nm(1)∪Nm(2)∪…∪Nm(Nss)
(5)
那么,Nm≥τ(τ用于量度目标运动的充分性)的视频片段为运动片段,运动具有连续性,孤立的运动帧将被视为干扰而去除[10]。
精细提取只在运动片段中进行,提取较多的时空切片(记作Nls),以期获取完整的MTSS
MTSS=MTSS(1)∪MTSS(2)∪…∪MTSS(Nls)
(6)
通常,Nls比Nss大很多,所以上式的MTSS被视作完整MTSS。
MTSS随着目标运动状态的改变而改变。MTSS的空域尺度变化反映了目标运动状态的局部改变,其时域方向变化反映了目标运动状态的全局改变。因此目标运动状态的局部和全局改变可以由MTSS的尺度曲线拐点(记作Is)和方向曲线拐点(记作Id)分别充分捕捉到。
为了简单起见,Id表示为
(7)
式中:θ表示MTSS偏离原轨迹的角度,满足θ∈(-π/2,π/2)。
Is表示为
(8)
式中:w0和w分别表示MTSS的原始尺度和尺度变化。
MTSS的尺度和方向拐点(记作Is,d)可由下式得到
Is,d=Is+Id
(9)
Is,d曲线峰值对应于视频的关键帧。
所提出的关键帧提取方法的基本架构如图2所示。
图2 关键帧提取方法的基本架构
如图2所示,首先采用粗略、精细提取相结合的时空切片提取策略来获取MTSS;其次检测MTSS的时域方向拐点Id和空域尺度拐点Is;然后根据检测到的MTSS的尺度和方向拐点Is,d进行关键帧提取;最后输出视频关键帧。
实际应用中,如果需要提取的关键帧数目K是给定的,并且不等于Is,d曲线的峰值数目M,可以采用如下步骤处理:
1)如果M>K,提取具有较高Is,d值的K帧作为关键帧;
为了验证本文所提出的关键帧提取方法的性能,将其与当前的主流方法[6]进行了对比。对比实验在4段不同类型的监控视频上进行,分别为:
1)Jogging_on_the_playground1;
2)Hall_cif1;
3)Garden corner;
4)omputer room。
视频1)包括目标运动状态的全局改变,另外3段视频则具有明显的目标运动状态局部改变。实验参数设置为:Nss=6,Nls=72,Nus=36。 实验在通用型个人计算机上完成,基本配置为:Intel Core 2.3 GHz CPU和4 Gbyte内存。
在准确性评价方面,采用了镜头重构度[12](Shot Reconstruction Degree,SRD)评估准则。SRD值越高,表明所提取的关键帧捕捉视频内容改变(即目标运动状态改变)越准确。两种方法在视频1)的SRD评估结果非常相似。但在其他3段监控视频上,具有明显的不同,当提取的关键帧比率从1%变化到7%时,平均SRD值如图3所示。
图3 平均SRD的比较
从图3可以看出,本文所提出的方法在SRD性能上具有明显的优势。具体地,在关键帧比率小于3%时,两种方法的SRD性能相当;在关键帧比率大于等于3%时,本文所提出的方法的SRD性能明显优于对比方法,高达1.2 dB。原因在于,本文所提出的方法充分利用了目标运动状态的全局和局部改变,而文献[6]中的方法只关注目标运动状态的全局改变。
本文提出了一种基于运动轨迹分析的关键帧提取方法。该方法利用时空切片分析目标的运动轨迹,在MTSS的尺度和方向拐点处提取关键帧,所提取的关键帧既反映了目标运动状态的局部改变,又反映了目标运动状态的全局改变。为了高效获取完整的MTSS,提出了一种粗略和精细相结合的时空切片提取策略。实验结果表明,本文所提出的方法比当前主流方法具有更高的准确性。下一步将扩展所提出的方法来集成目标行为分析。
[1]潘磊,束鑫, 程科. 基于压缩传感和EMD 距离的视频镜头关键帧提取[J].电视技术,2015,39(17): 5-8.
[2] Satyam S,Edward J D. Video-based real-time surveillance of vehicles[J]. J. Electron imaging,2013, 22(4):451-459.
[3] 罗森林,马舒洁,梁静,等. 基于子镜头聚类方法的关键帧提取技术[J]. 北京理工大学学报,2011,31(3): 348-352.
[4] SAYKOL E. Key frame labeling technique for surveillance event classification[J]. Optical engineering,2010,49(11):492-496.
[5] AVILA S E.VSUMM: a mechanism designed to produce static video summaries and a novel evaluation method[J]. Pattern recognition letters,2010,32(1):56-68.
[6] ZHANG Y Z,TAO R,ZHANG F. Key frame extraction based on spatiotemporal motion trajectory[J]. Optical engineering,2015,54(5):2-5.
[7] MA Y Z, CHANG Y L,YUAN H. Key-frame extraction based on motion acceleration[J]. Optical engineering,2008,47(9):5-9.
[8] NGO C W,PONG T C,ZHANG H J. Motion analysis and segmentation through spatiotemporal slices processing[J]. IEEE transaction on image processing,2003,12(3):341-355.
[9] 李明之,马志强,单勇,等. 基于轨迹分析的交通目标异常行为识别[J].电视技术,2012,36(1): 106-112.
[10] PARK M G,YOON K J. Optimal key-frame selection for video-based structure-from-motion[J]. Electronics letters,2011,47(25): 1367-1369.
[11] SHIO M,YANAGISAWA M,TOGAWA N. Linear and bi-linear interpolation circuits using selector logics and their evaluations[C]//Proceedings of IEEE Int. Symp. On Circuits and Systems. Melbourne:IEEE,2014: 1436-1439.
[12] LIU T Y. Shot reconstruction degree:a novel criterion for key frame selection[J]. Pattern recognition letters,2004,25(1):1451-1457.
张云佐(1984— ),博士,主要研究方向为图像、视频处理,雷达信号处理。
责任编辑:闫雯雯
Surveillancevideokeyframeextractionbasedonmotiontrajectoryanalysis
ZHANGYunzuo
(School of Information Science and Technology, Shijiazhuang Tiedao University, Shijiazhuang 050043,China)
Currently,efficientandaccuratekeyframeextractionformassivevideosremainsachallenge,especiallyinsurveillanceapplications.Motivatedbythisobservation,amethodforsurveillancevideokeyframeextractionbasedonmotiontrajectoryanalysisisproposed.Theimplementoftheproposedmethodisgiven,andtheperformancesarecomparedwiththestate-of-the-artmethod.Experimentalresultshavedemonstratedthattheproposedmethodoutperformsexistingstate-of-the-artmethodintermsofaccuracyforkeyframeextraction.
scalechange;directionchange;spatiotemporalslice;motiontrajectory;keyframeextraction
TN919.8;TP391.4
ADOI:10.16280/j.videoe.2016.08.023
2015-11-27
文献引用格式:张云佐. 基于运动轨迹分析的监控视频关键帧提取[J].电视技术,2016,40(8):118-121.
ZHANGYZ.Surveillancevideokeyframeextractionbasedonmotiontrajectoryanalysis[J].Videoengineering,2016,40(8):118-121.