亓玉娇,杜海清,徐静涛,刘 勇
(网络体系构建与融合北京市重点实验室;北京邮电大学,北京 100876)
随着数据通信的日益发达,大量的视频传输出现在日常生活中。视频数据处理、管理和检索等成为现在信息时代必要的手段之一。而视频检索和视频分类管理的结构单元正是视频镜头,因此视频镜头检测具有重要意义。
视频的一个镜头是由一个摄像机连续拍摄得到的时间上连续的若干图像帧组成。视频镜头变换可以分为突变和渐变两大类。视频镜头变换时,视频数据会发生一系列变化,表现在帧间颜色差异突然增大、对象形状的变化和运动[1]的不连续等,而同一镜头内各帧之间的以上特征差异较小。因此,可以通过分析视频特征的变化规律,找到图像帧间差异较大的位置作为镜头变换点。镜头检测的基本思想就是检测镜头的边界,根据视频中相邻两图像帧或是非相邻的图像帧的差异来检测本镜头是否结束。
目前提出的镜头检测算法主要有基于像素比较的方法、基于直方图的方法、基于运动的方法和基于轮廓的方法等[2]。基于直方图的方法能够降低对摄像机运动和噪声的敏感性,基于直方图的方法计算复杂度低,易于实现,成为镜头检测中比较常用的方法。
由于基于直方图的方法存在如下缺陷:对直方图类似的不同镜头的检测无效;并且对物体和摄像机运动的稳健性有限。本文在特征选取上,除了颜色直方图还添加了图像的灰度熵,有效地克服了基于直方图方法的上述两个问题。
本文采用与人眼视觉感知比较相符的HSV颜色空间模型,它采用色调、饱和度、明度来表示色彩。
色调(H)[3]是色彩的基本属性,就是平常所说的颜色名称,如红色、蓝色等,取0~360°的数值。饱和度(S)是指色彩的纯度,饱和度越高色彩纯度也越高,低则逐渐变灰,可以取0~100%的数值。而明度(V)是颜色的明暗程度,取值也是0~100%之间。HSV颜色空间的展开平面模型如图1所示。将RGB颜色空间转换为HSV[4]后,将颜色的色调H、饱和度S和明度V分别进行非均匀量化
图1 HSV空间的平面模型
为了简化计算的复杂度,将H,S,V三维空间的颜色特征组合为一维颜色特征矢量:C=m×n×H+n×S+V,其中m,n分别为饱和度S和亮度V的量化级数。因此,本文中的图像帧的颜色特征为C=9H+3S+V[5],将HSV颜色空间划分为72个颜色区间,量化后颜色直方图的总bin数为72。
先将图像进行灰度转换,设图像的灰度级取0,1,…,L -1,对应的灰度级概率分布为 p0,p1,…,pi,…,pL-1。其中pi表示图像中灰度为i的像素所占的比例数。则图像的灰度熵定义为
式中,L为图像像素的灰度级数,这里L=255(没有将灰度进行量化)。
灰度熵表示了图像中灰度分布的聚集特征所包含的信息量,是图像的一种统计特征。被广泛应用到图像区域分割,不同图像区域的灰度级分布不同,各个区域内部灰度级是均匀的,文献[6]还利用了二维灰度熵进行图像阈值选取。因此灰度熵可以很好地代表图像的灰度特征,由于是一种图像的统计特征,对光线和摄像机及物体运动具有很好的稳健性,因此在进行视频镜头检测的特征选取上添加了图像的灰度熵。
前面已经得到每一幅图像HSV颜色空间的72 bin颜色直方图。两帧图像的颜色分布的相似度定义为两图像颜色直方图的交集。
设两帧图像的颜色直方图为Ht,Ht+1,定义他们之间的相似度[7]为
两帧图像灰度熵的熵差定义为
式中,Et,Et+1分别是视频序列中第t,t+1帧的灰度熵。
为了消除物体运动和光照影响带来的误检,将(1-Dt)作为权值加权两帧图像(t,t+1)间的颜色相似度SIMt
式中,SIMt为前面得到的两帧图像的颜色相似度。由颜色直方图的交集和灰度熵的加权最终得到(t,t+1)两帧图像的相似度St。
由于在镜头内部视频序列在颜色、灰度等信息上有比较强的相似性,因而相邻帧的相似度St较大;而在镜头变换时,颜色和灰度信息会有很大变化,则帧间相似度较小,因此帧间相似度St可以作为视频镜头检测的标准。
图2为一段饮料广告视频中的帧截图,第34,35,36帧是一个镜头内的视频帧,第37,38,39帧是相邻镜头内的视频帧。图3是广告视频相邻两帧图像之间的相似度曲线。从图3可以看出,镜头突变时相邻帧的相似度很低,如广告视频中第36帧与第37帧的相似度低于0.8;而镜头渐变时相似度也有明显变化,连续处于较低的数值,如第145~156帧。
图2 视频截图
镜头边界检测步骤为:
1)首先依次读入一段视频的各帧图像,利用公式(2)计算各帧图像的灰度熵。将图像进行RGB颜色空间到HSV颜色空间的转换,非均匀量化HSV颜色空间进一步得到每帧图像的颜色直方图。
图3 视频帧间相似度
2)利用公式(3),(4),(5)计算视频相邻两帧的相似度St(t,t+1帧的相似度)。
3)当St<T1时,第t帧即为突变镜头。(T1为突变镜头检测的阈值)如果St≥T1,进行步骤4),检测是否出现镜头渐变。
4)如果St<T2,从第t帧开始统计相邻两帧之间相似度 St,St+1,St+2,St+3…,St+M,连续M帧是否都满足Sj<T2,若都满足,则第t帧认为是渐变镜头。这里为防止渐变缓慢而漏检渐变镜头,设置一容忍窗口,窗口大小为Tw。即第t帧开始统计大小为M+Tw的窗口内满足Sj<T2的帧个数,若满足条件的帧个数大于M,则认为第t帧为渐变开始帧。(实验过程中阈值的选择为:T1=0.8,T2=0.95,M=8,Tw=3。)
5)若检测出的渐变帧(m,n)帧间隔n-m<M+2Tw,则将渐变镜头合并。
算法流程图如图4所示。
图4 算法流程图
采用查全率和查准率来检测本算法的性能,查全率和查准率的公式为
为了验证本文的视频镜头检测算法的有效性,选取了2段饮料广告视频、2段电影视频、2段新闻视频作为实验材料。表1为实验统计结果,并利用上述6段实验视频,将本文算法与文献[8]基于累积颜色直方图的镜头检测算法(ECR)进行比较,结果如表1所示。
表1 本文算法实验结果与ECR算法比较
由表1可以看出,本文算法与基于累积直方图的算法相比,查全率有很大提高;而且对于摄像机和物体运动较为剧烈的广告2、电影2,本文中的算法对镜头检测效果更好,对摄像机和物体运动具有较好的稳健性。本文算法不仅对突变镜头有很好的检测效果,而且对渐变镜头也有很理想的检查效果,同时本算法计算简单,易于实现。但是,对于渐变镜头存在误检,主要是由于镜头渐变时过渡片段有些很近似,容忍窗口设置过小。
本文提出了一种利用颜色直方图交集和图像灰度熵的视频镜头检测方法,与其他方法相比,本方法计算简单,且对摄像机和物体运动具有较好的稳健性,可以很准确地检测出视频的突变镜头,对渐变镜头也有理想的检查效果。
[1]贾晓未,王纯,贾克斌.基于运动特征的镜头切变检测算法[J].计算机工程与应用,2011(47):68-70.
[2]李向伟,李战明,张明新,等.基于内容的视频镜头检测技术[J].电视技术,2008,32(3):19-22.
[3]袁小娟.视频镜头边界检测算法的研究[D].武汉:武汉工业学院,2010.
[4]宋潇毅.基于纹理和颜色特征的图像检索[D].成都:电子科技大学,2009.
[5]XU Wenzhu,XU Lihong.A novel shot detection algorithm based on clustering[C]//Proc.20102ndInternational Conference on Education Technology and Computer(ICETC).Shang Hai:IEEE Press,2010:570-572.
[6]吴一全,纪守新,吴诗婳,等.基于二维直分与斜分灰度熵的图像阈值选取[J].天津大学学报,2011(12):1044-1049.
[7]苏爱民.数字视频镜头检测研究[D].西安:西北工业大学,2005.
[8]丁洪丽,陈怀新.基于累积直方图的视频镜头边界检测方法[J].电讯技术,2008(3):65-69.