视频摘要系统的技术研究与实现

2013-11-03 11:25吴凌琳杨磊吴晓雨

中国传媒大学学报(自然科学版) 2013年1期

关键词：关键帧直方图阈值

吴凌琳，杨磊，吴晓雨

(中国传媒大学信息工程学院，北京 100024)

视频摘要系统的技术研究与实现

吴凌琳，杨磊，吴晓雨

(中国传媒大学信息工程学院，北京 100024)

本文针对未进行后期编辑的视频序列设计了一个视频摘要系统。以视频帧图像的累积直方图来提取图像特征，有效地解决了光照的改变使镜头内直方图差异较大以及直方图对物体/摄像机的运动的鲁棒性有限两大问题，并结合了滑动窗口算法，有效地实现对视频序列的镜头边界检测。另外，本文还提出了一种基于镜头和图像内容的关键帧提取算法，降低计算的复杂度，并且提取的关键帧能更全面准确地体现原视频的内容。

视频摘要；直方图；镜头边界检测；关键帧；帧差值

1 概述

随着多媒体和计算机网络技术的快速发展，多媒体基于内容的访问、检索和交互操作的应用越来越广泛。视频作为各种媒体中形式和内容最丰富的媒体类型，越来越受到用户的青睐，这就需要一种技术能使用户不必看整段的视频序列而获取一定的信息并找到感兴趣的位置。这种技术就是现在引起广泛关注的视频摘要技术。

视频摘要应用范围非常广泛，视频数据的存档及检索、影视行业的应用、家庭娱乐业、军用及公安用途、医学影像用途、航天/航空影像分析等这些都需要运用视频摘要技术[1-2]。

目前，许多存储设备比如磁带、P2卡等，都会将所有镜头存储成一个视频序列，这给视频数据库的管理以及后期的剪辑带来很多麻烦。针对这一视频数据的存档及检索问题，本文设计了一个视频摘要系统来检索出长序列视频里不同镜头序列，并生成相应的关键帧图像，以便快速地查找到所需要的镜头的视频序列。

2 镜头边界检测

2.1 镜头边界

要生成针对镜头的视频摘要，首先要将视频分割成独立的镜头，再通过选取每个镜头的关键帧来表示该镜头。考虑到视频数据量大的特点，实际中分割主要采用基于边界的方法，即通过检测镜头间的分界来确定镜头的转换位置。

视频镜头边界分为突变与渐变两种[3]。由于本文所要设计的系统是针对未剪辑处理过的视频序列，不存在镜头边界的渐变，所以只需考虑突变。突变镜头边界中间没有使用任何摄影编辑效果，其特点是镜头切换在两帧图像间完成，没有时间长度，突变前的帧属于上一个镜头，突变后的帧属于下一个镜头。

2.2 图像特征

镜头作为组成视频图像的基本单元，表现为其场景的连续性和内容的相关性，这种相关性体现为图像特征的连续性。因此，镜头的变化或转换存在时间上特征变化的不连续性，然而，视频图像的特征有很多：灰度特征、直方图法、边缘特征、运动特征。

表1 图像特征比较

针对这些可选的图像特征，要选取何种特征极为关键。所以本文对四种特征进行比较，如表1所示，直方图特征对运动的敏感性，计算的复杂度，受干扰影响的程度都是最低的。综合这三方面因素考虑，利用直方图特征来度量两帧图像的差异程度是最合适的方法。

2.3 直方图法

但是直方图方法对于光照的改变使同一镜头内的多帧图像直方图差异较大的情况无效；另外，直方图对物体/摄像机的运动的鲁棒性也有限。针对这些问题，累积直方图能较为有效地解决。因此，本文采用基于累积直方图的镜头边界检测。

累积直方图是一个1-D的离散函数，即有

(1)

上式中k代表图像的特征取值，L是特征可取值的个数，nk是图像中具有特征值为k的像素的个数，N是图像像素的总数[4]。

计算帧图像间的帧差值，可在得到图像特征的累计直方图后，借助计算累积直方图的距离来进行。

对于累积直方图距离，目前有四种距离标准：

相关(correlation)、卡方(chi-square)、直方图相交(intersection)、巴氏(Bhattacharyya)距离[5]。在相对慢速但较精确的情况下，用卡方或巴氏距离的效果最好。

对于卡方和巴氏距离，低分比高分匹配的匹配程度高，完全匹配的值为0。但卡方距离完全不匹配为无限值，而巴氏距离完全不匹配为1。为了计算和比较的方便，本文选取巴氏距离：

(2)

2.4 阈值选取

对于镜头突变检测，可以根据镜头在切换处视频帧图像的物理特性会发生明显跳变的特点，计算出视频相邻图像的累积直方图帧差值检测镜头边界，这需判断帧差值是否存在超过阈值的单一峰值。

对于阈值选取方法的不同，可分为全阈值算法和自适应阈值算法。

全阈值算法是最简单的阈值确定方法，即选取一个固定的阈值，当帧差值大于阈值的位置判定为镜头边界。但是由于不同视频序列间甚至同一视频序列中不同部分的帧图像特性不同，比如不同的视频镜头其运动的剧烈程度不相同，帧差值的变化范围也相当大，使得全局阈值法存在着较大的误检和漏检。

2.5 实验结果和分析

实验中选取电影《雨果》里的只有突变镜头切换的一个片段。此序列中所有帧图像，共146帧，145个帧差值。

对整段序列求相邻帧间累积直方图Bhattacharyya距离，数据如图1所示。一般镜头持续长度都会超过1s，按照每秒24帧的速率来算，滑动窗口宽度可选为win=15帧，可以保证每个窗口中只会出现一个镜头切换。实验结果如表2所示。

图1 所有相邻帧累积直方图差值

表2 滑动窗口阈值

从表2中可以看出，只有窗口46～60和窗口106～120内有存在镜头突变。如图1所示，在窗口46～60内阈值T=0.0187113，大于阈值的点只有(54，0.0274)，即在第54帧和第55帧(图2)之间出现了镜头突变(镜头边界1)。在窗口106～120内有阈值T=0.00940886，大于阈值的点只有(116，0.01375) 即在第116帧和第117帧(图3)之间出现了镜头突变(镜头边界2)。

第54帧

第55帧

第116帧

第117帧

2.6 性能评价

为了检测镜头边界检测算法的效果，我们选取了八段视频片段进行试验。在试验中，利用查全率和查准率来衡量算法的镜头边界检测效果。表3给出了基于累积直方图和统计直方图两种算法的镜头边界检测结果可以看出累积直方图方法的查全率都在90%上，而统计直方图方法出现低于50%以下的查全率。总体上，累积直方图的镜头边界检测算法能达到98.68%的查全率和95.51%的查准率，说明该算法具有检测效果。

表3 实验结果数据

3 关键帧的提取

3.1 关键帧

关键帧是反映镜头中主要信息内容的一帧或若干帧图像，可以简洁地表达镜头内容，用关键帧代表镜头，作用类似于文本检索中的关键词。

目前常用的关键帧提取算法主要有以下几种算法[7]。

基于镜头边界的关键帧提取算法[8]，是一种最简单、最快捷的关键帧提取方法。这种方法运算量非常小，适合于内容活动性小的镜头，而缺点是摄像机或内容运动的镜头，由于只选取前后两帧或中间帧作为关键帧，无法全面有效地表达镜头内容。

基于运动分析的关键帧提取算法[9]，能随着镜头内容的变化来选择相应的关键帧，缺点是依赖于局部信息，鲁棒性不强，而计算量很大。

基于内容的关键帧提取算法主要是利用视频中每一帧图像的颜色、亮度、纹理等信息与相邻帧之间的差异来确定关键帧的。也能够根据视频内容的变化程度来动态地选择关键帧，但当有镜头运动或视频内容变化较为频繁、剧烈时，会有一定的冗余。

基于压缩视频流的关键帧提取算法，不需要对视频进行全部解压缩，减少了很大的运算量，提取出的关键帧能够较好地代表视频的主要内容，但对视频中的闪光灯和噪声干扰很敏感，容易产生冗余和误检，提取过多的关键帧。

3.2 基于镜头和图像内容的关键帧提取

从前文对关键帧提取技术的分析可以看出，目前的算法各有优缺点，并不存在一种最优算法。因此本为从算法复杂度和全面性两方面考虑，选取了将基于镜头和基于图像内容两种技术相结合的关键帧提取算法。基于镜头的关键帧提取算法最简单，计算复杂度最低；而基于图像内容的技术可利用镜头边界检测中的累积直方图数据，一定程度上也降低了计算的复杂度，并且能够较为全面的提取到镜头内的关键帧。其基本思路是：首先对视频序列进行镜头边界检测，提取镜头的首帧作为此镜头的第一幅关键帧；其次选出镜头内相邻帧差值超过阈值的帧图像作为镜头的关键帧；最后去冗余，当与前一幅关键帧帧间距离小于15帧，则两帧关键帧进行比较：若前一帧关键帧是镜头首帧，直接舍弃当前关键帧；否则取帧间差较大的一帧作为关键帧，另一帧舍弃。

阈值选取方法上如果关键帧仍采用滑动窗口阈值算法求阈值，在镜头内容出现较快变化时，所求得的阈值会提取出太多冗余关键帧。所以在关键帧提取的部分本文采用了改进的全阈值算法。改进的算法是对特征量的分布用高斯函数进行建模：假设其符合均值为μ，方差为σ的高斯分布N(μ，σ)，设定阈值为T=μ+γσ。其中，γ是一个调节误检数的参数。

3.3 实验结果和分析

对第二部分中经过镜头边界检测的《雨果》片段进行关键帧提取，前文已经进行镜头分割，将视频序列分成3个镜头。

镜头0(1～54帧)、镜头1(55～116帧)、镜头2(117～146帧)中所有相邻帧图像累积直方图帧间差值如图4、图6、图8所示。利用改进的全局阈值算法求得三个镜头内的阈值分别为T0=0.0031288072，T1=0.0009256033，T2=0.0009756255。根据基于镜头和图像内容的关键帧提取算法，镜头0提取到的关键帧为：第1帧，第21帧，第40帧(图5)；镜头1提取到的关键帧为：第55帧，第72帧，第96帧，第115帧(图7)；镜头2提取到的关键帧为：第117帧，第145帧(图9)。

图4 镜头0相邻帧图像累积直方图帧间差值

第1帧

第22帧

第40帧

图6 镜头1相邻帧图像累积直方图帧间差值

第55帧

第72帧

第96帧

第115帧

图8 镜头2相邻帧图像累积直方图帧间差值

第117帧

第145帧

3.4 性能评价

在性能方面，提取出的关键帧必须能够代表视频的主要内容和视频中主要事件的发生过程。提取出的关键帧的好坏的评判标准主要是看其是否完整地描述了视频中发生的主要事件，在保证不漏检的情况下，尽量地减少冗余的关键帧，保持一个比较低的冗余度。

本文选取了《尼基塔》中的片段，进行实验，将本文算法提取的关键帧与人工选取的关键帧进行比较。

对比图10和图11可以看出，本文算法所提取的关键帧与我们人工提取的关键帧很相近，能够更全面、准确地体现原视频的内容，达到了我们所预期的效果。

图10 人工选取的关键帧

图11 本文算法提取的关键帧

4 系统的设计与实现

4.1 系统设计框图

视频摘要系统的框图如图12所示。

4.2 系统界面

利用前面所述的算法，在VC6.0平台上结合OpenCV和MFC设计了一个视频摘要系统。其具体界面如图13～15。

5 结束语

此视频摘要系统针对未经过编辑的视频序列，即只含有镜头突变的视频序列。本文利用累积直方图巴氏(Bhattacharyya)距离和滑动窗口阈值算法来检测突变镜头边界，实现了对突变镜头的有效分割；另外，提出了基于镜头和图像内容的关键帧提取算法，采用镜头首帧和相邻帧图像内容比较提取出的图像作为镜头的关键帧。实验证明，此算法查找到的关键帧能够较为全面的作为镜头内容的概要。

图12 视频摘要系统框图

图13 选取视频界面

图14 镜头注释界面

图15 视频摘要列表

本文只是针对视频摘要进行后期编辑的视频序列研究的视频摘要系统，没有渐变的镜头切换。但更多的视频序列有包含淡入淡出、叠画等渐变镜头切换，这就需要对渐变镜头的切割进行研究。另外，视频摘要的系统并不是通用的，针对特定的专业需要进行研究，比如医学应用视频、公安应用视频等等，都急需进行深入的研究。其次，关键帧提取算法虽然提取的关键帧较为全面，但对于有些特写动作镜头提取的关键帧相对过多，造成一定的冗余，需要进一步的改进算法，减少关键帧的冗余。

[1]余卫宇，曹燕，谢胜利.视频摘要的现状和研究进展[J].计算机应用研究，2008，25(7)：1948-1951.

[2]陈剑贇，老松扬，吴玲达.视频摘要[J].中国图象图形学报，2003，8A(7)：721-725.

[3]耿玉亮，须德.视频镜头边界检测的统一策略[J].中国图象图形学报，2005，10(5)：650-655.

[4]章毓晋.基于内容的视觉信息检索[M].北京：科学出版社，2003.

[5]Gary Bradski ，Adrian Kaebler.Learning OpenCV： Computer Vision with the OpenCV Library[M]，O’Reilly Media，2008.

国电影要走怎样的道路才能使电影的艺术价值与商业价值得到双赢。

参考文献

[1]2008中国电影产业研究报告[M].北京：中国电影出版社，2008.

[2]曾耀农，陈忠斌.中国电影的营销策略[J].，武汉科技学院学报，2005，(7)：93-97.

[3]蒲元瀛．中国电影商业模式分析及实证研究[D].重庆：重庆大学，2004.

[4]Litman， Barry R.Predicting Success of Theatrical Movies： An Empirical Study[J]. Journal of Popular Culture ，1983，(16)： 159-175.

[5]Jehoshua Eliashberg，Steven M Shugan. Film critics： Influencers or predictors[J]. Journal of Marketing，1997，(61)：68-78.

[6]Joseph Lampel，Jamal Shamsie. Critical Push ： Strategies for Creating Momentum in the Motion Picture Industry [J]. Journal of Management，2000，(26)：233-257.

[7]Robert E Krider，Charles B Weinberg. Competitive Dynamics and the Introduction of New Products： The Motion Picture Timing Game [J]. Journal of Marketing Research，1998，(35)： 1-15.

[8]E. Ray Canterbery，Marvasti A. The U.S Motion Picture Industry： An Empirical Approach[J ]. Review of Industrial Organization，2001，(19)：81-98.

[9]Basuroy， Suman，Subimal Chatterjee. Fast and Frequent： Investigating Box Office Revenues of Motion Picture Sequels[J]. Journal of Business Research，2008，(61)：798-803 .

ResearchandImplementontheTechniquesofVideo

WU Ling-lin，YANG Lei，WU Xiao-yu

(Information Engineering School，Communication University of China，Beijing 100024，China)

This paper focuses on designing a system that is capable of abstracting useful video frames for archiving.Cumulative histogram is adopted to detect the edges of video frames due to its lower sensitivity to the motion of objects/camera and illumination variations than statistics histogram.Dynamic threshold based sliding-window is used to detect the shot boundaries.To get the key frames in favor of its representativeness，we use the key frame extraction method based on the shots and image content.

video abstraction，histogram，shot boundary detection，key frame，frame differencing

2012-10-26

吴凌琳(1990-)，女(汉族)，福建泉州人，中国传媒大学硕士研究生.E-mail：carinel@163.com

TP391.41

1673-4793(2013)01-0044-09

(责任编辑：王谦)