林 彬,刘 群,王 群,聂燕柳
(重庆邮电大学 计算机科学与技术学院,重庆400065)
视频语义分析一直是视频处理领域的研究热点。然而由于语义鸿沟的存在,限于当前的技术水平,还难以建立底层特征与高层语义之间的通用模型进行视频分析。足球等体育项目由于深受人们所喜爱,具有广泛的群众基础,因而对足球视频语义内容的研究具有广阔的应用前景。在一场90分钟的足球比赛中,观众真正感兴趣并可能反复观看的往往是那些精彩镜头,如射门、角球、任意球、恶意犯规等。由于场地和摄像机数量的限制,足球视频具有相对的结构性和固定的镜头类型,且会以慢镜头的形式重放重要的语义事件。通过镜头的检测与镜头类型的识别,结合领域知识,是可能建立起底层特征到高层语义的映射关系的。一些研究者已经在这方面做了有益的探索。彭利民[1]基于隐马尔科夫模型识别足球语义事件。全国英等[2]在分割镜头后生成镜头线索,再基于分层隐马尔科夫模型进行事件推理。Tong等[3]结合贝叶斯网络模型,根据镜头语义单元完成事件检测。Ekin等[4]根据草色比率实现了足球视频镜头分类、事件检测并生成了视频摘要。赵丕锡等[5]以慢动作回放镜头为标志,通过分析镜头间的关联规则实现摘要的生成。Ouazzani等[6]基于有效的镜头分类,结合隐马尔科夫模型和贝叶斯理论识别精彩片断。Eldib等[7]改进了基于logo检测识别慢镜头的算法,通过分析慢镜头持续时间生成摘要。
视频数据是一种非结构化数据,将其转换成为以镜头类型为关键属性的一连串标示序列,是事件检测、摘要生成的基础。通常的做法是首先对视频进行预处理,以镜头为单位自动切分视频将其结构化;在此基础之上,再通过模式识别方法自动识别出镜头所属类型。在综合分析了已有工作之后,本文提出了一种基于logo模板匹配和场地像素比率的镜头分类方法,将视频镜头分为慢镜头、远镜头、中镜头、球员特写或场外镜头四类。经过实验证明,方法适应性好,准确性高,且实用高效。
镜头之间的时序关系对于视频的语义分析具有重要的作用。如射门事件发生前会出现球门区域的远镜头,在射门发生之后通常会有一个射门球员的特写镜头,紧跟着会有回放整个射门过程的慢镜头,如果射门成功,还会出现教练欢呼的镜头和观众镜头。因此,如何有效地检测并识别足球视频中各种类型的镜头,受到了众多研究者的广泛关注。
镜头分类首先要进行视频切分,准确检测镜头边界以完成视频切分,是有效划分镜头类型的保障性前提。镜头边界检测最常采用的方法是比较相邻两帧颜色直方图,如其距离大于某一指定阈值即认为这两帧为镜头边界。该方法对于突变镜头边界的检测非常有效,但对于渐变镜头,由于渐变过程中相邻帧间差异并不明显,原始的直方图比较法很容易失效。然而,当镜头渐变发生时,相邻帧间的差异虽小于突变时的差异,却大于同一镜头中相邻帧间的差异。基于此,Zhang等[8]提出的双阈值比较法能够比较有效地解决渐变镜头检测的问题。足球视频中,大部分镜头边界属于突变类型,少部分属于渐变。在已有的相关工作[9-12]中,分割镜头普遍采用双阈值比较法或其改进算法,虽能取得一定效果,但仍然容易产生误检,尤其是对渐变镜头的检测。原因主要是足球视频中存在大量的运动,以及慢镜回放部分开始和结束时的logo扫换在不同的视频中差异较大,这些都会导致算法出现错误的判断。而基于渐变区域获取logo模板而后进行logo模板匹配的慢镜头检测算法[7,13-14],由于渐变检测的效果不稳定,其慢镜头定位的准确性也会相应地受到影响,这对于后续的研究工作是不利的。
根据拍摄角度与距离的不同,足球视频中的镜头可分为远镜头、中镜头、特写镜头、场外镜头等几种类型。远镜头以鸟瞰的角度清晰地显示出球场内各球员的站位和比赛的进行情况,通常远镜头的出现即意味着比赛的进行;中镜头往往穿插于远镜头之间,聚焦于一名或几名球员,并且显示出球员的整个身体部分,而连续的中镜头通常在比赛中断时出现;特写镜头所捕捉的对象往往是某一名球员,且只显示球员的上半身部分,一般情况下,球员特写镜头即意味着比赛的中断;场外镜头显示的是教练、替补席、观众席或其他情况,同样意味着比赛的中断。基于在不同类型的镜头中,球场区域在整幅图像帧中的比率有较大差异,Xu等[9]提出利用草地颜色比率为特征,设定阈值以划分足球视频镜头类型,将其分为远镜头、中镜头和其他镜头。由于存在场内中镜头与远镜头草色比例相似的情况,对阈值的选取造成了一定困难,因此分类效果并不理想。Ekin等[4]应用黄金分块的思想,根据图像帧中不同区域草色比率的差值为特征,利用贝叶斯分类器对远、中、特写镜头进行分类,取得了较为理想的分类效果,但是文中并没有说明如何选帧以确定初始草地颜色值,而是直接对帧中主色进行了计算。
Eldib等[7]通过实验确定场地像素的RGB范围区间,凡是各分量均落在这个区间内的像素即认为是场地颜色像素,再根据场地像素比例设定阈值以区分各类镜头,由于场地颜色会随着场馆、天气、光线等因素而不断变化,且RGB颜色空间与人眼视觉存在差异性,算法鲁棒性不佳。于俊清等[15]则利用视频帧中子窗口区域的场地颜色比例来反映镜头的类型,也取得了一定效果,但在统计球场色像素时同样是只判断场地像素色度分量H值是否落在事先设定好的的取值范围内,且算法依赖于子窗口大小与位置的选取。
综上所述,当前镜头分类方法的主要问题是镜头边界定位的准确度不够,算法的通用性不强,各类型镜头的识别准确率也有待进一步提高。
通过观察与分析得知,足球视频中的镜头渐变为logo扫换和叠化两种。Logo扫换效果如图1所示,出现于慢镜回放部分的起始和结尾处;叠化效果如图2所示,一般只出现于回放段内的镜头切换处。而正常比赛部分的镜头切换通常为镜头突变。
一段慢镜回放是通过一个或一组镜头对稍早前的精彩内容的回放。考虑到一个回放段内各镜头的语义相关性,本文的思路是将整个回放段视为一个慢镜头,首先通过logo模板匹配定位出视频中所有的慢镜头,然后在其余的正常比赛部分做突变镜头检测即可,从而有效解决足球视频中渐变镜头检测易产生误检的问题。紧接着,本文提出了一种改进的自适应的场地色H值提取算法用于场地颜色区间取值范围的确定,H值落在这个区间内的像素即为场地像素,再结合黄金分块的思想计算各块的场地像素比率,并以此为特征,利用更适合视频处理的SVM分类器将正常比赛部分镜头分为远镜头、中镜头、球员特写或场外镜头三类 (鉴于球员特写镜头与场外镜头在语义上具有相似性,本文将这两类镜头归为同一类型镜头)。
足球视频中,当进球、射门、精彩过人、恶意犯规等观众最感兴趣的语义事件发生时,编导通常会以慢动作回放的方式重播之前的内容,甚至会多次重放、不同角度重放,供观众仔细观看。因此,对慢镜头的准确定位不仅能够标定比赛中精彩片断在视频流中所处位置,进而生成比赛的精彩集锦,同时也是本文视频切分方法的首要工作。
慢镜回放通常会以一个特定的logo扫换引入,再以相同或类似的变化结束。对于同一类型的赛事,往往有其固定的logo扫换效果。因此,可以通过用户交互的方式,让用户选择比赛类型来获取logo模板,如图3所示;之后在视频序列中通过对logo模板的检测与匹配,逐一定位出慢镜头的开始和结束。
图3 logo模板的选取
本文采用文献 [10]中的方法计算每一帧与logo模板的距离。计算公式为
式中:d1(s,t)——模板t中logo所在区域与帧s对应区域两者基于颜色直方图的距离,d2(s,t)——他们基于对应像素颜色值的距离,0<β<1为权重。当前帧与与logo模板的距离小于给定阈值时,即记为一次logo匹配。
另外,由于logo扫换本身属于镜头渐变,为了避免重复匹配,文献 [10]中还约定:若相邻的两次匹配发生在最小间隔帧数以内,则只记为一次匹配。考虑到一次慢镜回放从开始到结束的时间,或两次回放之间的间隔时间通常不会低于一秒,故而对于25帧/秒的视频,取其最小间隔帧数为25。
定位出所有的慢镜头后,在其余的正常比赛部分通过直方图比较法检测镜头突变,完成视频的切分。
2.2.1 确定场地色H值范围区间
HSV颜色空间是一种面向视觉感知的颜色模型,其中H分量 (色度,Hue)是决定颜色本质的基本特性,因此本文采用H分量的值来度量场地颜色,提出了一种自适应的确定场地色H值范围区间的算法,算法步骤如下:
步骤1 得到一个场地色H值的初始范围区间[low,high](实验中low取70,high取100);
步骤2 从视频序列中均匀选取n帧图像;
步骤3 计算第一帧H分量直方图的峰值ipeak;
步骤4 如果ipeak∈[low,high],转步骤6,否则转步骤5;
步骤5 计算下一帧H分量直方图的峰值ipeak,转步骤4;
步骤6 按式 (2)~ (7)计算场地颜色均值,设定场地色H值取值范围为[m-r,m+r],r为颜色半径 (实验中r取5),算法结束。
式中:颜色区间的上下界imin,imax由式 (2)~ (6)确定,实验中K取0.2,m为场地颜色均值,将其定义为峰值ipeak左右颜色直方图下降到K倍H[ipeak]区间内所有颜色的均值[4]。
2.2.2 特征提取及关键帧选择
黄金分块的思想将图像帧在每个方向按照3:5:3的比例划分为9个分块,如图4所示,远镜头帧的第一行的三块区域多为广告牌区域,二、三行6块区域中场地像素比率较大;中镜头帧往往在正中一块区域场地像素比例较小;球员特写镜头帧的非场地区域主要集中在第二列的三块区域。分别计算图像帧中九块区域的场地像素比率值作为特征,继而通过训练好的SVM分类器能够完成对该帧的类型识别。
本文对每个比赛镜头选取等间隔的三帧图像作为关键帧,对这3个关键帧进行识别,得到三帧图像的分类结果并以此判定镜头的类型。具体规则如下:若三帧的分类结果一致,则将该类型作为当前镜头的类型;若有两帧的分类结果一致,一帧为不同类型,则将相同结果的两帧的类型作为当前镜头的类型;若三帧的分类结果均不一致,则将镜头中间一帧的类型作为当前镜头类型。
图4 黄金分块效果
2.2.3 SVM 分类器
支持向量机 (SVM)已在图像识别、信号处理等诸多应用中取得了良好的效果。由于在解决小样本领域分类问题有其特有的优势,SVM同样适合于应用在视频处理领域,因此本文选用SVM作为分类器。SVM的核心思想是基于结构风险最小化原则,构造最优分类超平面以最大间隔将两类数据分开。其优化方程为
式中:w——矢量系数,b——常量,ξi——松弛变量,C——错误惩罚参数,φ(x)——x的非线 性映射,xi、yi——第i个特征矢量及其所属类别。SVM通过函数φ(·)将输入矢量映射到高维空间,通过最优计算得到最优分类,保证得到的解为全局最优解。
决定SVM性能的是核函数的选取,式 (9)为核函数公式
本文的SVM分类器采用高斯核函数,即
为检验本文方法的效果,采用MFC和DirectShow开发实验平台,实验视频为CCTV转播的多场足球比赛视频片断,在经过慢镜头检测、突变镜头检测及镜头类型识别这三步处理后,对总长54分36秒的视频 (82 009帧,237个镜头)的镜头分类结果如表1所示。
将本文方法与文献 [14]中慢镜头检测方法和文献[15]中镜头分类方法作查全率与查准率的比较,比较结果如表2所示。
其中查全率与查准率的计算公式如下
表1 镜头分类实验结果
表2 查全率、查准率对比结果
实验结果表明,本文方法对于慢镜头、远镜头、中镜头、球员特写或场外镜头的检测与识别均取得了较好的效果,相对于较为有代表性的文献 [14]、 [15]中方法,在查全率和查准率方面均有所提高。产生误检和漏检的主要原因一方面是镜头边界检测时由于镜头或球员运动产生误检和镜头间差别极小而产生漏检,这类情况是较为难以避免的;另一方面是SVM分类产生的误差,可以通过完善训练样本和优化分类器设计进一步提高分类效果。中镜头由于情况多变且相对不规则,较容易被误检为远镜头或特写镜头,因而查全率相对较低。而由于logo模板的获取基于用户交互,因而对实验视频中所有慢镜头的检测与定位达到了准确无误的效果。
已有的相关工作中,视频的切分往往只专注于镜头突变、渐变的检测,本文不拘泥于这种常规思想,提出了一种切分足球视频的新思路,即首先通过用户交互获取logo模板以精确定位视频中的慢镜头,然后再通过突变镜头检测进一步切分正常比赛部分,避免了渐变检测产生的较大误差。另外,本文还提出了一种改进的自适应场地色提取算法,结合黄金分块法并利用SVM分类器将正常比赛镜头进一步的划分。至此,本文方法将整个视频流表示为结构化的四类镜头类型标示序列 (即慢镜头、远镜头、中镜头、球员特写或场外镜头),为后续的语义事件检测及摘要生成奠定了很好的结构化基础。
[1]PENG Limin.Research on semantic events of analyzing soccer video based on hidden Markov model[J].Computer Engineering and Design,2008,29 (19):5002-5005 (in Chinese).[彭利民.基于HMM的足球视频语义分析研究 [J].计算机工程与设计,2008,29 (19):5002-5005.]
[2]QUAN Guoying,TAO Linmi,XU Guangyou,et al.Cue fusion and event inference based on HHMM [J].Journal of Tsinghua University (Natural Science),2007,47 (1):112-115(in Chinese).[全国英,陶霖密,徐光祐,等.基于HHMM的多线索融合和事件推理方法 [J].清华大学学报 (自然科学版),2007,47 (1):112-115.]
[3]TONG X F,LIU Q S,LU H Q,et al.Semantic units based event detection in soccer video [J].Acta Automatica Sinica,2005,31 (4):523-529.
[4]Ekin A,Tekalp A,Mehrotra R.Automatic soccer video analysis and summarization [J].IEEE Transactions on Image Processing,2003,12 (7):796-807.
[5]ZHAO Peixi,HU Bin,WANG Xiukun,et al.Analysis and summarization for soccer video [J].Computer Engineering and Applications,2005,41 (30):166-168 (in Chinese). [赵丕锡,胡滨,王秀坤,等.足球视频的结构分析与摘要 [J].计算机工程与应用,2005,41 (30):166-168.]
[6]Ouazzani R E,Thami R O H.Highlights’recognition and learning in soccer video by using hidden Markov models and the Bayesian theorem [C].Proc of the IEEE International Conf on Multimedia Computing and Systems,2009:304-308.
[7]Eldib M Y,Zaid B,Zawbaa H M,et al.Soccer video summarization using enhanced logo detection[C].Proceedings of the IEEE International Conference on Image Processing,2009:4345-4348.
[8]ZHANG H J,Kankanhalli A,Smoliar S W.Automatic partitioning of full-motion video [J].Multimedia Systems,1993,1(1):10-28.
[9]XU P,XIE L,CHANG S F,et al.Algorithms and system for segmentation and structure analysis in soccer video[C].Proceedings of the IEEE International Conference on Multimedia and Expo,2001:721-724.
[10]WANG Fei.Research on sports video content analysis technology [D].Beijing:Graduate University of Chinese Academy of Sciences,2005(in Chinese).[王扉.体育视频的内容分析技术研究 [D].北京:中国科学院研究生院,2005.]
[11]ZHANG Yuzhen,WANG Jianyu,DAI Yuewei.Soccer video shot segmentation based on self-adapting dual threshold and dominant color percentage [J].Journal of Nanjing University of Science and Technology(Natural Science),2009,33 (4):432-437(in Chinese).[张玉珍,王建宇,戴跃伟.基于自适应双阈值和主色率的足球视频镜头的分割 [J].南京理工大学学报 (自然科学版),2009,33 (4):432-437.]
[12]ZHANG J.Robust shot boundary detection and video summarization based on motion information[J].Journal of Computer-Aided Design & Computer Graphics,2010,22 (6):1023-1032(in Chinese).[张剑.鲁棒的镜头边界检测与基于运动信息的视频摘要生成 [J].计算机辅助设计与图形学学报,2010,22 (6):1023-1032.]
[13]PAN H,LI B,Sezan M.Automatic detection of replay segments in broadcast sports programs by detection of logos in scene transition [C].Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing,2002:3385-3388.
[14]HUANG Q,HU J,HU W,et al.A reliable logo and replay detector for sports video [C].Proceedings of the IEEE International Conference on Multimedia and Expo, 2007:1695-1698.
[15]YU Junqing,WANG Ning.Shot classification for soccer video based on sub-window region [J].Journal of Image and Graphics,2008,13 (7):1347-1352 (in Chinese).[于俊清,王宁.基于子窗口区域的足球视频镜头分类 [J].中国图象图形学报,2008,13 (7):1347-1352.]