王艳 陈姝君
摘要:通過对新闻视频中主持人镜头的分析,提出基于模板色矩的主持人镜头检测算法。实验表明,该方法能较准确地检测出主持人镜头,具有一定的鲁棒性。
关键词:主持人镜头检测;主持人模板;色矩1引言
由于主持人镜头是新闻视频中的重要结构特征,因此,主持人镜头的检测始终是新闻视频分析的一个重要方面。许多研究者对这个问题进行过研究和探索,比如:利用模板匹配来进行检测[1];利用主持人镜头会在整个视频段中反复出现,并以此作为检测的依据[2]等等。这些方法效果大都不错,但算法都比较复杂,计算量较大。
2主持人模板的提取与色矩的计算
新闻视频中的主持入镜头,是一类具有鲜明特征的镜头,其一般形式为一个或两个主持人,在固定的演播室背景前进行新闻报道,主持人镜头实例如图1。通过观察可以发现,主持人的位置以及字幕、台标和节目标志的出现位置,都有严格的规定,由此可以建立了主持人镜头的空间结构模型2。图中,区域A-D分别代表主持人、台标、字幕和节目标志所出现的区域。从简化算法和降低计算复杂性方面考虑,本文根据主持人镜头的背景不变性进行检测[3]。从不变的背景出发,通过色矩计算和模板匹配来进行主持人镜头的检测。
本文的主持人镜头检测方法如下:提取到主持人帧模板,计算如图3各子块的色矩作为模板色矩,通过计算关键帧各子块的色矩向量与模板色矩向量的欧式距离,进行匹配,从而判定关键帧是不是主持人帧,从而判定关键帧所在镜头是不是主持人镜头。在音频特性上,第一个主持人镜头出现之前会有一段音乐过渡,并且从音乐向语音的过渡中间,有一个较长的静音片段。由于音视频具有同步性,检测到静音帧后的第一或第二帧的图像必定是主持人帧,从中可以提取到主持人帧的模板。
色矩是由Stricker和Orengo提出的一种简单而有效的颜色特征[4]。它的数学基础是图像中任何的色彩分布均可以用它的矩来表示。由于颜色分布信息主要集中在低阶矩中,这里仅用色彩的一阶矩(mean,均值)、二阶矩(variance,方差)就足以表达图像的颜色分布,其数学表达式为:
其中,pij表示图像中第j个像素的第i个分量,这里在HSI颜色空间进行计算。
3主持人镜头的算法
主持人镜头具体算法步骤如下:
Step1.根据音视频的同步性,先是一段音乐,检测到静音帧后的第一或第二帧的图像必定是主持人帧,提取主持人帧的模板。
Step2.计算主持人帧模板的各子块色矩作为模板色矩。
Step3.计算各关键帧的各子块色矩,与主持人帧模板的模板色矩进行匹配,确定关键帧是否是主持人帧,从而确定关键帧所在镜头是否是主持人镜头。
4实验结果
实验采用中央一台长达30分钟的8个新闻联播进行主持人镜头检测,共检测出72个主持人镜头,无误检,无漏检,查准率和查全率都达到了100%。
[参考文献]
[1]王润生.图像理解.长沙:国防科技大学出版社,1995.
[2]马宇飞,等.新闻视频中的口播帧检测方法的研究.软件学报.2001(3)27-31.
[3]徐峻,等.新闻视频中主持人镜头识别方法的研究.计算机工程.2002:Vol 28 NO.3.
[4]Stricker M,Orengo M.Similarity of color images.SPIE Storage and Retrieval for Image and Video Databases III,Feb.1995,2185:381-392.