金 阳,程江华,任 通,库锡树
(国防科学技术大学电子科学与工程学院,湖南 长沙 410073)
电视视频中的台标是对电视节目来源、类型等属性的描述。通过台标自动提取的方法,在数据量庞大的视频文件库或者实时视频流中快速、准确地实现台标的自动定位和提取,能够为相关的视频自动搜索、收录、分析和检索提供有效的技术支持。因此,能否有效检测出视频中的台标,对后续视频台标识别和视频分析具有前瞻性的意义。
当前电视视频中的台标检测存在的难点主要有两个:一是电视视频背景复杂,如光强变化大、内容切换快等,使得电视台标在检测过程中受背景的影响很大;二是电视视频台标趋向半透明化,使用传统的阈值分割、边缘检测技术很难提取出效果理想的台标图像。一般台标检测算法基于视频帧灰度差,对不透明台标而言,检测效果较好,但对于半透明台标,台标的检测效果极易受到背景的干扰。Ozay等[1]提出一种基于平均时间边界的台标检测方法,能够有效提取不透明和半透明台标,但对单独台标图形的获取未作具体算法描述。Meisinger等[2]采用台标区域限定统计模型和场景替换的方法,得到较好的台标检测结果,但是人为设置的参数偏多导致自动化和通用性较差。Xiao等[3]提出了基于支持矢量机(SVM)的台标识别方法,能够有效检测并识别台标图像,但其计算复杂,算法实时性较差。
笔者之前发表的一种基于二值图角点匹配的台标识别方法[4]在台标的检测这一步骤中存在不足,利用图像帧间差分累加求平均的方法同样也特别容易受到复杂背景变换等情况的干扰。本文针对当前电视台标检测过程中存在的问题,提出一种视频帧加权的自动台标检测方法,该方法可有效解决复杂背景变化下和半透明台标检测问题。
本文系统流程图如图1所示。
图1 系统流程图
台标检测分为3步骤:1)确定台标区域并利用视频流背景加权更新方法,得到较好的含有台标的背景灰度图像;2)利用Canny边缘检测算法,在稳定的台标灰度图像区域的基础上,得到二值化台标轮廓;3)运用简化的分水岭填充方法,对二值化台标轮廓进行有效填充,得到单个纯净的台标图像。
本文摒弃以往先提取视频关键帧,然后处理关键帧的思路,提出直接对视频流进行处理的方法,利用视频流不断有视频帧进行实时数据更新的特点,采用基于视频流背景加权更新方法,得到的台标区域图像其背景具有较强的稳定性,为后续台标图像正确提取提供了保证。
系统设计的思想基础基于以下两点考虑:
1)复杂背景情况:为了使台标所在区域的图像背景更加稳定,必须要求尽量去除台标所在区域背景的更新或者瞬间强光照等对台标图像的影响。采用视频流加权处理方法能够有效避免这些不利因素对台标图像的干扰。
2)台标半透明情况:半透明台标图像随着视频背景的更新,其像素点值不断发生变化,即使背景变化不太明显,也能导致台标图像受到干扰。利用边缘提取方法,直接提取台标图像轮廓,能够有效避免像素值随背景变换发生改变。
2.1.1 台标区域确定
根据先验常识,台标一般位于视频图像帧4个角落位置之一,如果直接对电视视频图像全图进行台标搜索,则计算量较大。本文采用通用的最优区域规则(GSR)[5]进行视频图像区域分块。
依据GSR图像分块规则,将图像按照水平和垂直方向3∶5∶3的比例进行划分,分块结果如图2a所示。
图2 GSR图像分块模型
为便于处理,先将彩色视频帧转换为灰度图,利用GSR图像分块规则,按照一定比例得到含有台标区域的灰度图像如图2b所示,从图中可以看到,台标所在的位置为图像的左上角区域,这样直接利用先验知识结合一定的图像分块规则,得到包含台标图像较精确的区域位置,为台标检测和定位减少了计算量。
2.1.2 视频流背景加权更新
传统台标提取方法先根据一定的准则确定视频关键帧,然后对视频关键帧进行处理,这样的处理方法对关键帧具有很强的依赖性,如果某一关键帧图像质量较差,或受背景干扰较大,势必造成台标检测困难。Ozay等[1]提出一种基于平均时间边界的台标检测方法,其实质是对二值化台标轮廓进行时间平均处理,故对每一帧的图像所提取的轮廓质量要求较高,换言之,如果有一幅图像因为强光或者强背景干扰导致提取出的台标轮廓质量很差,那么将影响到最后台标轮廓的确定。
本文在背景更新部分的思想是:先进行时间背景更新,再进行台标轮廓提取。取n帧视频帧作为一次处理单元(根据视频流帧率,选择人眼能够观测出变化的演示过程,大约2 s),定义此处理单元的初始帧为f1,第i帧为fi,第一帧加权帧定义为F1,则第i帧加权帧可以定义为
式中:α取值为1/n,具体帧数选择的原则是台标所在区域的背景一直更新到一次性处理单元所取得最后一帧视频图像为止,这样就可以很好地避免因为瞬时强光以及复杂背景的变换对台标图像造成的干扰,背景更新效果如图3所示,图3a~3f分别为初始背景图像以及不断进行背景加权更新后的图像背景,可以看出,该方法能够有效消除视频中复杂背景的干扰以及瞬时强光照射等问题。
图3 视频流加权背景更新
2.2.1 台标边缘检测
边缘检测普遍采用的方法有:Prewitt,LoG,Canny和Sobel等算子。2.1节视频帧加权背景处理后的台标区域图像,受复杂背景影响小,利用Canny边缘检测算法[6],能够得到比较好的边缘效果。其一般步骤为:
1)图像使用高斯平滑滤波器,减少噪声的干扰;
3)对检测到的各个像素点进行梯度幅值非极大值抑制;
4)利用两个阈值T1和T2进行阈值处理实现线检测以及边缘连接。
2.2.2 轮廓提取
Canny算法最重要的特点是其试图将独立边缘的候选像素点并入边缘,进行拼接形成轮廓。轮廓的形成需要用到上限和下限两个阈值,上限决定强边缘像素点,即直接归类为边缘像素点,下限决定弱边缘像素点,即直接归类为非边缘像素点,如果像素点梯度幅值介于上下限之间,则称其为亚像素边缘点,当其所在的像素点位置处于强像素点定义的连接区域内,即符合人为程序设定的“连接点”要求时,此像素点被归类为边缘点,并与强边缘像素点进行连接。
影响Canny算法亚像素边缘点连接的因素有两个:一是上下限的比值,Canny所建议运用的上下限有一定的比值关系,上下限的阈值比最好介于2∶1和3∶1之间;二是上下限的具体取值问题。
针对这两个问题,在程序设计中,为尽量减少人为因素对实验结果产生的影响,只设置唯一一个人为控制变量,即确定Canny上下限具体数值的手动滑条,可以更加直观地看到在不同取值时获得的台标轮廓效果,同时可以调节上下限取值,使轮廓效果达到最好。不同的上下限取值所获得的台标轮廓图像如图4所示,实验设定的参数如表1所示。
实验所用的图像帧均为视频图像初始帧。由实验结果可以清楚地看到,只要在2∶1和3∶1之间,上下限取值比相差不太悬殊,其轮廓的效果相差不多,而对于上下限的具体取值则可以清楚地反映出具体边缘提取的好坏程度。
图4 台标边缘检测及轮廓提取
表1 实验参数取值表
基于形态学分水岭分割算法[6]的主要思想是水坝的构造,水坝的构造是由所设置好的在这条路径上的点的值为比图像中灰度级的最大值还要大的值来完成,所有水坝的高度通常设定为1加上图像中灰度级最大允许值。主要方法是将灰度图像看成地形图,每一个像素点的灰度值看成所在点地形的高度,通过不断地在局部极小值点(低洼地)处加水,并且让水以均匀的速率上升,从低到高淹没整个地形,直到达到水位的最大值,最后剩下的部分对应于分水线,此分水线即为分割结果,水坝的构造就是建立在此分水线基础上的。
这种形态学的分水岭分割算法是已知图像的某些极小值点,然后通过程序设定的连通规则,将属于某一极小值所在的“盆地”进行“注水”填充处理,最后得到分水线,在分水线的基础上构造水坝,其过程如图5a所示。
实现简化的分水岭台标区域填充方法,其过程刚好和分水岭分割算法相反,如图5b所示,通过2.2节台标图像轮廓的提取,得到了已知的水坝,现在的任务是要在被水坝包围的一个连通域内进行“注水”处理,而被水坝孤立和水坝以外的区域不进行“注水”处理,使得被水坝包围的区域的水面上升至和水坝一样的高度,那么这个被水坝包围区域的上升后的水面,再加上水坝,就共同构成了所需的台标图像区域。水坝所形成的各个区域划分的二维视图如图6a所示,A,B,C三处分别表示水坝以外的区域,被水坝孤立的区域以及水坝包围的区域;其三维视图如图6b所示。
实验的条件为Visual C++6.0版本仿真软件,MATLAB 7.0软件版本,所用到的视频文件为湖南卫视某一期跨年演唱会节目视频。
台标检测的各个过程主要演示过程如图7所示,本文的目的就是要得到只包含有单一纯净的灰度台标图像,通过简化的分水岭台标填充方法可以获得如图7d所示填充后的台标图像,通过图7d中填充的相应区域,在原始的视频流灰度图像中,通过对应的像素点值,就能够直接提取出纯净的灰度台标图像,如图7e所示。
图7 台标检测各个过程的主要演示图片
实验过程中,直接对视频文件进行处理,能够完全实现台标的自动检测,唯一人工控制进行干预的变量就是在台标边缘检测时,设置Canny算子上下限取值。由实验结果可知:在背景更新部分,能够较好地得到加权背景图像,去除复杂背景以及瞬时强光的干扰等因素的影响;在台标边缘检测部分,充分利用Canny算子利用上下限双阈值的方法,加入人工控制等因素,能够有效地提取出连续的台标边缘;在简化分水岭台标图像填充部分,利用台标本身的连通性结合水坝分割等原理,得到较好的台标填充图像;最后从原始视频帧中提取出纯净的灰度台标图像。
复杂的背景变化及半透明化趋势,使得电视台标的的检测变得困难。本文提出基于视频帧加权背景处理的台标检测方法,能够实现台标图像在抗复杂背景干扰及半透明情况下,均具有较强的稳定性,同时结合有效边缘检测算法,得到台标轮廓,在简化分水岭填充方法基础上实现了台标图像的填充。实验结果表明,提出的算法能够有效提取出复杂背景下半透明的电视台标,为后续台标匹配和识别奠定了技术基础。
[1]OZAY N,SANKUR B.Automatic TV logo detection and classification in broadcast videos[C]//Proc.17th European Signal Processing Conference.Glasgow Scotland:EURASIP,2009:839-843.
[2]MEISINGER K,TROEGER T,ZELLER M,et al.Automatic TV logo removal using statistical basedlogo detection and frequency selective inpainting[C]//Proc.European Signal Processing Conference,2005.[S.l.]:EURASIP,2005.
[3]XIAO G,DONG Y,LIU Z,et al.Supervised TV logo detection based on SVMS[C]//Proc.2nd IEEE International Conference on Network Infra-structure and Digital Content.[S.l.]:IEEE Press,2010:174-178.
[4]金阳,程江华,任通,等.一种基于二值图角点匹配的台标识别方法[J].电视技术,2012,36(17):15-19.
[5]EKIN A,BRASPENNING R.Spatial detection of TV channel logos as outliers from the content[C]//Proc.Visual Communication and Image Processing,2006.[S.l.]:SPIE,2006.
[6]冈萨雷斯.数字图像处理:MATLAB版[M].阮秋琦,阮宇智,译.2版.北京:电子工业出版社,2005:293.