基于语义的网球视频广告定位

2012-08-20 05:18何日升
网络安全与数据管理 2012年4期
关键词:纹理网球检索

何日升,智 敏

(内蒙古师范大学 计算机与信息工程学院,内蒙古 呼和浩特 010022)

随着体育事业的发展,网球这项运动被越来越多的人所喜爱,而广告在日常生活中扮演着重要的角色,赞助商会在网球比赛期间插播一些广告。在网球视频中,广告自动定位算法及其应用的发展主要有以下几个方面的应用:(1)对网球感兴趣的人可以在视频节目里快速地定位广告并去除广告,从而提高网球视频的存储效率;(2)对于从事网球视频研究的人员来说,去除广告的掺杂有助于提高网球视频中对象的识别精确性;(3)对于广告感兴趣的人可以利用视频广告定位快速获得广告片段,从而可以节省其分析广告制作技巧的时间。由于网球视频内容的复杂性以及所插入广告的制作方式和表现手法的多样性,很少有人对网球视频中如何定位广告进行研究。以前的体育视频研究通常集中在采用某个特定媒体的标记进行广告定位,但媒体标记的复杂性和不确定性,给广告定位带来了麻烦。普通视频中广告的定位方法有镜头突变频率法[1]、广告特征事先存储法[2]、鲁棒的视频广告检测技术[3]和散列函数改进算法[4]等,但是这些算法计算量大且对于网球视频检索结果不理想。本文分析了网球视频中的语义信息,提出了利用帧切换时间差法进行网球视频广告定位。该方法在一定程度上减小了运算量,广告的定位效果也相当理想。

1 网球视频特征语义分析

视频由一系列的帧按照时间的顺序拼接而成,帧的信息也反映了视频的信息。对于网球视频,有些帧其内容大部分都是描述比赛场地的,称为场地帧,其他的称为非场地帧。场地帧最容易出现且出现次数最多,因为整个网球视频基本上是一个关注网球比赛的过程,而网球比赛是不可能离开场地的。整个网球比赛视频有以下列特征:(1)从场地帧开始,经过非场地帧又回到场地帧,多次重复这样的做法;(2)场地帧到场地帧(中间含有非场地帧但不是广告)的切换时间非常短且远小于1.5 min,通常为几秒到十几秒。这是因为网球视频是一个比赛的过程,不可能花更多的时间对某个球员或者观众进行描述,会快速回到比赛场地上。

帧的切换一般是指帧按时间的顺序一帧一帧连续地切换,但本文描述的帧切换是指帧经过一系列与该帧无关的帧再到与该帧相似的帧的切换,具体是指场地帧经过非场地帧再到场地帧的切换。帧切换时间差是指前后两个场地帧在网球比赛视频中具体时间点的时间之差,也就是这两个场地帧切换的时间间隔。由于场地帧到场地帧之间的切换频率高且切换时间非常短,如果有商业广告插入,那么在广告之前的场地帧到播放广告之后的场地帧的切换时间就会显得更长。值得注意的是,这个切换时间远大于平常场地帧到场地帧的切换时间。广告是在网球比赛球员休息时播放的,并且这个休息时间也有明文限定。不妨设球员休息的最短时间为一个阈值,通过比较这个阈值和场地帧到下一个场地帧的切换时间间隔来判定是否有广告的存在。

2 场地帧的识别及近一化

由于网球比赛场地的多样性和帧中内容的多样性,从众多的帧中找出场地帧有一定的难度。场地帧的识别关系到广告的定位结果,为了提高场地帧的识别速度和精确性,先进行粗识别再进行二次识别。

2.1 粗识别

从上文的网球视频语义分析来看,场地帧基本上是对球场进行描述,而球场类别有限且场地颜色单一,主颜色是指在某个帧所有颜色中出现次数最多的颜色,基于这个特点可选取主颜色作为帧的颜色特征。

HSV空间是一种符合人类视觉感知的颜色空间,它把色彩分为色调 H(Hue)、饱和度 S(Saturation)和亮度 V(Value)三种属性。考虑到场地帧的颜色特性和计算量的大小,选取HSV空间中的H值作为场地帧的颜色特征。场地帧是出现次数最多的帧,那么场地帧对应的主颜色在所有主颜色中出现次数最多。利用这个特点,把视频中所有帧的主颜色按颜色种类进行分类,统计各种主颜色出现的次数,把出现次数最多的主颜色所对应的帧全部查找出来(这种方法在数据库中利用SQL语句很容易实现),这样就得到了所有场地帧。

2.2 二次识别

由于颜色特征不是场地帧的唯一特征,因此通过主颜色找出的这些帧中会含有非场地帧。为了提高广告的定位精确度,要对通过主颜色找出的帧进行二次识别。

由于场地帧中的场地具有颜色单一、分布集中等区域性,而能量、熵、对比度、反差分矩是最常用的纹理特征,因此可以选取能量、熵、对比度、反差分矩作为场地帧纹理特征。能量又称为角二阶矩,是图像灰度分布均匀性和纹理粗细的一个度量,粗纹理含有较多的能量,细纹理含有较少的能量。熵是图像所具有的信息量的度量,若图像没有任何纹理,熵值接近为零;若图像充满细纹理,则图像的熵值最大。对比度描述图像的清晰度和纹理的强弱,值越大,表明纹理效果越明显;值越小,表明纹理效果越不明显。反差分矩反映图像纹理的同质性,度量图像纹理局部变化的多少,其值大则说明图像纹理的不同区域间缺少变化,局部非常均匀。由于场地帧之间的变化非常小,可以把粗识别后帧的能量、熵、对比度、反差分矩的特征值进行降低等级量化,再利用分类的思想把这些纹理特征值进行分类,把出现次数最多且能量、熵、对比度、反差分矩每一个特征值都对应相同的帧提取出来,这些帧就是场地帧。

2.3 场地帧的近一化

近一化的思想是:为了处理问题方便,常常把非常相似的多个物体看作为同一个物体然后对其进行处理操作。在网球比赛视频当中,由于场地帧基本上是形容球场的,相互之间差别非常小,可以把这些帧视为同一个帧进行处理,这种方法称为场地帧的近一化。找到了场地帧,要对场地帧进行近一化,可以为每一个帧设一个标记位(tag),把所有已经找到的场地帧的标记位记为1。为了便于说明下文广告定位算法,其他帧的标记位记为0,则所有tag=1的帧表示是近一化后的场地帧。

3 广告定位的算法

按照国际惯例,网球比赛中球员的最短休息时间为1.5 min,网球视频中的商业广告是在球员休息的时间内播放的。通过上文的语义分析可知,平常的场地帧之间切换(不含有广告)时间非常短,而球员的休息时间是有限制的,可设这个球员最短的休息时间为一个阈值。从场地帧到场地帧的切换时间如果大于1.5 min,那么这段含有广告。 当 tag的序列为“…1,1,1,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,1,1,1…”时,按顺序依次判断两个 1(连续的0前后的两个1,如上面的粗体的1)之间的时间差是否大于1.5 min,如果是,那么这一段含有广告。算法思想如下:

(1)在 tag序列中,设 X为第一次出现序列“1,0”中 1出现的位置,Y为第一次出现序列 “0,1”中1出现的位置,WAY为Y、X的时间差;

(2)计算 WAY的值,如果 WAY≥1.5 min,则分别记录 X、Y的值(X、Y之间为广告);

(3)X取下一次出现序列“1,0”中 1出现的位置,Y取下一次出现序列“0,1”中1出现的位置,重复步骤(2)~(4)直到 tag序列结束。

4 广告定位结果和分析

本文设计了一个基于Java+MySQL的广告位置检索系统,图1所示为对比赛时间为60 min的网球视频进行检索的结果显示界面。单击“打开”按钮把视频导入到检索系统中,再单击“广告检索”按钮,就把视频中的广告检索出来并显示在界面上。单击“播放”就可以播放所检索出来的相应广告片段。

对4场网球比赛视频进行实验,广告检索结果如表1所示。从表1可以计算出误检率和漏检率均为5.4%,检索效果比较理想。如果把3个漏检的广告定位到原比赛视频来看,会发现这3个广告是在网球比赛之前或者比赛结束之后播放的。对于表1中的误检数,其中有两个是由于在开赛后对某个球员和观众过多地进行描述引起的,另外一个是网球运动员意外受伤所导致的误检。出现这些误差也是本文方法的不足,需要结合其他方法进行改进。基于语义的网球视频广告定位方法从底层出发研究了网球视频帧之间的相关性,并根据网球比赛中球员休息所特有的时间特征来实现的。由于纹理特征的提取比颜色提取算法复杂,本文先用颜色特征对场地帧进行粗识别,再用纹理进行二次识别,时间上要比镜头突变频率法、广告特征事先存储法省时。使用基于视频语义的帧切换时间差法,除了能检索网球视频中的广告,还可以检索如羽毛球、乒乓球等其他比赛视频中的广告。

表1 实验结果

[1]Hua Xiansheng,Lu Lie,Zhang Hongjiang.Robust learning-based TV commercial detection.Multimedia and ExPo,2005.ICME 2005.IEEE International Conference,2005.

[2]LIENHART R,KUHMUNCH R,EFFELSBERG C,et al.On the detection and recognition of television commercials[C].Proceedings of IEEE International Conference,1997:509-516.

[3]张亮.鲁棒的视频广告检测技术研究[D].北京:北京交通大学,2007.

[4]解德胜.视频广告检测算法研究[D].重庆:西南大学,2009.

猜你喜欢
纹理网球检索
网球究竟是什么颜色?
腰痛不用愁,网球来帮忙
基于BM3D的复杂纹理区域图像去噪
使用纹理叠加添加艺术画特效
TEXTURE ON TEXTURE质地上的纹理
简论多球练习在普通高校网球训练中的作用
专利检索中“语义”的表现
消除凹凸纹理有妙招!
国际标准检索
国际标准检索