融合音视频上下文时序特征的视频片段检测

2016-11-23 09:08岳占峰
中国传媒科技 2016年10期
关键词:音视频时序分类器

■文/岳占峰

融合音视频上下文时序特征的视频片段检测

■文/岳占峰

视频片段的自动检测是智能广告管理系统的重要组成部分。相比于之前的广告视频检测方法只使用音视频特征,我们提出了一种利用SVM-DP融合音视频全局时序特征来自动检测疑似广告视频片段的方法。首先,视频被分割为以镜头为单元的视频序列,然后在以镜头起始点为中心的多维特征窗中提取具有上下文信息的音视频特征,结合支持向量机进行融合,获取当前镜头分别作为广告和节目的概率值。将这些概率值作为观察值构建一条以镜头为单元、以广告和节目为两个状态的马尔科夫链。最后分别根据最小持续时长和最大分割数目约束作为搜索的约束条件,利用动态规划算法进行最优路径的选择。以我国电视节目的真实视频数据进行实验,证明了这种方法的有效性。

融合音视频;山下文时序;视频片段

引言

当前,大量的电视广告视频对我们的日常生活产生了很大影响。从电视节目中检测广告视频片段,可以帮助观众跳过广告片段,也可以从广告视频中获取更多的信息。作为智能广告管理系统的重要组成部分,广告视频片段检测方法近几年吸引了越来越多的注意力。

有些研究人员从定义规则的角度,采用诸如黑帧,电视台标的隐藏,或者几种特征融合的方法来检测广告片段,但是这类方法非常依赖于这些特殊的规则,不具有通用性。后来有些学者提出基于重复视频片段检测的方法,这类方法利用视频中的图像帧指纹、声音指纹以及高效的索引结构,取得了较好的效果。但是这类方法的缺陷是在检测的范围内广告视频片段未必重复。

为了解决上述问题,研究人员尝试采用基于学习的方法和各式各样的语义信息等来区分广告片段和正常节目片段。Hua利用基于支持向量机的分类器和多种音视频特征将每个镜头分为广告镜头和节目镜头。Liu利用一个交互的全局学习方法Tri-AdaBoost进行视频、音频、纹理的语义融合。但是,据我们所知,很少有人在利用全局时序特征方面做过深入的研究,而全局时序特征对于提升基于镜头的视频检测是非常重要的。

在本文中,我们提出了一种新的SVM-DP方法,该方法综合利用包含上下文信息的音视频全局时序特征来检测广告片段,并通过最小持续时长约束(MDC)和最大分割数目约束(MSC)来描述全局时序特征。该方法首先利用音视频特征和SVM分类器分别将每个镜头作为广告和节目的概率值获取,然后这些概率值被作为一个关于广告片段和正常节目两个状态的马尔科夫链的观察值,最后分别把MDC和MSC作为约束条件利用动态规划算法进行最优路径选择,获取最优的检测结果。

1.包含上下文信息的音视频全局时序特征

1.1广告音视频特征选择

广告片段是一类特殊的电视视频,其播放时间较短,但希望引起观众的注意,并向观众传递商品信息。因此广告视频的视觉特征在空间和时序变化都较正常节目更加剧烈,可从中提取边缘变化率的均值和方差(2维)、帧间差异度的均值和方差(2维)和镜头频率(1维)等特征。此外广告片段中的音频通常也具有区别正常节目的信息,比如持续吸引力的旋律。为此可从中提取音频场景直方图(静音、说话、音乐、带背景音乐的说话声和环境音)(5维)。

FMPI (Image Frames Marked with Product Information,标记产品信息的图像帧)常被用来分割、识别和检索广告视频。广告视频片段通常由许多广告镜头组成,因此包含广告标题图像(FMPI)的广告镜头会经常在广告片段中出现,而在非广告片段中却很少出现。为此,FMPI图像的比率(1维)可被用来预测广告片段是否出现。FMPI图像的比率被定义为RFMPI=NFMPI/tfw,其中NFMPI表示特征窗口中FMPI图像的个数,tfw表示特征窗口的长度。

1.2斐波那契序列特征窗口

众所周知,当区分广告和正常视频时,当前视频镜头的上下文(neighborhoods)是非常重要的信息。为了获取包含上下文信息的特征,音视频特征都是从当前镜头以及它周围的一个多重滑动特征窗中提取。特征窗从当前镜头的起始时间为中心分别向两边扩展。特征窗的长度为F(i)*ts,i=2,...,n ,其中F(i)是斐波那契序列,ts表示时间步。因此,我们可以得到2*(n-1)+1个特征窗口。实验中我们设置ts=5秒,n=6,从而可得到一个121维的特征向量。

1.3基于SVM的分类器

通过训练SVM分类器来融合上述音视频特征到广告片段和正常节目片段的后验概率中。SVM分类器的有效性高度受限于模型参数的选择,由于我们使用的是RBF核,所以必须优化两个参数,C(软间隔SVM分类器中的代价参数)和γ(RBF核函数的宽度)。通过对电视视频的分析,我们发现其中广告镜头的数目和正常节目镜头的数目是非常失衡的,因此我们需要考虑三个模型参数:Ccm(广告镜头中的代价参数),Cgp(正常电视镜头的代价参数)和γ。实验中设定Ccm=Ncm×C(Ncm+Ngp),Cgp=Ngp×C(Ncm+Ngp),其中Ncm和Ngp分别是训练集中广告镜头数目和正常节目镜头的数目。此外,我们运用了开源工具LIBSVM,最优模型参数是通过交叉验证的方式获取的。

2.时序特征约束的动态规划算法

在理想情况下,每一个镜头都可以被SVM分类器进行正确的区分,这样广告片段就可以很容易地被标记出来。但是,在实际过程中,由于音视频的特征不能很好地适配模型,如果仅仅通过选择具有最大似然值的模型结果,经常会出现一些较短的误判,从而产生一个有噪声的分类结果,但是通过加入全局的时序特征,这种误判的结果可以被消除,因为错误匹配结果持续的时间很短。由于SVM分类器产生的概率值被认为是一个两状态(广告片段和正常节目片段)的马尔科夫链的观察值,所以依赖于不同约束条件的动态规划算法可被引入解决上述问题,其中一个约束条件是广告片段和正常节目片段的最小持续时长,另一个是在给定时间点上的最大分割数目。

2.1最小持续时长(MDC)

众所周知,电视视频中广告播出在持续时长和时间间隔上遵循一定的全局时序性,即广告片段和正常节目交替出现,并持续一小段时间。我们可利用最小持续时长约束进行搜索,并尝试动态规划算法来选择最优的状态转移路径,即在每一个镜头单元d最大化累计概率值Li(d)=maxk{Lk(d-1)+Tp(k,i )}+Pi(d),其中Li(d)是在镜头单元d,最优状态i的情况下的累积概率值。Tp(k,i)是从状态k转移到状态i的转移概率矩阵,Pi(d)是在镜头单元d状态为i时候的概率值,i=1,2分别为广告状态和正常节目状态。

同时为了完善算法,我们定义新的变量:Bi(d)是状态回溯点,记录在单元点d处,状态为i时,在单元点d-1处的最优状态,C*(d)是在单元d处的状态标号,D是总共候选点的个数,Hi(d)记录了状态转移点的位置,即当前状态的第一个起始点的位置。搜索算法如下:

初始化:

递推:

终止:

路径回溯:

理想情况下,搜索算法中的状态转移矩阵Tp(k,i)是从状态k转移到状态i的转移概率矩阵。准确的转移概率值应由大量实际数据模拟获得,但是这种数据很难直接得到。在我们的实验中,我们采用最小持续时长约束进行近似模拟,主要由广告片段最小时长 TCM和正常节目最小时长 TGP来确定。如果tde-tHbi(d)<TCM,其中tde表示在镜头单元点d处的结束时间,tHbi(d)表示在镜头单元点Hi(d)处的开始时间,那么从广告状态转移到广告状态的概率设为0.65,从广告状态转移到正常节目状态的概率设为0.35,反之我们就将从广告状态到广告状态和从广告状态到正常节目状态的转移概率分别设为0.55、0.45。

2.2最大分割数目约束

在一段给定的视频片段中,广告片段和正常节目片段的总数总会存在一个最大值,因此在这种情况下,最优的分类路径可以通过最大化累积概率值来获取,通过一个对分割总数目的约束条件下的动态规划算法实现。在这个算法中,对于任意两个镜头单元,起始点 db和结束点de构成的单元点区间,它作为一个状态序列最大的累积概率值设为,用来记录在这个状态下最优的状态索引:

其中Pi(d)是当前镜头单元点d的观察值。对于在区间(db,de)拥有n个分割片段的最优路径也就是当结束点在db-1时拥有n-1个分割片段的情况。因此,在给定所有的任意两个镜头单元点的最优质获取的情况下,并且允许最大分割片段数据(Nmax)的情况下,整体的结束点为 de时分割数目为n时的累计概率,因此搜索算法如下:

初始化:

递推:

终止条件:

路径回溯:

其中D是所有候选点的总数目,N*是最优的分割数目,L*是累积概率最大值,B(de)(n)记录了当结束点为 de,分割数目为n的情况下的最优起始点 db通过回溯B(de)(n)和可以获得最优的类别转移点。

3.实验和分析

我们的实验数据由47小时的视频数据组成,来自国内5个电视台,其中包括12.8小时的广告视频数据和34.2小时的正常节目(包含新闻、体育、电视剧和娱乐节目4种节目类型)视频数据。所有的视频数据都被分割成5分钟一段,数据中的边界都通过人工手工标注。数据一半用来训练,另外一半用来测试。实验设置广告的持续时长最小设为20秒,节目片段的最小时长设为60秒,五分钟视频中广告片段和节目片段的最大数目设为3。准确率、召回率和F1值被用来评估实验结果。

使用两段各五分钟的视频数据作为样例进行实验,把使用音视频特征的基于SVM分类器通过最大似然(max likelihood,ML)方法的结果作为基准,评估两种约束方法MDC和MSC,测试结果如图1所示。可以发现,MDC和MSC这两种方法都可以提升分类的结果,其中MDC可以纠正许多短时的错误判断,MSC则可以消除许多的噪声片断。在其他的广告片段和正常节目片段的组合形式的视频中也得到了类似的结果。

图1 检测结果图示

由于正常电视节目种类有多种多样,为此我们构建实验来验证在不同类型的视频数据中该方法的有效性。从表1的结果中可以看出,该方法在所有类型的视频数据中都能取得理想的结果,比较来说,在运动和娱乐类视频数据中的结果不太完美,这大概是由于运动和娱乐类的节目视频与广告视频相比有很多相似的音视频特征,因为这些类型的视频都有一些剧烈的相机移动和一些标语的使用。从表中可进一步看出使用MDC和MSC约束的动态规划算法可以修订这种短的误判结果。

表1 不同类型的正常节目视频上的F1值

更进一步地,该方法与广告检测的共享软件Comskip[10]进行对比,结果如表2所示。实验结果验证了我们提出的方法使用全局时序特征的有效性。另外,MSC优于MDC的表现是因为MDC不能消除一些长的误分类结果。

表2 与COMSKIP的性能对比

4.总结

本文提出了一个两阶段广告视频片段检测方法,该方法首先将电视视频节目分割成以镜头为单元的视频镜头序列,在以镜头起始点为中心的多维特征窗中提取具有上下文信息的音视频特征,结合支持向量机进行融合,预测当前镜头分别作为广告和节目的概率值;然后将这些概率值作为观察值构建一条以镜头为单元、以广告和节目为两个状态的马尔科夫链,这个马尔科夫链可以合并镜头为一个片段;最后分别根据最小持续时长和最大分割数目约束作为搜索的约束条件,利用动态规划算法进行最优路径的选择。在真实数据集上进行的实验表明我们的方法对多种类型的视频都是准确而有效的。在后续的工作中,我们将会尝试把MDC和MSC融合到一个统一的搜索过程中。

[1] R. Lienhart, C. Kuhmunch and W. Effelsberg, On the Detection and Recognition of Television Commercials,Proc of IEEE Conf. on Multimedia Computing and Systems,1997.

[2] A.Albiol, M.J.Ch, F.A.Albiol and L.Torres, Detection of TV commercials, Proc. of ICASSP, 2004.

[3] X.S. Hua, L. Lu and H.J. Zhang, Robust Learning-based TV Commercial Detection, Proc. of ICME, 2005.

[4] M. Mizutani, S. Ebadollahi and S.F. Chang, Commercial Detection in Heterogeneous Video Streams Using Fused Multi-Modal and Temporal Features, Pro. ICASSP, 2005.

[5] L.Y. Duan, J.Q. Wang, Y. Zheng, J.S. Jin, H.Q. Lu, and C.S. Xu, Segmentation, categorization, and identification of commercials from tv streams using multimodal analysis, Proc. ACM MM06, pages 202-210, 2006.

[6] J.M.Gauch and A.Shivadas, Finding and identifying unknown commercials using repeated video sequence detection, Computer Vision and Image Understanding,103(1):80C88, July 2006.

[7] J.Q. Wang, L.Y. Duan, Q.S. Liu, H.Q. Lu and J.S. Jin, Robust Commercial Retrieval in Video Streams, Proc. ICME, 2007.

[8] H.Duxans, D.Conejero and X.Anguera, Audiobased automatic management of TV commercials, Proc. ICASSP, 2009.

[9] N. Liu, Y. Zhao, Z.F. Zhu, and H.Q. Lu, Exploiting Visual-Audio-Textual Characteristics for Automatic TV Commercial Block Detection and Segmentation, IEEE Transactions on Multimedia, 13(5):961C973,October 2011.

[10] Comskip Online: http://www.kaashoek.com/comskip.

(作者单位:北京版银科技有限责任公司)

TN941.2

A

1671-0134(2016)10-025-04

10.19483/j.cnki.11-4653/n.2016.10.006

本文由国家科技支撑计划支持,课题名称“数字版权资源管理系统研发与应用”,课题编号2014BAH19F01

猜你喜欢
音视频时序分类器
清明
Microchip推出首款车载以太网音视频桥接(AVB)全集成解决方案
基于不同建设时序的地铁互联互通方案分析
3KB深圳市一禾音视频科技有限公司
WIFI音视频信号传输的关键问题探究
基于FPGA 的时序信号光纤传输系统
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
高速公路整合移动音视频系统应用
基于模体演化的时序链路预测方法