白皓
(上海建桥学院,上海 201306)
新媒体主要包括视频软件、移动端媒体、网络电视及网络媒体等,是在当代网络通信的基础上发展而来的,以移动通信、互联网信息处理及数字技术为支撑,并通过无线通信网及卫星等介质将信息向外传输的一种数字化复合媒体形式[1-2]。新媒体在当前科技的持续发展进程中,逐渐成为大众生活中不可缺少的一部分。相比传统媒体而言,其不但具备传统媒体的特点,同时能够有效解决传统媒体在区域和信息交互问题上存在的局限性,提高信息交互及传播的效率和范围[3]。新媒体背景下视频类型多种多样,不同视频类型可为大众提供不同的视觉享受和呈现效果,视频广告作为新媒体背景下的关键视频类型,是商业信息的关键载体[4],在传递商业信息方面具备重要的影响作用。为此,在新媒体背景下对视频广告实施有效的智能识别,是当下众多研究者的研究重点[5-6]。
融合视音频特征的视频广告识别方法[7]是通过将GIST、颜色直方图及音频特征等相结合,实现以视音频特征识别视频广告表现力的一种识别方法,但由于此方法识别时需融合多种特征才能实现视频广告识别,故其准确率不高;基于片段关键帧的视频行为识别方法[8]通过定义视频信息量,将视频片段进行划分,同时提取出各片段的关键帧特征,通过设计视频行为识别系统,实现最终的视频广告识别,该方法虽然准确率高,但识别效率很低;多级连续排除算法(Multi-level Successive Elimination Algorithm,MSEA)是一种快速块运动估计算法[9-10],该算法可实现全局最优的目的,能够通过排除无关联块的方式,提升识别效率。
基于以上分析,文中研究了新媒体背景下的视频广告智能识别方法,实现了从新媒体背景下的各类视频中有效识别出视频广告的目的,为提升商业信息实时传递速率提供可靠依据。
因视频的镜头分割主要着重于精准度与及时性,精准度与及时性可通过帧匹配与镜头的长度匹配来实现,故需采用帧匹配与镜头长度序列匹配相结合的视频匹配算法实现视频镜头的分割[11]。先获取模式视频广告序列的长度和首个G 帧,通过分析该模式视频广告获得其镜头序列,然后,选用模式视频广告的首个G 帧,对目标视频进行逐G 帧匹配。由于所有帧内大约存在1/15 的G 帧占比,并且需以帧内预测的方法解码G 帧,而其他帧需要依据G 帧实施预测,或者共同向前后两个方向实施预测。最后,对从匹配点开始的模式视频广告长度的目标视频实行镜头分割,获取目标视频的镜头长度序列。若所获取的目标视频镜头长度序列和模式视频广告镜头长度序列相同,则认定实现了一次目标视频的镜头分割,可继续匹配首个G 帧图像;若所获取的目标视频镜头长度序列和模式视频广告镜头长度序列不相同,则认定为没有实现目标视频的镜头分割,此时继续匹配下一个G 帧图像。通过重复以上步骤获取到N个与模式视频广告相匹配的视频段,实现目标视频镜头分割。视频镜头分割过程如图1 所示。
图1 视频镜头分割过程图
3D 卷积神经网络(3D Convolutional Neural Networks,3D-CNN)架构由3 个卷积层、一个全连接层、一个硬连接线层及两个下采样层构成[12]。文中选用3D-CNN 提取目标视频分割后所获得视频段的视频帧特征,计算特征的相似度,以计算的相似度为依据,提取出各视频段中视频广告的关键帧特征,实现视频广告关键帧特征提取。将视频段内的连续帧输入到3D-CNN,通过首层硬连接线(haidwired)层编码获取视频帧的梯度、灰度与光流特征信息,其中视频帧的边缘分布与视频帧目标的运动趋向分别通过梯度和光流描述,随后向下一层卷积层输入光流信息与梯度信息,然后进行下一步识别处理。设在(x,y)像素值位置提取的特征单位值为,层数和特征图序号分别为j和i,单位值的运算方法如式(1)所示。
式中,dji和Uj表示特征图的偏置值和卷积核在时间维度的大小,表示连接第m个特征图的核第(q,p,u)的值;Pj和qj表示核的宽与高。
经过数次卷积核卷积与下采样之后,3D-CNN转换所输入的连续视频帧为特征向量,此时可将初始网络架构内的最后全连接层去除掉,选取最后一个卷积层的feature map 当作所需提取的m帧特征向量Abe。因卷积采样所得的特征存在高纬度特性,故运用哈希(Hashing)算法对视频段的特征进行处理[13]。通过哈希算法编码高维数据为一组二进制代码,同时可维持视频段高维数据的元相似性。将哈希层加入到卷积层之后,卷积神经网络的激活函数为Sigmoid 函数,限制特征值在0~1 之间,构建特征的哈希码,并采用哈希码对视频帧的Hamming 距离实施运算,视频帧的Hamming 距离越小代表视频帧的相似度Cbe越高。设两个视频帧的哈希码依次为ε、ϕ,那么Hamming 距离B定义为:
通过哈希算法运算获得视频帧特征的哈希码,并以Hamming 距离获得视频帧特征的相似度Cbe,以所获得相似度为依据,并根据阈值提取视频广告的关键帧特征。相似度C如式(3)所示。
式中,δ表示视频帧特征的权重因子。
在运算相似度时,为了令视频广告关键帧的数量能够以视频内容为依据自动调整阈值,文中应用自适应阈值的方式对相似度的阈值进行设置,表示为:
式中,ω和γ表示相似度阈值与阈值的自适应调节因子;m和ej表示视频帧总数量与当前视频帧。将所获得的视频帧特征相似度C输入3D-CNN,若相似度C大于阈值ω,则当前视频帧即为关键帧,以此实现视频广告关键帧的特征提取。
多级连续排除算法(MSEA)属于一类能够实现全局最优的快速块运动预估算法[14],该算法在和范数的数学不等式(式(5))排除法的基础上,采用块分割的方式获取到一系列精细渐近尺度界值,以界值之间的关联为依据,将所提取的视频广告关键帧特征看作数个当下特征块,将与当下特征块无法匹配的候选块提前排除掉,减少运算量,实现迅速识别最优匹配块的效果,所识别出的最优匹配块即为视频广告。和范数的数学不等式为:
式中,f、g表示和范参数。
通常情况下要求最优匹配块需符合绝对差和(SAD)[15-16]最小的条件,如式(6)所示。
式中,kc(j,i)与kl(j,i)表示当前帧与参考对比帧的像素点值;(n,a)表示运动矢量;D、r、s为常数。当绝对差和SAD最低时,可获得最优匹配块。
MSEA 的块分割策略与阈值的更新为其优点的源头,当所分割块的大小是4×4 时,MSEA 对分割块实施两次分割,每次将各子块分割为4 块,直至各子块到达最细精准度为止。MSEA 的分割过程如图2 所示。
图2 MSEA的分割过程图
MSEA 通过更新阈值T,实现在块匹配的过程内排除掉无需匹配时的诸多无关联块,以此提升识别速度。在块匹配过程内,当SAD比阈值T低时,则即刻更新阈值T=SAD,以此实现在块分割过程内与阈值T降低过程内,有效删除更多无关联块的目的。MSEA 分块方式及漏斗型示意图见图3,图中在块分割过程内,各层进行匹配时均可删除一定数目的无关联块,以此逐层以漏斗型的方式降低块匹配的总数目,最终获取最优匹配块,实现新媒体背景下的视频广告智能识别。MSEA 的逐层漏斗型匹配方式能够在确保精度的基础上,提升块匹配的速度。
图3 MSEA分块方式及漏斗型示意图
从网络电视某个频道中收集3 小时的视频作为视频数据库,其中包含非广告视频与广告视频,以此视频数据库作为实验对象,采用文中方法从中识别出视频广告,检验该文方法的识别效果与性能。
为更加有效地呈现出文中方法的识别效果,现选取两种其他识别方法作为对比方法,两种对比方法简单描述为:
1)融合视音频特征的视频广告识别方法(文献[7]方法):该方法通过融合GIST、颜色直方图及音频特征等实现对视频广告表现力的识别;
2)基于片段关键帧的视频行为识别方法(文献[8]方法):该方法采用定义视频信息量的方式划分视频片段,并提取出关键帧特征,通过设计视频行为识别系统,实现视频广告识别。
分别采用3 种方法识别实验视频数据库中的视频广告,完成识别后,分别从3 种方法的识别结果中随机各选取出3 组识别结果,通过呈现各方法的识别结果,对比各方法的识别效果。各方法识别结果呈现如图4 所示。通过图4 中呈现的各方法的识别结果可看出,文中方法能够准确识别出实验视频库中的视频广告,而文献[7]方法仅识别出一个视频广告,识别出两个儿童动画视频,文献[8]方法识别出两个视频广告及一个影视视频;说明文中方法的视频广告识别结果相比其他两种方法可信度更高,识别效果明显,具有较高的实际应用价值。
图4 各方法识别结果呈现
为评价文中方法的识别效果,文中选取查准率(Precision)与查全率(Recall)两项指标作为评价指标,对文中方法的识别效果予以评价。其中查准率和查全率计算公式为:
分别采用3 种方法对实验视频数据库中的视频广告进行识别,在识别中随着所提取视频帧特征维度的升高,统计3 种方法识别结果的查准率与查全率。统计结果如图5 所示。通过图5 能够看出,随着所提取视频帧特征维度的提升,各方法识别结果的查准率与查全率几乎均呈现上升趋势,其中文献[7]方法的识别结果查准率与查全率相对最低,而文中方法的查准率与查全率明显高于其他两种方法,且文中方法的查准率与查全率受特征维度的影响相对较小,由此说明,文中方法的识别结果准确度更高,识别效果更优越,识别结果受特征维度高低影响较小,识别性能稳定。
图5 各方法识别效果对比
由于识别效率是新媒体背景下视频广告智能识别的关键,故需对文中方法的识别效率予以检验。通过对比随特征维度的升高3 种方法的识别用时,检验3 种方法的识别效率。对比结果如图6 所示。由图6 可得出,3 种方法的识别用时随着特征维度的升高呈现出不同的上升趋势,其中,文献[8]方法的识别用时上升趋势相对更明显,且该方法的识别用时最高,而文中方法的识别用时上升趋势相对较低,且识别用时最低,几乎接近于文献[8]方法识别用时的1/2,可见,文中方法的识别效率受特征维度的影响相对较小,识别效率较高,相比之下更能节省识别视频广告的耗时,识别性能较高。
图6 各方法识别用时对比
在当前新媒体的快速发展中,数字化视频已然成为人们生活中无法缺少的信息载体,作为商业手段中极为关键的视频广告,更是新媒体背景下数字化视频应用的关键构成部分,已经逐渐深入到人们的生活中。文中研究新媒体背景下的视频广告智能识别方法,通过在视频镜头分割与视频关键帧特征提取的基础上,运用多级连续排除算法实现对新媒体背景下视频广告的智能识别,通过实验分析可知,文中方法能够识别出视频数据库内的视频广告,且具有较高的识别效率与准确度,实际应用性较强。在未来的研究中,会继续针对该方法的以下几方面展开深入探讨:
1)识别网络内存在的视频广告:互联网作为新媒体中最具代表的传播方式之一,其盈利途径中最为关键的一种即为视频广告,因而互联网上存在的视频广告数量呈现逐步攀升的状态,所需对视频广告实施识别的需求也逐步增大;
2)探索对视频广告高层语义特征的描述:因视频广告的智能识别中无法缺少特征的运用,而大部分用户则希望可通过语义特征识别视频广告,为满足更多用户需求,需提取可表达视频广告高层语义特征的描述;
3)通过将视频广告的音频特征、视觉特征及文本特征融合为一个特征,提高视频广告智能识别的总体性能:当前该方面并未构成特定统一的融合策略,以后的研究中可重点致力于此方面,将现有的特征与未来研究中获得的特征成功融合,进一步提升文中方法的识别精度与性能。