基于互信息量和自回归模型的镜头分割方法

2019-01-21 00:56李强军李启南
计算机技术与发展 2019年1期
关键词:信息量直方图阈值

李强军,李启南

(兰州交通大学 电子与信息工程学院,甘肃 兰州 730070)

0 引 言

视频作为信息的一种载体,普遍化程度越来越高,在各个领域的应用也越来越广泛,同时也伴随着非法盗版,不健康,暴力等视频数据在网络上的肆意流窜。面对海量视频数据,如何快速、有效、准确地查找出需要的视频资源,已然成为一个迫切需要解决的问题。在视频分析处理过程中,首先是对镜头进行分割,然后进行视频帧的分析、提取、检索等处理。然而后续处理的效果很大程度上都受镜头分割情况的影响,好的镜头分割对于内容帧的分析处理是极其重要的。正因为如此,视频镜头的分析算法受到了越来越多的关注和研究[1]。

近年来,研究人员提出了许多镜头分割方法。Yeo等[2]提出一种通过MPEG压缩视频的DC序列对视频镜头边界进行检测的算法,但是算法本身的应用范围相对较窄,对视频的变化要求较高。韩冰等[3]提出用粗糙集和模糊聚类的方法检测视频镜头边界,虽然加入了聚类的方法在一定程度上可以提高检测效率,但是具体的算法优化空间不大。巢娟等[4]提出了基于多阈值检测的算法,通过设定一个高阈值和一个低阈值,将较高的阈值用于切变检测,较低的阈值用于渐变检测,该算法复杂度较低,但是对噪声、光线的剧烈变化以及镜头或物体的运动非常敏感。刘嘉琦等[5]利用基于多模态特征融合的分割算法,对视频中的音频、画面、主题、文本等进行综合考虑并结合视频的结构特征进行镜头分割,该算法准确率较高,但是高的准确率依赖于声音、图像、文本等各个方面的综合分析,实现起来比较复杂,并且运算量大。Mohanta等[6]提出利用神经网络学习来获得镜头边界检测模型的算法,但是神经网络算法本身复杂度较高,而且神经网络算法需要的训练集本身要求也较大,对于短镜头的视频非常容易造成过学习。

视频由许多连续显示的镜头构成,而镜头的连续显示主要是通过连续切换的方式实现,切换可分为突变切换和渐变切换两种形式。突变切换在视频镜头的切换过程中,表现为一个镜头的最后一帧结束以后直接切换到下一个镜头的第一帧,这种切换方式的相邻两个镜头不存在交叉问题,并且它们的帧间差比较大,没有时间上的延迟,切换速度快,镜头变化明显;渐变切换相对来说比较复杂,在进行相邻镜头间的切换时,尾部出现内容的淡化变换,存在局部的交叉,通过时间上的延迟,渐变到下一个镜头,渐变类型常见的有淡入、淡出、溶解、扫换等方式[7]。

文中提出一种基于自回归模型和互信息量的镜头分割方法,即选用HSV直方图特征向量,首先在HSV直方图的基础上计算两帧的互信息量并转换成相似度值,然后通过计算的相似度值建立自回归模型求取判异决策值,从而获得自适应阈值,最后结合产生的阈值和设定的帧时间窗口确定镜头的边界分割。

1 改进的镜头分割方法

文中采用文献[8]中的非均匀分块加权HSV直方图法。按照黄金分割比将整个视频的帧T的长和宽划分成3×3的不等小子块,然后计算每块小子块的信息量,再给每块小子块赋予不同的权值,最终对帧中的所有小块采取加权平均,从而计算出一帧的信息量。加权矩阵如式1:

(1)

1.1 帧间相似度计算

一般对于两个随机变量,可以通过计算它们的信息量,比对信息量的相似性来衡量它们的相似度。在图像中,信息点被定义为图像中的像素点,信息量则通过信息点计算得出,计算两帧相似度时,通过两帧相互包含对方信息点的多少,求取相互包含的信息量就可以进行帧间差的度量。当两帧图像的帧差较大时,两帧图像内容改变比较大,对应的互信息量则较小;当两帧图像的帧差较小时,两帧图像内容比较相似,对应的互信息量则较大[9]。设视频中两帧为fa、fa+1,式2定义了帧fa、fa+1在T子块的互信息量。

(2)

通过式2的计算,统计9个子块的互信息量,用式3计算帧fa、fa+1之间的分块加权平均互信息量。

(3)

通过上面的计算,得到Ia,a+1,即帧fa、fa+1的互信息量。接着使用上面的结果计算出帧fa、fa+1的相似度值,利用文献[10]中的定义计算出两帧fa、fa+1的相似度值,表示为:

(4)

其中,Difa,a+1是帧fa、fa+1的非均匀分块HSV颜色直方图的特征差。

1.2 自适应阈值选择

自回归模型(autoregressive model)是用自身做回归变量的过程,即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归过程,它是时间序列中的一种常见形式,一般表示为:

Xi=βi-1Xi-1+βi-2Xi-2+…+βi-pXi-p+εi

(5)

其中,Xi为模型变量;βi-1,βi-2,…,βi-p为回归系数;εi为随机误差;p为阶数。

在视频帧序列的变化过程中,镜头切换除了突变过程,其余的可以看作是时间序列帧的一种渐变过程。尽管相邻帧相似度值序列从整体上进行观察时是不平稳的,但在局部上可以看作是统计学上近似平稳[11]。

文中把这个近似平稳的局部作为滑动窗口,选取当前镜头内按时间顺序排列的邻帧相似度值,作为序列样本观测值S1,S2,…,Sn,阶数为p的自回归模型如下所示:

(6)

(7)

则有:

Y=Xβ+ε

(8)

由最小二乘法估计回归系数,用式9表示为:

(9)

(10)

(11)

其中,χ1,χ2,…,χn+1是零均值化后的序列,χn+1为滑动窗口后续的零均值化后的相似度值。

由文献[12]得,时间顺序排列的邻帧相似度值序列样本二阶自回归模型表示为:

χi=β1χi-1+β2χi-2+ei

(12)

(13)

计算判异决策值λ,表示为:

(14)

最后确定阈值。如果统计量λ大于或等于阈值,则说明镜头未进行突变切换,反之则出现了突变切换。对于由计算得到的统计量序列{λi},计算正统计量的平均值及标准差。

(15)

(16)

2 突变检测

镜头突变在视频切换中比较特殊,由于前后内容未发生交叉,如图1的突变给人的主观感受就像是一种画面的跳变,它在切换过程中不存在时间上的延迟,对比切换前后,变化非常明确,检测也比较容易。

计算镜头内的自适应阈值k和第i+n、i+n+1帧的相似度值S(fi+n,fi+n+1),将其与k进行比较。如果S(fi+n,fi+n+1)

图1 突 变

3 渐变检测

淡入和淡出作为渐变的主要形式都有一个共同特点,就是在其变化过程中,都存在一个画面淡化的过程,因此,可以通过对视频帧相似度值的缓慢变化特性来检测渐变切换的位置[13]。图2淡入时视频段帧间相似度值缓慢增大,图3淡出时视频段帧间相似度值缓慢减小。溶解时视频段帧间相似度的变化为图2和图3的综合,表现为帧间相似度先减小后增大或者先增大后减小。

图2 淡 入

图3 淡 出

镜头渐变切换检测的方法如下描述:

计算镜头内的自适应阈值k和第i+n、i+n+1帧的相似度值S(fi+n,fi+n+1),如果总有S(fi+n,fi+n+1)≥k,

则设置时间窗口增加步长i,并计算帧fn+1与f2i+n+1的相似度值。这个过程中跨过了渐变帧的连续变换时出现的符合阈值的缓慢变化,当存在S(fn+1,f2i+n+1)

(1)计算fn+1到f2i+n+1相邻帧的相似度值集合{S(fn+1,fi+n+1)},接着计算其均值u。

(17)

(2)计算相似度值的方差σ2。

(18)

(4)计算帧fn+1与f2i+n+1相似度值S(fn+1,fi+n+1)距离k偏移最大的值,并求得偏离最大值的位置为j+n+1处,则认为j+n+1处发生了一次渐变切换,可认为j+n+1处为该镜头的边界。

4 实验结果及分析

文中采用对媒体信息检索的通用指标-查全率和准确率[14]来评估视频镜头分割的效果。查全率为正确检出数与视频实际镜头总数的比值,查准率为正确检出数与检出的镜头总数之间的比值。实验开发平台为(Java Development Kit)和Eclipse,选用文献[15-16]的算法验证文中改进算法的有效性。实验视频均来自优酷网上随机抽取下载,抽取的视频均为不同题材类型,视频的帧数也不相同。实验结果如表1~3所示。

表1 文中算法结果

表2 文献[15]算法(规范化灰度分布帧差)结果

表3 文献[16]算法(基于直方图的切变镜头自动检测)结果

对比表1~3可以看出,在查全率上文中方法的表现更为优异,对于不同类型的视频都具有较好的稳定性。类似于“Dota2简介视频”中的内容运动较剧烈,同时存在闪光灯的影响和许多的淡变切换,使其检测过程中存在一些误检,干扰相对比较大。总体来说,文中方法在视频镜头边界检测过程的检测效果比较明显,具有一定的有效性。

5 结束语

通过视频帧的HSV直方图互信息量计算出的相似度值,计算出镜头内的自适应阈值并结合时间窗口,在剔除了闪光灯的影响下,进行镜头的突变检测和渐变检测。其中阈值是采用自回归模型计算而来,体现了自适应性。实验结果表明,该方法对镜头边界检测具有良好的检测能力。

猜你喜欢
信息量直方图阈值
重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!
改进的软硬阈值法及其在地震数据降噪中的研究
土石坝坝体失稳破坏降水阈值的确定方法
基于小波变换阈值去噪算法的改进
ADC直方图分析在颈部淋巴结转移性鳞癌鉴别诊断中的价值
基于差分隐私的高精度直方图发布方法
改进小波阈值对热泵电机振动信号的去噪研究
例析频率分布直方图
中考频数分布直方图题型展示
走出初中思想品德课的困扰探讨