空域和频域联合特征挖掘的无参视频质量评价

2018-05-08 07:51许莹莹李朝锋
计算机工程与应用 2018年9期
关键词:梯度频谱灰度

许莹莹,李朝锋,2

XU Yingying1,LI Chaofeng1,2

1.江南大学 物联网工程学院,江苏 无锡 214122

2.江南大学 轻工过程先进控制教育部重点实验室,江苏 无锡 214122

1.School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 214122 China

2.Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China

1 引言

视频技术与人类的生活息息相关,比如人脸识别[1]等。然而,在处理视频信息的过程中,视频的压缩、传输、重构等处理会导致视频信息的丢失,从而导致视频失真。失真直接影响到了视频的质量,因此在视频系统中使用一个准确有效的视频质量评价方法也越来越受到人们的重视。

根据对原始视频信息的依赖程度,视频质量评价方法可以大致分成三类:全参(Full Reference,FR)、半参(Reduced Reference,RR)以及无参(No Reference,NR)视频质量评价方法。全参视频质量评价目前已经有了一些很成熟算法,比如Wang等[2]根据人眼对自然场景中结构信息的敏感性原则提出的结构相似度算法(Structural Similarity Index Metric,SSIM)。姚杰等提出一种运动估计的帧加权方法,将4-SSIM算法[3]扩展到视频质量评价中,也取得了不错的效果。戴慧慧等提出基于小波域和时域的视频质量评价算法[4]。半参视频质量评价通过提取原始视频与待测视频的部分特征,来进行对比处理,进而获得视频质量。在文献[5]中,Soundararajan等人利用小波变换提取空域和频域的熵差(Reduced Reference Entropic Differencing,RRED),进而评估失真视频的质量。无参视频质量评价不需要原始视频信息,因此使用最为灵活,但与此同时挑战性也是最大的。

目前无参考视频质量评价的方法相对较少,Saad等人提出了Video Blinds[6]模型。该模型主要运用DCT变换以及运动特征,最后将提取的一系列特征通过训练测试的方式评估得到视频质量。然后,又对视觉特征进行分析,提出一种绝对的盲评估视频质量模型VIIDEO[7]。Xu等[8]通过提取失真特征,提出Video CORNIA算法来评价视频的质量。Li等[9]通过分析视频时空域的统计信息,进而估算视频质量。张航等[10]利用Gabor滤波器来模拟人眼的多通道性,最后加上动态视觉感知权重来获得失真视频质量。

当前报道的大部分视频质量评价方法都仅仅针对单个域内提取特征构建评价模型,没有考虑结合其他域内与其互补的视频质量相关特征。本文通过对空域和频域的联合分析,提取了一系列的感知特征,包括灰度-梯度共生矩阵、空间熵、谱熵、关系熵和自然指数特征。并且区别于传统处理特征仅仅用取平均提取整个视频特征的方法,本文针对频域特征,通过求方差计算得到整个视频的特征值。最后将提取的特征用支持向量机采取训练测试的方法进行视频质量的评价。实验结果表明该方法与主观得分有很好的一致性。

2 空域和频域联合特征挖掘的评价模型

2.1 评价模型分析

视频质量下降是视频系统在处理视频过程中由于压缩、量化、噪声等引起的。压缩和量化导致视频边缘轮廓信息的丢失,表现为图像边缘不够清晰的现象,而噪声是在视频传输过程中信道误码、噪声、丢包等情况引起的。这些都在不同程度上影响用户客户端接收到的视频质量。

熵可以捕捉图像的全局信息,体现了纹理轮廓的复杂度,空间熵反映了局部像素值的概率分布,频谱熵反映了频域内小波系数值的概率分布。联合空间熵和频谱熵可以体现出图像结构信息的统计特性,有效地减少由于视频内容带来的影响。但是空间熵和频谱熵更多的是捕捉图像灰度值信息的变化,没有考虑梯度信息。

梯度构成了图像的边缘轮廓,是图像的基本要素之一。灰度-梯度矩阵模型联合了捕捉图像纹理差异的灰度和梯度,因此加入灰度-梯度矩阵特征能更好地补充熵在反映图像结构信息统计特性的能力。

考虑到视频失真不仅仅是压缩造成的纹理失真,还有在传输过程中信道噪声造成的传输失真。相关熵作为一个局部相似性测量的工具,可以有效地处理噪声带来的传输失真。这里在上述特征的基础上进一步联合相关熵特征来弥补纹理失真特征带来的单一性,从而更加全面地评价了不同失真类型的视频。

在实验过程中发现,上述四个特征对高频失真展现出了很好的处理能力,但是在处理平坦区域的低频失真时,预测失真的性能有所下降。而自然指数特征可以捕捉不同频率上视频的降质程度,能够有效处理低频失真的问题,因此,本文再次联合了自然指数特征,充分地解决高频和低频失真问题。

实验表明,通过五种特征的互补,可以有效评价视频在不同尺度、不同内容、不同类型的失真。更能全面地捕捉失真视频与原始视频之间的差异,从而更好地评价视频的质量。

在上述基础上,本文提出了空域和频域联合特征挖掘的无参视频质量评价方法,该方法首先提取上述五种特征(空间熵,谱熵,灰度-梯度共生矩阵,关系熵和自然指数特征),然后通过SVR构建提取的特征与视频质量之间的模型。

该方法的流程图如图1所示。

图1 算法流程图

区别于图像失真仅存在于空域中,数字视频必然存在着时域失真。比如拍摄视频时人为抖动,镜头脏污等都会造成时域失真。为了解决时域失真带来的问题,本文在提取视频质量感知特征时,充分考虑相邻视频帧之间的运动性强度,采取帧差提取特征的方法。假设一个视频有M帧,后一帧减去前一帧得到一个帧差图像,以此类推,一个视频得到M-1个帧差。大量的研究表明帧差有着统计数据上的规律,而视频失真会破坏这种规律[5],因此帧差提取的感知特征能够反映视频时域失真程度。图2和图3分别显示了LIVE视频库中“pa”失真视频帧和失真视频帧差图。

图2 LIVE视频库中“pa”失真视频第1帧

图3 LIVE视频库中“pa”失真帧差视频第1帧

2.2 特征分析与提取

2.2.1 空间熵

信息熵表示图像所包含的信息量,反映了图像纹理信息的复杂度。信息熵与感知图像的质量有着密切的关系[11],并且图像的失真类型以及失真的程度直接影响信息熵的分布。假设没有失真的图像的空间熵值分布有一定的统计规律,那么引入失真就会破坏像素之间的这种相关性。

图4显示了基于内容不同的10组原始视频及其相对应的失真视频的空间熵,从图中可以看出空间熵可以区分出原始视频以及四种不同的失真类型,特别是H.264失真,与原始视频的波动相差很大。这表明空间熵能够反映视频的失真情况。因此,选取空间熵作为视频质量的第一类候选特征,通过熵值的变化来反映视频质量的改变。

图4 10组原始视频及其对应失真视频的空间熵分布

空间熵的定义如下:其中,x是失真视频的帧差值。计算出每一个帧差的H值后,取其平均值当作整个视频的空间熵特征。

2.2.2 频谱熵

空间熵反映了空间像素值的概率分布,频谱熵反映了频域内小波系数值的概率分布。从图4中可以看出,虽然空间熵可以在一定程度上反映视频的失真情况,但是空间熵的分布受到视频内容的影响,比如第2组和第4组视频的空间熵对于失真视频的差异就不能很好地衡量。联合空间熵和频谱熵可以有效地减少由于视频内容带来的影响,更好地捕捉由于失真带来的边缘轮廓信息的差异。频谱熵是在小波域中计算得到的。首先用方向金字塔对失真视频的帧差进行三尺度六方向的尺度分解来获取小波系数,然后对所有的子带进行不重叠的分块处理,块大小为3×3。考虑到人眼对小波系数的粗子带更加敏感[12],这里只对分解后的小波系数的粗子带进行处理,实验证明这些子带确实给予了更好的实验效果。

在文献[13]中,Liu等人用高斯尺度混合模型(Gaussian Scale Mixture,GSM)来模拟自然图像的小波系数。原始图像的小波系数服从高斯分布,然而失真却打破了这种分布。模拟小波系数之后,计算得到GSM模型的协方差矩阵Q。小波系数的熵值通过下面的公式给出:

其中,x是小波系数。频谱熵T是基于GSM模型计算出来的,计算公式如下:

上式中,Q和Q′分别是基于图像帧和图像帧差GSM模型的协方差矩阵。E是基于帧差的小波熵。

图5 10组原始视频及其相对应的失真视频的频谱熵分布

图5显示了10组原始视频以及其相对应的失真视频的频谱熵,从图5中,观察到除了MPEG-2失真,其他的失真类型都能够被频谱熵的变化很好地区分出来。例如IP失真,由于在参考图像中加入了高频率信息,故其频谱熵基本上分布在原始视频的上面。对于MPEG-2失真,由于减少了图像高频信息再加上运动矢量等因素,使得频谱熵值较小。从上述分析可以看出频谱熵的变化与人的主观感知有着密切的关系,因此采用图像频谱熵作为视频质量感知的第二类候选特征特征,通过熵值的变化区分出不同失真类型以及失真程度。

由于一个视频包含了很多帧,如果只是单纯的取平均来求取特征值则会忽略掉很多信息。为了捕捉频谱熵在时域上的波动性,计算出频谱熵T后,取方差表示整个视频的频谱熵值。通过第3章的实验分析结果也能看出,选取方差作为特征值确实提高了算法的性能,将结果从0.642大幅度提高到0.782。

2.2.3 灰度梯度共生矩阵

图像的灰度是构成一幅图像的基础,而梯度是构成图像边缘轮廓的要素。灰度梯度共生矩阵[14]反映了灰度和梯度的联合分布,通过灰度-梯度共生矩阵可以很好地体现图像中各个像素及其相邻像素的空间关系,更好地增强了熵在反映图像结构信息统计特性的能力。图像的纹理信息在一定程度上反映了其周围像素灰度值的变化,一般来说,平滑区域的像素灰度彼此接近,而粗糙区域则变化较大。纹理特征一直以来是图像处理中的热点,很多领域,比如:模式识别、图像检索等等方面都热衷于提取图像纹理特征。基于上述的理论基础,考虑提取帧差的灰度梯度共生矩阵来作为一类感知特征来评价视频的质量。灰度梯度共生矩阵的定义如下:对于一个二维图像 f(i,j),首先通过Sobel算子计算各像素点的梯度值,得到梯度图像g(i,j),然后通过下式求得归一化的梯度图像:

其中,INT表示取整运算,gmax是图像中最大的梯度值,Ng表示归一化的最大梯度值。灰度梯度共生矩阵的元素H(x,y)定义为在归一化的灰度图像 f(i,j)及其归一化的梯度图像G(i,j)中统计同时具有灰度值x和梯度值y的像点对数,最后对进行归一化处理,得到:

基于灰度梯度共生矩阵,得到15个图像纹理参数。

图6显示了一组原始视频(pedestrian area,pa)以及其相对应的4种失真类型的15个纹理参数的值。由于有些参数的值大小分布差异太大,所以对于纵坐标采取了不同的分布范围。图6(a)和(b)表示不同的y轴分布范围。从图6中可以看出,有些纹理参数特征并不能很好反映视频失真情况,这里只选取大梯度优势(第二个特征),灰度和梯度分布不均匀性(第三和第四个特征),灰度均匀(第六个特征),相关(第十个特征)以及惯性(第十四个特征)。基于帧差计算出这六个纹理特征之后,取平均值得到整个视频的灰度梯度共生矩阵特征,作为视频质量感知的第三类特征。

图6 “pa”原始视频及其失真视频的15个纹理参数值

2.2.4 相关熵

考虑到视频失真不仅仅是压缩失真,还包括传输过程中由于噪声、丢包等造成的传输失真。因此结合传输失真特征可以有效地避免仅考虑纹理失真带来的单一性,从而全面的评价不同失真类型的视频。根据文献[15]知道,相关熵作为一个局部相似性测量的工具,可以有效地处理高斯噪声,而高斯噪声通常是造成图像失真的主要原因。图7显示的是一组原始视频(pedestrian area,pa)以及其相对应的四种失真类型的视频的相关熵值的分布。从图中可以看出相关熵在原始视频以及不同类型失真视频中的分布情况不同,例如原始视频的相关熵分布较为缓和,而其他失真类型,特别是传输失真的相关熵波动较大。这表明相关熵可以捕捉原始视频与失真视频之间的差异,从而预测失真视频的质量。

对于两个局部的随机变量x和y的相关熵定义为:

其中,xi和yi分别是相邻帧的9×9的图像块。计算出视频相邻帧的相关熵值之后,取平均得到整个视频的相关熵,取其作为视频质量感知的第四类特征。

图7 “pa”原始视频及其失真视频的相关熵值分布图

2.2.5 自然图像质量指数特征

视频失真不仅仅存在高频区域,还包括低频部分。低频部分代表着视频帧图像的平坦区域,由于平坦区域灰度变化缓慢,失真带来的原始视频与失真视频的差异也相对较小。本文通过自然指数特征捕捉不同尺度上视频的降质程度,有效地解决了熵等上述特征不能很好地描述低频失真的问题。实现了失真特征从不同尺度、不同内容,不同类型的评价视频质量。自然指数[16](Natural Index Quality Evaluator,NIQE)是基于自然统计场景提取的图像特征。首先用自然图像提取出来的特征通过高斯拟合得到一个多维高斯(Multivariate Guassian,MVG)模型,然后对测试图片提取出来的特征也用高斯拟合得到一个多维高斯模型,通过计算两个模型之间的差异来描述图片的失真程度,提取特征的步骤主要包括自然场景统计模型的建立,图像块的选取,图像块提取特征以及建立多维高斯模型。首先通过图像的局部均值移除以及区分归一化来计算图像的系数,将图像分成n×n块,根据文献[17],可以得知,原始和失真的视频的图像系数都服从高斯分布,只是原始视频的图像系数服从比较规律的高斯分布,而失真却打破了这种规律。可以通过分析相邻的图像块系数在四个方向上(水平、垂直、两个对角)的分布来捕捉这种差异。通过对四个方向上的估算,得到18个特征,然后对图像进行低通滤波和下采样处理,得到36个特征。

自然图像的多维高斯模型的图片来源于Berkeley Image Segmentation数据库,选取了125张图片,图片的大小从480×320到1 280×720。对测试图像提取出来的特征进行高斯拟合之后,得到测试图像的高斯模型,分别计算高斯模型的均值和协方差 ,并计算最终的图像质量q。图像的失真程度是通过衡量两个多维高斯模型(通过测试图片提取的特征模拟出来的多维高斯模型以及通过Berkeley Image Segmentation数据库提取的特征模拟出来的多维高斯模型)的差异。计算的公式如下:

其中,μ1、μ2和σ1、σ2分别是自然图像的MVG模型和测试失真视频帧差的MVG模型的平均值和协方差。计算出q之后,与之前的36个特征加到一起,得到最终的37个特征。选取其作为视频质量感知的第五类特征。

3 实验结果和分析

3.1 LIVE视频质量评价数据库

本文中提出的视频质量评价算法在LIVE数据库上进行实验,LIVE视频数据库是德克萨斯州奥斯汀分校图像和视频工程实验室于2010年提供的视频质量评价数据库。库中包含了10组内容不同的自然场景原始视频及其失真视频。每组视频包括了1个原始视频、4个无线传输失真视频、3个IP传输失真视频、4个H.264压缩失真视频以及4个MPEG-2压缩失真视频。把这10组失真视频分为两部分,随机取8组原始视频所对应的失真视频进行训练,其余2组原始视频所对应的失真视频进行测试,即120个视频训练,30个视频测试。这种做法有效地避免了训练样本与测试样本有交集,不管训练多少次,用于训练和测试的视频不会重叠从而保证了实验结果的有效性和说服性。将之前所提取的特征用支持向量回归模型(Support Vector Regression,SVR)进行训练测试,得到最终的失真视频的质量分数值。为了评估本文中方法的性能,选取现在比较通用的两种指标:斯皮尔曼等级相关系数(Spearman Rank Order Correlation Coefficient,SROCC)以及皮尔逊线性相关系数(Liner Correlation Coefficient,LCC)。这两种指标的绝对值越接近于1说明算法的性能越好。迭代训练测试的次数为1 000次,取其中值为最终的结果。

3.2 结果和分析

为了分析每种特征对算法性能的贡献值,实验中对每一种特征单独地进行训练测试并且计算其SROCC值和LCC值,结果显示在表1中。从表1中可以看出:空间熵和频谱熵对算法性能的影响是比较大的,从第2章中特征的分布图中也可以看出,空间熵和频谱熵能够较为明显地区分出原始视频和失真视频之间的差异,并且由于熵值反映了图像纹理轮廓方面的失真情况,而纹理轮廓是图像的基本信息,很多压缩、传输过程中的处理都会造成轮廓纹理结构方面的失真。

表1 单种类型特征的SROCC和LCC值

3.3 算法的性能分析

在LIVE视频质量评价数据库的实验结果对比中,本文选择了比较经典的算法以及近几年在视频质量评价方面比较好的算法进行对比,为了进一步测试每一个特征的有效性,实验中尝试不同的特征组合并且获得相应的SROCC和LCC值。表2显示了所有算法的SROCC和LCC值。从表2中的结果可以看出这些特征结合之后的结果与表1中的结果是相对应的,也就是说空间熵和频谱熵是有效性特征,加入这两种特征后将结果从0.532提高到了0.782。但同时其他几类特征也促进了算法性能的提高,所有的特征都为提高算法做出了贡献,这说明本文提出的空域和频域联合特征挖掘的思想是具有独特优势的。同时,在频域中的特征提取方法里,本文提出方差取特征的概念,打破了传统方法中用均值取整个视频特征的思想,表3中的结果证明用方差在频域中提取特征比用均值提取特征的性能要好得多。

表2 LIVE视频库上不同方法的性能比较

表3 LIVE数据库中频域内分别用方差与均值提取特征的SROCC和LCC值

为了测试算法对每一类失真类型的预测性能,本文又对每一类失真类型进行分开训练测试,并将计算得到的SROCC值以及其余算法的SROCC值对比都显示在表4里。

表4 LIVE数据库上针对每一种失真类型的算法性能比较

从表2~4可以看出,本文提出的算法在LIVE视频数据库整体上的评价结果优于当前文献报道相关方法,在MPEG-2和H.264单个失真类型上,也体现了优势,这说明本文提出的失真特征针对视频压缩处理造成的失真更为有效,而对网络传输丢包造成的视频失真稍稍欠缺,IP和Wireless网络传输失真往往还要考虑到由于网络延时等造成视频时域上的失真,故而结果有所欠缺。但是本文加强了对空域频域纹理失真方面的分析和特征提取,考虑了两个域里面可以互补的感知特征,所以在MPEG-2和H.264单个主要由压缩造成的失真类型上,体现出优势。

3.4 数据库的通用性

相对于使用单视频数据库进行实验,用两个数据库可以避免方法对于单数据库的优化而产生偏差,使算法更为可靠,通用性强。因此,为了测试本文算法中的数据库的通用性,本文又在IVP视频数据库上进行实验。IVP数据库是由香港中文大学图像与视频处理实验室于2011年提供的主观视频质量数据库,其中9组是自然场景视频,有一组是通过3D建模制造的动画。视频库包括四种失真类型,有MPEG-2压缩失真、Dirac小波压缩失真、H.264压缩失真以及IP网络传输失真。训练测试的方法与LIVE数据库是一样的,迭代训练的次数为1 000次,表5显示了实验得到的SROCC和LCC值以及与其他算法的性能比较结果。

表5 IVP视频库上不同方法的性能比较

从表5可以看出,本文在IVP库上的结果比起LIVE库上更加精准,与Video BLINDS算法的差距有所拉大。通过分析IVP库的内容和失真类型可以发现,IVP库中不仅仅是自然场景,还有一组是通过3D建模制造的动画,而且IVP库中有Dirac小波压缩失真,本文提取的失真特征中,小波域中提取的频谱熵针对这种失真类型,更加具有优势,所以在整体数据库中算法性能提高得更多。根据以上分析可以看出,本文提出的算法在IVP视频数据库上的评价结果优于当前文献报道相关方法,表明本文方法是数据库通用的。

4 结束语

通过对视频的感知特征进行分析,本文挖掘了一系列空域和频域联合的质量感知特征,包括灰度-梯度共生矩阵、空间熵、谱熵、关系熵以及自然指数特征,实验中还对这些特征进行组合分析,从分析过程以及最后的结果上来看,本文提出的特征都是行而有效的。针对当前大部分视频质量评价模型都是仅在空域、频域等单个域内提取特征构建评价模型,没有考虑结合其他域内与其互补的特征问题,本文结合了视频的空域和频域,使得评价效果更好。对于当前报道的文献大多采用取均值提取特征的方法,本文针对频域提出取方差来得到视频特征。从实验的结果来看,采用方差提取整个视频特征的方法能够有效地提高算法的性能。最后用支持向量回归模型构建这些感知特征与视频质量之间的关系模型。在LIVE和IVP视频质量评价数据库上的实验结果,表明了本文提出算法的有效性。

参考文献:

[1]胡一帆,胡友彬,李骞.基于视频监控的人脸检测跟踪识别系统研究[J].计算机工程与应用,2016,52(21):1-7.

[2]Wang Z,Bovik A C,Sheikh H R,et al.Image quality assessment:From error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.

[3]姚杰,谢永强,谭建明,等.采用内容划分方法的视频质量评价[J].计算机工程与应用,2013,49(11):158-161.

[4]戴慧慧,桑庆兵.基于小波域和时域的视频质量评价[J].计算机工程,2015,41(5):280-284.

[5]Soundararajan R,Bovik A C.RRED indices:Reduced reference entropic differencing for image quality assessment[J].IEEE Transactions on Image Processing,2012,21(2):517-526.

[6]Saad M A,Bovik A C,Christophe C.Blind prediction of natural video quality[J].IEEE Transactions on Image Process,2014,23(3):1352-1365.

[7]Saad M A,Bovik A C.A completely blind video integrity oracle[J].IEEE Transactions on Image Processing,2016,25(1):289-300.

[8]Xu J,Ye P,Liu Y,et al.No-reference video quality assessment via feature learning[C]//IEEE International Conference on Image Processing,2015:491-495.

[9]Li X,Guo Q,Lu X.No-reference video quality assessment based on statistical analysis in 3D-DCT domain[J].IEEE Transactions on Image Processing,2016,25(7).

[10]张航.数字图像及视频质量评价方法研究[D].杭州:浙江大学,2015.

[11]Sheikh H R,Bovik A C.Image information and visual quality[J].IEEE Transactions on Image Process,2006,15(2):430-444.

[12]Burr D C,Ross J.Contrast sensitivity at high velocities[J].Vision Research,1982,23(4):3567-3569.

[13]Liu L,Liu B,Huang H.No-reference image quality assessment based on spatial and spectral entropies[J].Signal Processing:Image Communication,2014,29(8):856-863.

[14]桑庆兵,李朝锋,吴小俊.基于灰度共生矩阵的无参考模糊图像质量评价方法[J].模式识别与人工智能,2013,26(5):492-497.

[15]Liu W,Pokharel P,Principe J C.Correntropy:Properties and applications in non-Gaussian signal processing[J].IEEE Transactions on Signal Processing,2007,55(11):5286-5298.

[16]Mittal A,Soundararajan R,Bovik A C.Making a“Completely Blind”image quality analyzer[J].IEEE Signal Processing Letters,2013,20(3):209-212.

[17]Ruderman D L.The statistics of natural images[J].Network Computation in Neural System,2009,5(4):517-548.

猜你喜欢
梯度频谱灰度
采用改进导重法的拓扑结构灰度单元过滤技术
一个带重启步的改进PRP型谱共轭梯度法
一个改进的WYL型三项共轭梯度法
一种用于深空探测的Chirp变换频谱分析仪设计与实现
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
一种自适应Dai-Liao共轭梯度法
一个具梯度项的p-Laplace 方程弱解的存在性
基于最大加权投影求解的彩色图像灰度化对比度保留算法
频谱大师谈“频谱音乐”——法国作曲家缪哈伊访谈记
遥感卫星动力学频谱规划