注意力模型指导下的视频质量评价方法

2014-11-20 08:18张文军
电视技术 2014年7期
关键词:注意力显著性运动

王 淦,宋 利,张文军

(上海交通大学上海市数字媒体处理与传输重点实验室,上海200240)

近年来,随着数字视频技术的发展和成熟,客观视频质量评价方法在视频压缩、通信、分析、重建等视频处理应用中扮演着越来越重要的角色。

在设计客观质量评价方法中,人眼视觉系统(Human Visual System,HVS)的特性是一个重要的考量。HVS在其有限的神经元硬件条件限制下,能够最优化地利用这些资源传输最有内容的图像信息。在进行更高级的处理之前,HVS表现出这样一种特性,即它会尝试提取所能感知的信息中的一个子集来优先传输,很明显,这个信息子集较其他信息更能吸引人眼的注意力[1]。可以认为HVS是一个高效的编码器或者说是信息提取器,它同一般的通信模型一样,受制于某些物理限制,这种假设被广泛应用于视觉计算领域[2]。运动信息是包含于视频中的一种重要的信息类型,它是使视频序列区别于若干独立静止图像帧的一个重要特征。

Q.Li在文献[3]中提出了一种基于运动感知的视频质量评价方法,应用了一个由Stocker等提出的有关运动速度感知的心理学模型[4],并由此提出揉合了感知不确定性(Perceptual Uncertainty)和信息内容(Information Content)来提取运动信息的视频质量评价方法。本文根据人眼的视觉特性,在视频图像帧的质量评价中加入了显著性区域信息,形成了一种在注意力模型指导下的视频质量评价方法。

1 运动感知及注意力模型简述

1.1 运动感知

视频序列中的运动信息可以用一个三维运动矢量场来表示,即空域表示每帧像素点位置的坐标(x,y),时域表示每帧在视频序列位置的时间实例t,从而形成一个运动矢量 v(x,y,t)= [vx(x,y,t),vy(x,y,t)]T。若以 va代表绝对运动矢量(Absolute Motion),vg代表全局运动矢量(Global Motion)和vr代表相对运动矢量(Relative Motion),则三者有如下关系

运动感知一方面与运动信息内容有关,还与感知不确定性有关。若用I表示运动信息内容,U表示感知不确定性,可将二者量化为

式中:α,β,γ,δ均为正常数;c为局部对比度,更多内容可以参考文献[2]。由式(2)和式(3)可以得到运动信息权重

1.2 注意力模型

既然认为人眼视觉系统是一个高效的信息提取器,为了达到这种高效,作这样一种假设是很自然的,即包含更多信息内容的视觉区域会更吸引视觉注意[5-6]。

提取的过程是以视觉范围中的一块受限区域,即所谓的“注意力聚焦”(Focus of Attention,FOA)的形式进行的,并以FOA的形式扫描整个视觉范围,这个过程会同时存在两种方式,一种是快速的,自下而上的,显著性驱动的和任务独立的;另一种则相反,是较慢的,自上而下的,意志力驱动的和任务依赖的。

在文献[7]中提出了一种基于显著性区域的视觉注意力模型,输入图像被首先分解为不同种类的特征图集合,所有这些特征图在经过处理后,以一种完全自下而上的方式形成最后的显著性区域图(saliencymap)。

式中:Ν(·)表示一个归一化算子。

2 注意力模型指导下的视频质量评价

由前面的讨论可知,运动信息是视频质量评价中的重要信息,同时也应考虑HVS的注意力特性对视频图像感知的影响,为此,本文提出了一种在注意力模型指导下的视频质量评价方法,如图1所示。

图1 本文提出的质量评价模型框图

考虑上节中讨论的运动信息内容和感知不确定性,式(4)可展开为

式中:wmotion(x,y,t)为位置坐标 (x,y,t)处的运动信息权重。从式(6)可以看出,wmotion(x,y,t)随运动信息内容I(x,y,t)的增大而增大,随感知不确定性U(x,y,t)的增大而减少。最后P(x,y,t)= αlnvr(x,y,t)+γlnc(x,y,t)和F(t)=lnvg(t)-β+δ分别为像素级运动信息和帧级运动信息,可知由于全局运动vg带来的帧级运动信息,增加了HVS的感知不确定性,使得HVS并不能像从静止图像一样从视频序列中提取出同样精确的结构信息。

另一方面,考虑到注意力模型对HVS的影响,在视频序列每帧图像有限的刺激时间内,较显著的区域必定更能吸引人眼的注意,因此在此区域的信息权重应高于其他非显著区域。由上节的讨论,设注意力模型最终得到的显著性区域图为SM(X,Y,T),其中X,Y,T为视频序列的空间域和时间域尺寸,可得

式中:wsaliency(x,y,t)为位置坐标 (x,y,t)处的注意力权重。由于SM(X,Y,T)已归一化,所以wsaliency(x,y,t)为0~1之间的一个数值,数值越大表示显著性越强。设Q(X,Y,T)为本地图像帧的质量评价图,则有

式中:qsaliency(x,y,t)为加权后在位置(x,y,t)处的质量评价分数值。由此便形成了Saliency-Quality map,即在注意力模型指导下的质量评价分数图。

以SSIM indexmap为例,图2展示了一视频帧在注意力模型指导下的结构相似度索引图变化的例子,可以看出Saliency-SSIM index map不但显示出了结构相似度情况,而且显示了清晰的显著性区域的变化情况。

图2 加入注意力模型的结构相似度指数图

最终得到了视频质量评价分数计算模型

式中:wmotion(x,y,t),wsaliency(x,y,t),qsaliency(x,y,t)分别由式(6)、式(7)和式(8)来计算。

本文实验流程如图3所示。其中绝对运动速度场va是通过计算光流运动矢量场得到的,本文选择了文献[8]中提出的光流计算模型,而全局运动速度vg则通过统计关于光流运动矢量场的2-D直方图的峰值来获得。显著性区域指数图用到了文献[9]提出的算法,该算法对文献[10]中提出的算法进行了改进,取得了更好的性能。

图3 实验流程示意图

3 实验结果与分析

实验所用到的视频库为VQEG Phase1数据集,该数据集为视频质量专家组(Video Quality Experts Group)在2000年建立的,旨在为客观视频质量评价方法的性能评估提供视频序列的主观数据。其中包含了20个参考视频序列,这些参考视频序列又分为10个60 Hz(帧率30 f/s)序列和10个50 Hz(帧率25 f/s)序列。每个参考视频序列有16个版本的失真序列,这样该库共有320个不同的失真视频序列。数据集中的主观质量评价分数DMOS(Difference Mean Opinion Score)是通过双刺激连续质量尺度(Double Stimulus Continuous Quality Scale,DSCQS)方法得到的。按照文献[10]中的建议,对视频库中的视频做了切边处理,即将除去上、下、左、右边缘各20个像素的图像帧作为处理对象。

实验中采用了两种质量评价图,分别是均方误差图(MSE index map)和结构相似度指数图(SSIM index map),为分析方便起见,把均方误差图转化为峰值信噪比图(PSNR index map)。

为了评估视频质量评价方法的性能,使用了两种相关性度量,分别是皮尔森线性相关系数(Pearson Linear Correlation Coefficient,PLCC)和斯皮尔曼等级相关系数(Spearman Rank Order Correlation Coefficient,SROCC)。这两种度量对性能评估的侧重点不同,PLCC主要评估了客观评价分数与主观评价分数之间数据的线性程度,也可说是准确程度,而SROCC则侧重于评估二者之间数据的单调性。

表1为6种不同的视频质量评价方法在VQEG Phase1数据集上的PLCC和SROCC统计结果。表中PSNR和SSIM是对PSNR indexmap和SSIM indexmap的简单平均,W-PSNR和W-SSIM为Q.Li提出的方法,而W-SALPSNR和W-SALSSIM为本文提出的客观视频质量评价方法,可以看出本文提出的方法是对Q.Li的方法的一种改进,在考虑了人眼视觉系统的注意力特性后,加入了显著性区域信息,使得对视频的质量评价更符合人的视觉心理,从表中的数据统计结果可以清楚地看出。图4展示了主观质量评价分数(DMOS)与客观质量评价分数的散点图。

表1 视频质量评价方法的PLCC和SROCC统计结果

4 结语

本文提出的客观视频质量评价方法,在运动感知的基础上,融入了注意力模型,使得其在统计数据上有所改进和提高,探索了一条提高客观视频质量评价方法性能的途径。但是从主客观分数散点图上来看,无明显改观,说明还需进一步对人类自身视觉与心理学特性进行研究,这方面的研究对推动视频包括图像的客观质量评价方法有着极其重要的意义。

[1] NIEBUR E,KOCH C.Computational architectures for attention[M].Cambridge:MIT Press,1998.

[2] SIMONCELLI E,OLSHAUSEN B.Natural image statistics and neural representation[J].Annual Review of Neuroscience,2001,24(1):1193-1216.

[3] WANG Z,LIQ.Video quality assessmentusing a statisticalmodel of human visual speed perception[J].JOSA A,2007,24(12):61-69.

[4] STOCKER A,SIMONCELLIE.Noise characteristics and prior expectations in human visual speed perception[J].Nature Neuroscience,2006,9(4):578-585.

[5] RA J,GEISLERW,FRAZORR,etal.Contrast statistics for foveated visual systems:fixation selection by minimizing contrast entropy[J].JOSA A,2005,22(10):2039-2049.

[6] NAJEMNIK J,GEISLERW.Optimal eye movement strategies in visual search[EB/OL].[2013-04-15].http://www.utexas.edu/cola/files/1516227.

图4 主客观视频质量评价分数散点图

[7] LIU C.Beyond pixels:exploring new representations and applications for motion analysis[D].Cambridge,MA:Massachusetts Institute of Technology,2009.

[8] VLACHOS T.Simple method for estimation of globalmotion parameters using sparse translational motion vector fields[J].Electronics Letters,1998,34(1):60-62.

[9] Video Quality Experts Group.FRTV phase 1 subjective test plan[S].2000.

[10] OLGUN R.Evaluation of visual quality metrics[D].Ankara:Middle East Technical University,2011.

猜你喜欢
注意力显著性运动
让注意力“飞”回来
本刊对论文中有关统计学表达的要求
基于显著性权重融合的图像拼接算法
基于视觉显著性的视频差错掩盖算法
不正经运动范
“扬眼”APP:让注意力“变现”
论商标固有显著性的认定
A Beautiful Way Of Looking At Things
古代都做什么运动
疯狂的运动