兰 梦,张 远
(中国传媒大学信息工程学院,北京 100024)
责任编辑:薛 京
多媒体通信业务的飞速发展为用户带来了更加丰富的操作体验,但同时也给运营商带来了一个难题,即如何提升用户的业务体验质量。在多媒体通信过程中,对多媒体通信的传输和接收质量进行实时评价和监测可有助于端到端业务质量的实时管理和控制。
对视频通信业务质量的评价可通过主观和客观两个方面展开。客观评价常用于系统的设计、调整和实时监控,主观评价作为实际效果的最终检验。根据对原始参考视频的依赖程度,客观评价可划分为全参考客观评测方法(Full Reference,FR)、缩减参考客观评测方法(Reduced Reference,RR)和无参考客观评测方法(No Reference,NR)[1]三类。其中无参考评测方法不需要参考原始视频,因此在移动通信的终端接收质量评价中更为适用。近年来,无参考视频客观质量评价方法得到业界很大的关注,国际组织VQEG也将无参考和缩减参考质量评估标准化作为未来几年的工作目标之一。
在视频通信中,终端接收到的视频质量由包含信源端编码器、网络传输状态和信道端解码器等多方面因素决定。通常把视频通信终端的质量损伤分为两类,即编码器带来的的压缩损伤和传输过程中的传输损伤。视频编码器的有损压缩造成的图像损伤主要包括块效应和边缘模糊等现象。在包含变换、基于运动补偿的预测和熵编码技术的混合视频压缩编码框架中,通常以像素块为单位进行DCT变换。各个变换系数块采用单独量化,量化时高频信息的丢失使得相邻块之间的相关性减弱,从而造成类似“马赛克”的块效应现象。边缘模糊则是由于图像高频细节部分的丢失而造成的图像降质现象。视频图像压缩损伤效果如图1所示。
图1 块效应、边缘模糊效果图
传输信道不佳会造成数据的丢失和延时等问题,由此带来了视频图像的降质,具体表现为不规则块现象和图像扭曲。在混合视频编码框架中,空间预测编码技术容易造成图像帧内空间方向上的错误积累,而帧间预测由于采用已解码视频帧的某些块进行运动补偿,所以会带来时间方向上的错误累积[2]。不规则块现象就是由于丢包错误累积而在空域表现出来的图像帧局部位置不规则的块型损伤。当错误积累严重时,常常造成图像的部分错位及变形,从而引起视频图像扭曲。传输损伤效果如图2所示。
图2 传输损伤效果图
无参考视频质量评价方法无需任何原始视频图像的信息,只通过对视频码流和受损的解码视频进行特征提取和分析,最终给出评价结果。全参考和缩减参考质量评价方法可以或多或少地提供原始视频和可以代表其视觉质量的特征参数,而无参考视频质量评价方法由于缺少原始信息,因此在算法的设计和实现上存在较大难度。根据可获取码流信息的层次,无参考视频质量评价方法可分为基于比特流级(No Reference-Bitstream,NR-B)、像素级(No Reference-Pixel,NR-P)以及基于两者混合参数(No Reference-Hybrid Parameters,NR-HR)的方法。基于比特流级的方法需要部分解析或者完全解析传输视频包,不仅提取包头信息,也需要提取与媒体相关的载荷信息来进行客观质量评价;基于像素级方法采用解码端视频包解码过程中的信息或者完全解码后的像素信息作为输入,可获取的信息较多;混合参数法处理的是像素级和比特流级两者的混合信息,由于输入信息的增加而在一定程度上提高了评价的准确性。
NR-B模型通过提取视频比特流的相关信息来获得视频的相关特征参数,考虑了视频内容构成对于图像质量的影响[3]。与需要全解码信息的视频评价模型相比,基于比特流级的模型具有更低的计算复杂度,适合于那些需要实际信道监控和对图像质量问题采取及时预警的应用。目前ITU-T SG12正在开展针对非介入比特流层模型质量评价的研究项目——P.1202,其前身即 P.NBAMS。其中 P.1202.1 和 P.1202.2 分别针对低分辨率和高分辨率的应用[4]。
现在各方研究较多的是通过提取参数进行一种纯客观的拟合,比如将基于比特流级的分析评价模型用于预测视频图像的峰值信噪比(PSNR)和VQM(Video Quality Metric)。PSNR在衡量图像的压缩损伤时并不能很好地反映视频图像的主观质量。但文献[5]的研究成果表明如果在通信过程中遭受的传输损伤大于压缩损伤,则用PSNR就可以很好地拟合实际的主观感受。文献[6-8]就是基于上述理论基础,它们均只针对压缩损伤估计PSNR分数,而压缩损伤主要又是由于量化误差所引起,因此这类模型一般提取量化系数、量化步长等参数进行建模。文献[6]中,Knee提出了一种基于MPEG-2码流的无参考评价方法PAR。它以宏块为单位,利用系统比特数、量化器参数、DCT系数分布统计特性进行量化噪声评估,进而对PSNR进行预测,但是其需要前期进行参数校准实验,操作比较复杂。文献[7]将量化因子和变换系数作为线性加权建模,文献[8]中依靠分析DCT系数的统计特性来估计PSNR量化噪声,并利用拉普拉斯概率密度函数来建模DCT系数统计分布。除了估计PSNR,Y.Wang等人[9-10]同时考虑了视频压缩和丢包所带来的质量损失,从单个传输包中提取MeanQP,NAL_SIZE等多种参数并按照重要性高低进行筛选,建立线性模型预测VQM质量分数。实验测试表明预测的VQM与实际测量的VQM具有较高的相关性。
除了纯客观拟合之外,另外一种方向是搭建模型进行与主观的拟合。比如还可以将视频质量与人类的主观视觉感知相拟合,可以从丢包的可视性入手,评价实际传输中受到的损伤。可以采用一类构造分类树的方法,其按照特定的一些分类条件将损伤图像逐步划分归类。文献[11]中研究了由网络丢包引起的传输损伤的可视性。通过将连续丢失像条个数、像条类型、运动活跃度等指标与先前确定的阈值进行比较,逐步划分归类,建立了关于丢包可视与不可视的分类树型结构,并利用交叉验证的方法进行了准确率计算。另外,在文献[12]中YAMAGISHI也曾提出过可以处理丢包损伤的NR-B方法,它只利用了诸如丢包率、时延、比特率、编解码类型等网络传输信息在用户终端估计视频质量,这种方式更适合应用于在背景内容较少的视频会议业务中。
相比之下,通过与之前单独进行的主观测试实验结果进行对比,往往能得到更加明显的结论。不同于一般的线性拟合算法,如果模型中涉及到的特征信息较多,参数信息之间的关系比较复杂,则它们之间的关系一般不能简单地用某个线性函数来表示。M.Naccari等人[13-14]针对有损信道中的传输,根据编码模式、运动矢量和预测残差等信息提出NORM和W-NORM两种无参考方法,分别作为全参考PSNR和SSIM的近似。然后分别同之前得到的主观测试结果DMOS(Differential Mean Opinion Scores)进行非线性拟合,评价两种方法的优劣。另外,神经网络算法也常用于客观质量评价,例如在文献[15-16]中作者采用了人工神经网络训练的方法将客观评价结果与主观测试分数进行非线性拟合,提取某些特征信息进行三层前馈网络训练,按照误差逆传播算法,通过不断地修正权值来逐渐收敛。其中文献[15]的改进之处在于它还利用了主成分分析的思想,从9种待选的特征参数中筛选出了具有代表性的5种特征。它们既能很好地反映视频序列的时空域特性,同时也简化了算法复杂度,但它们也都只构建了关于压缩损伤的评价模型,而忽略了传输损伤。
基于像素级模型利用接收端视频解码后的信号来进行质量评价,由于该算法可以在接收端实现对视频图像质量的直接评价,因此具有较广阔的应用前景。相应的规范有 J.144、J.249、J.mm -noref和 J.vqhdtv 等。其中 J.144/J.249主要是针对有线电视应用的视频质量评价规范。J.mm-noref描述了在多媒体环境中感知视频图像质量的无参考具体方法。J.vqhdtv描述了关于HDTV的多媒体客观感知视频质量的测量方法,包括全参考、缩减参考和无参考三个方面,如今这一项目已经进入到新阶段,命名为J.341和J.342,分别工作于全参考评价和缩减参考评价[17-18]。
基于像素域客观质量评价方法的研究思路是通过直接对受损视频进行特征提取,分析各类图像缺陷对观看质量的影响,给出最终的评价结果。针对不同视频损伤类型的特征分析是进行质量评价的基础,目前已经开展了大量研究。考虑到在未受损图像或者受损较小的图像中,其边缘像素信息应该差异较小,而由传输带来的视频图像中通常会出现边缘像素值的跳变。例如,相邻宏块行的边缘失配度可用来衡量传输过程中遭受的损伤程度。文献[19]根据解码后图像中的块边缘损伤所造成的空间不连续性,得到丢包损伤的长度和强度测量。另外一种衡量边缘损伤的特征是块边缘的梯度。文献[20]中认为如果块周围空间区域的内容活动剧烈,则块边缘的梯度损伤可以被掩蔽。Badu利用块边缘的差异性,采用标准差的统计方法,并同时计算8×8块的边缘梯度,两者结合起来衡量边缘损伤可视块的数目。Yuen[21]提出的方法也是基于块边界梯度的计算,并根据人类视觉系统(HVS)对每一区域的权重函数进行调节。
如何利用图像的结构信息,对各种损伤进行加权以获取最终的质量度量是当前主要的研究方向。在进行多种损伤的加权度量时,可采用多元统计回归、人工神经网络等多种分析方法。比如文献[22]建立了失配块数目与SSCQE主观数据之间的训练模型,用以监测数字广播中的网络传输状况,其客观分数与主观评价之间的拟合度较高。通常视频序列中相邻图像之间都具有较大的相关性,有些近似静止的图像相邻帧甚至保持不变。文献[23]正是利用这一特性以相邻图像为参考图像,提出了一种针对自然场景下的无参考客观质量评价方法。根据视频内容中不同的图像构成,通过比较相邻帧相同区域之间的差异来评价质量图像空域损伤。
在实际研究中,为了尽可能提取更多信息进行预测,提高质量评价准确度,同时也为了降低模型复杂度,往往将上述两种模型进行组合,即基于混合参数构建模型。正在进行的相关研究项目是 ITU-T SG9的 J.bitvqm(IPTV),它描述了混合参数模型的评估方法,使用比特流数据和经处理过的视频图像信息作为输入进行客观视频质量测量。与只利用像素级信息的评价模型相比,该方法可以从比特流数据中获取诸如比特率、编解码类型、帧率等额外信息,具有更好的评价性能[24]。
混合参数法通常将由视频码流和解码图像中抽取的客观参数与主观测试结果联系起来进行回归分析。文献[25]通过评估图像运动复杂度和宏块误差区域边缘亮度的不连续性两个指标确定错误隐藏失效宏块数目,并同MSE值进行非线性回归拟合。测试结果表明,文献[25]中显示的错误隐藏失效的宏块数目与实验实际的均方误差之间有0.95的相关度,表明此方法具有较高的准确性。Davis等在文献[26]里建立了只关于两个参数的混合模型,即取自比特流的序列平均量化参数AvQp和取自像素域的平均对比度CS,前者用以估计主观质量,后者用以表征视频内容的错误掩蔽特性。通过与主观测试结果MOS进行多项式回归分析,发现包含两个参数的多项式模型具有较高的准确性,目前此套系统已经成功应用于IPTV的质量监控中。文献[27-28]中通过建模计算出比五分制评分更加可靠的平均无故障时间值(Mean Time Between Failure,MTBF)。计算MTBF是一种有效反映主观质量的评价方法,在此之前要先对损伤视频序列进行错误统计,测试过程中只需要测试者在视频发生受损的地方做出标记而不需要进行具体评分,因此避免了人为因素带来的误差。Suresh提出了一种处理比较灵活的AVQ方法,它会首先考虑比特流级信息是否可用,否则就只针对像素信息分析。接着根据边缘时空域的分布,通过提取量化步长、DCT系数等参数构建线性加权模型,用以反映压缩损伤CA和传输损伤NA,并最终计算MTBF。除此之外,还可以通过建立模型来评估各类失真,例如文献[29]利用比特流和像素域信息,提出基于能量的评估运动补偿边缘损伤的方法。相比于其他评估块效应和模糊度的测量方法,文献[29]具有更好的性能。
随着通信产业的飞速发展,视频业务质量评价已经成为广大用户和运营商的迫切需求。本文从如何提高用户的视频通信业务体验(QoE)角度出发,分析了客观反映视频通信质量的测量方法。考虑到移动通信的自身特点,一般很难得到原始视频信号,因此采用无参考视频质量评价方法,从像素级、比特流级以及混合参数级三个方面分别考虑,列举了现在比较流行的分析方法,阐释了通过信息提取从而构建评价模型的过程,它和主观评价方法具有较高的相关性,可以应用于手机等移动终端。无参考视频质量评估方法在现实应用中具有十分必要的意义,一方面它可以在很多无法获取原始参考视频的情况下进行正常评价,如移动终端和成像系统;另一方面,它可以应用于对网络视频传输的实时监控,达到及时反馈、调整从而提升用户体验的目的。
[1]WINKLER S,MOHANDAS P.The evolution of video quality measurement:from PSNR to hybrid metrics[J].IEEE Trans.Broadcasting,2008,54(3):660-668.
[2]姚继先,张远,朱雨涵.视频通信中的丢包损伤分析及客观测量方法[J].电视技术,2009,33(2):91-94.
[3]杨付正,万帅.网络视频质量评估技术研究现状及发展动向[J].通信学报,2012(4):107-114.
[4]ITU-T Study Group 12.Development of parametric models and tools for audiovisual and multimedia quality measurement purposes[EB/OL].[2013-08-01].http://www.itu.int/itut/studygroups/com12/sg12-q14.html.
[5]REIBMAN A R,VAISHMPAYAN V A,SERMADEVI Y.Quality monitoring of video over a packet network[J].IEEE Trans.Multimedia,2004,6(2):327-334.
[6]KNEE M.A single-ended picture quality measure for MPEG-2[EB/OL].[2013-08-01].http://svc003.wic723dp.server-web.com/whitepapers/SnellWilcoxQualityMeasure_101.pdf.
[7]SUGIMOTO O,NAITO S.No reference metric of video coding quality based on parametric analysis of video bitstream[C]//Proc.IEEE International Conference on Image Processing.Brussels:IEEE Press,2011:3333-3336.
[8]TURAGA D,CHEN Y W,CAVIEDES J.No reference PSNR estimation for compressed pictures[C]//Proc.International Conference on Image Processing.[S.l.]:IEEE Press,2002:61-64.
[9]WANG Y,LIN T L,COSMAN P.Network-based model for video packet importance considering both compression artifacts and packet losses[C]//Proc.IEEE Global Telecommunications Conference.Miami,FL:IEEE Press,2010:1-5.
[10]WANG Y,LIN T L,COSMAN P.Packet dropping for H.264 videos considering both coding and packet-loss artifacts[C]//Proc.2010 IEEE 18th International Packet Video Workshop.Hong Kong:IEEE Press,2010:165-175.
[11]STAELENS N,VERCAMMEN N,DHONDT Y,et al.Viqid:a no-reference bit stream-based visual quality impairment detector[C]//Proc.IEEE Workshop on Quality of Multimedia Experience.Trondheim,Norway:IEEE Press,2010:206-211.
[12]YAMAGISHI K,HAYASHI T.Opinion model using psychological factors for interactive multimodal services[J].IEICE Trans.Communication,2006(2):281-288.
[13]NACCARI M,TAGLIASACCHI M,TUBARO S.Subjective evaluation of a no-reference video quality monitoring algorithm for H.264/AVC video over a noisy channel[C]//Proc.International Conference on Image Processing.Cairo,Egypt:IEEE Press,2009:4373-4376.
[14]NACCARI M,TAGLIASACCHI M,TUBARO S.No-reference video quality monitoring for H.264/AVC coded video[J].IEEE Trans.Multimedia,2008,11(5):932-946.
[15]WANG C,JIANG X,MENG F,et al.Quality assessment for MPEG-2 video streams using a neural network model[C]//Proc.2011 IEEE 13th International Conference on Communication Technology.[S.l.]:IEEE Press,2011:868-872.
[16]CHOE J,LEE K,LEE C.No-reference video quality measurement using neural networks[C]//Proc.IEEE International Conference on Digital Signal Processing.[S.l.]:IEEE Press,2009:1-4.
[17]YAMAGISHI K,HAYASHI T.Parametric packet-layer model for monitoring video quality of IPTV services[C]//Proc.IEEE International Conference on Communications.[S.l.]:IEEE Press,2008:110-114.
[18]CHOI K,CHOI J K,HONG J H,et al.Comparison of video streaming quality measurement methodologies[C]//Proc.International Conference on Advanced Communication Technology.Gangwon-Do:IEEE Press,2008:993-996.
[19]RUI H,LI C,QIU S.Evaluation of packet loss impairment on streaming video[EB/OL].[2013-08-01].http://link.springer.com/article/10.1631/jzus.2006.AS0131#page-1.
[20]BABU R V,BOPARDIKAR A S,PERKIS A,et al.No-reference metrics for video streaming applications[EB/OL].[2013-08-01].http://www-devel.cs.ubc.ca/~ krasic/cpsc538a-2005/papers/pv 2004_Babu.pdf.
[21]WU H R,YUEN M.A generalized block-edge impairment metric for video coding[J].IEEE Signal Process Letters,1997,4(11):317-320.
[22]MONTARD N,BRETILLON P.Objective quality monitoring issues in digital broadcasting networks[J].IEEE Trans.Broadcasting,2005,51(3):269-275.
[23]YANG F,WAN S,CHANG Y,et al.A novel objective no-reference metric for digital video quality assessment[J].IEEE Signal Processing Letters,2005,12(10):685-688.
[24]朱雨涵,张远,张昊,等.视频通信业务质量客观评价方法综述[J].电视技术,2009,33(6):108-115.
[25]YAMADA T,MIYAMOTO Y,SERIZAWA M.No-reference video quality estimation based on error-concealment effectiveness[C],IEEE Packet Video.Lausanne,Switzerland//Proc.IEEE Press,2007:288-293.
[26]DAVIS A G,BAYART D,HANDS D S.Hybrid no-reference video quality prediction[C]//Proc.IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. Bilbao, Spain:IEEE Press,2009:1-6.
[27]SURESH N.Mean time between visible artifacts in visual communications[EB/OL].[2013-08-01].https://smartech.gatech.edu/handle/1853/16238.
[28]SURESH N,JAYANT N,YANG O.AVQ:a zeroreference metric for automatic measurement of the quality of visual communications[EB/OL].[2013-08-01].http://enpub.fulton.asu.edu/resp/vpqm/vpqm2007/papers/393.pdf.
[29]LEONTARIS A,COSMAN P C,REIBMAN A R.Quality evaluation of motion-compensated edge artifacts in compressed video[J].IEEE Trans.Image Processing,2007,16(4):943-956.