周 正 冯伟东 叶 露 王俊曦 贺 易
(国网湖北省电力公司信息通信公司 湖北 430077)
近年来,我国视频会议系统的市场规模不断扩大,其应用范围也越来越广。视频会议系统有着众多优点,这使之逐渐成为各行各业用于政策宣贯、经营管理、应急指挥和演练培训的一类极为重要的通信业务。视频会议图像质量的好坏不仅直接决定了众多生产、经营管理重大决策的学习、宣贯和执行,也直接影响了视频会议使用方的社会形象。
而视频会议系统的图像从模拟信号,到标清数字信号,到高清乃至超分辨率信号[1],其质量大多是通过使用者的视觉观测[2]来进行主观界定的[3]。诚然,主观上的图像无失真十分重要,然而这并不意味着经过编解码和通信传输后的视频图像就真的做到了对原始图像的高保真,尤其对一些重要信息和细节数据的呈现,其图像质量就显得格外重要。此外,视频会议系统的投资通常较大[4],其系统复杂性又导致日常运维管理困难,如何保护用户投资,提高视频会议系统建设的合理性,降低运维成本都成为会议电视系统管理部门极为关心的问题。
本文将研究分析视频会议图像质量的评价方法,力求为视频会议系统建设提供科学的质量鉴定方式,为视频会议系统运维提供便捷、有效的技术指导;同时,本文还将针对视频会议常见的图像质量问题,研究探讨图像去噪、补偿和增强的各类方法。
视频由一帧帧图像组成,目前,针对视频图像的评价主要有两种形式:主观评价和客观评价[5]。主观评价需要一定人员按照一定规则来进行评分,该方法复杂、费时,且主观性强,并不适合视频通信这类实时性要求很高的应用场景;客观评价则是通过检测仪器或软件对图像质量进行自动化的分析,通常能够给出较为量化的客观评价指标。根据有无原始视频作为评价参考,可以将图像的客观评价划分为三大类:全参考型(Full-Reference,FR),部分参考型(Reduce-Reference,RR)和无参考型(No-Reference,NR)[6]。
1997年,ITU-T和ITU-R的研究小组联合成立了视频质量专家组(Video Quality Experts Group,VQEG),专门从事视频图像质量评价的研究和相关标准的制定。在主观评价方面,VQEG已经制定了标准:选择一批非专家的受测者,在一个受控的环境中,连续观看一系列的测试序列大约10~30分钟,然后采用各种方法让他们对视频序列的质量进行评分,最后求得平均判分(Mean Opinion Score,MOS)值。常用的主观评价方法有:双刺激连续质量分级法(Double-Stimulus Continuous Quality Scale,DSCQS),单刺激连续质量评价法(Single-Stimulus Continuous Quality Evaluation,SSCQE),双刺激损伤分级法(Double-Stimulus Impair)等[6]。在客观评价方面,VQEG下设全参考 TV组(FR-TV Group)、部分参考/无参考 TV组(RRNR-TV Group)、多媒体组(MM Group)和高清晰电视组(HDTV Group)。其中,FR-TV组是四个小组中成立最早、研究最全、进展最快的工作组,已经推出了不同环境下视频质量客观评价法的测试计划。至于非全参考评价领域,国际国内均处在制定评价流程、规范评价文件、优化数据处理方式和征集评价算法模型的阶段。
VQEG于2000年3月发布了第一阶段全参考客观质量评价方法性能的测试报告,报告分别给出了所提交的10个全参考客观质量评价方法的性能分析(包括PSNR,峰值信噪比),其结论是:在所有测试方法中,其它方法的总体性能都没有超过PSNR。
部分参考型评价不但没有全参考型评价可以获得较高的与主观评价相关的 MOS值,而且还需要额外的带宽来传输源的相关视频参数,所以研究的空间并不大,很多文献将部分参考型归入无参考型的方法中进行研究。
由于影响视频图像质量的因素一般包括失真和损伤:编码技术带来的失真(如方块效应、振铃效应、模糊、噪声等)和传输网络的数据丢包或者时延带来的失真(如马赛克、抖动等)。因此,大部分无参考型图像质量客观评价方法的核心思想是基于描述以上失真或损伤的某几种特征参数信息,确定特征参数与客观评分之间的函数。无参考型客观评价的另一类重要方法是基于神经网络(Random Neural Network,RNN)的实时视频图像质量评价,即通过研究影响视频质量的多方面因素(包括编码参数、网络参数等等),来建立一个完整的基于神经网络的评价模型,然后根据视频图像的几种可得参数进行分类识别从而得到评价结果。尽管目前无参考型视频图像质量的评价结果与主观 MOS值的相关度普遍不高,但视频会议召开时本就很难获得原始图像作为质量评价的参考,这使得无参考型评价方法反而具有更高的实用价值。本文将重点针对各种主流的评价方法进行研究分析。
在视频会议通信过程中,将视频图像传输到接收端,要经过采集、传输、处理和记录等过程,所有这些技术环节性能的优劣都会影响到最终的视频图像质量。本文认为引起视频图像失真的主要因素可以归结如下表1所示的几个方面:
表1 视频图像质量降质要素分析
在视频图像质量的主观评价方法中,理论上说,受测者越多,观测时间越长,得到的评价结果越准确。而主观评价的结果还要受到受控环境的影响,包括观测距离、观测环境、观测序列的选择、序列显示时间间隔等。因此,主观评价结果的随机性较大。
在国际上,视频图像质量主观评价方法的计分方式有两种:质量等级度量和失真等级度量,其评价标准如表2所示:
表2 视频图像主观质量评价标准
由于视频图像信息的最终接受者是人,所以主要评价方法的结果尽管有很大随意性,但同时也是最忠于人的主观感受的,是最重要的评价方法之一。但这种评价方法要消耗大量人力,实现起来复杂、费时,代价较高,且稳定性差,因此,并不适合于视频会议这样的实时应用场合。
(1)全参考型评价
目前,应用最广泛且最简单的全参考视频图像质量客观评价方法是峰值信噪比(PSNR)和均方误差(MSE)评估法。但在有些情况下,通过MSE和PSNR方法得到的视频图像质量评价结果会与人们的主观感觉不一致。
为了使评价结果与人的主观感受具有较高的一致性,在全参考评价方法中引入人类视觉系统(HVS)特性是非常有必要的。基于HVS特性的图像/视频图像质量评价方法的基本框架如下图1所示。其处理步骤主要包括预处理、CSF滤波、通道分解、误差量化和误差合并等。
图1 基于HVS特性评价方法的一般框架
(2)部分参考型评价
部分参考视频图像质量评价是指分别在原始参考视频和失真视频上施加某种运算,各自得到少量的统计数据,然后把提取出的统计数据按常规的回归法分析,来判定失真视频的失真程度。部分参考视频图像质量评价的一般模型如下图2所示:
图2 部分参考视频图像质量评价模型
有研究将基于数字水印的方法归类为无参考型视频图像质量评价方法。虽然这种方法没有利用原始视频,但它利用了数字水印作为参考,所以也可将其视为部分参考型评价方法。它的基本思想是在视频序列的发送端隐性嵌入数字水印,视频经过网络传输后,在接收端提取水印并进行分析,根据恢复的水印相对原始水印的失真情况来评估视频图像质量的失真程度。这种评价方法的原理框图如下图3所示:
图3 基于数字水印的视频图像质量评价框图
部分参考质量评价无法获得较高的与主观评价相关的MOS值,还需要额外的带宽来传输类似数字水印的参数,其研究空间并不大。
(2)无参考型评价
全参考视频图像质量评价方法必须借助原始无失真的视频作为参考,但在视频会议的应用场合下,由于网络带宽限制和实时性要求,难以获得参考视频。没有原始视频作为参考,也没有额外信息而直接进行评估的方法就是无参考(即盲估计)视频图像质量评价法。这种方法要比全参考和部分参考的评价困难得多。目前,无参考型视频图像质量评价方法都是在对特定的某种失真类型或某些特定的视频场景下所研究出来的评价方法。
其中,主流的无参考视频图像质量评价是一种基于神经网络的评估方法。这种方法的实现过程是把编码参数(如比特率、编码类型和帧率等)和网络参数(如延时、丢包率、抖动)等作为神经网络的输入节点,并对典型的样本点进行训练,把评分结果作为神经网络的输出节点。知道测试视频的网络参数和编码参数之后,就可以经过这些训练后的神经网络对视频进行质量评分。其评价模型如下图4所示:
图4 基于神经网络的无参考视频图像质量评价模型
由于这种方法需要经过对大量样本的训练,所以评估的准确性极大地受到训练样本的影响。基于样本训练形成的各类无参考评价方法和神经网络法较为相似,均较为适用于某些特定场景下的视频会议图像质量评价。
另一类无参考视频图像质量评价方法主要是利用图像的失真特性,通过对失真特性的分析可以在一定程度上对视频图像的质量进行评估。这类方法的评价模型如下图5示意:
图5 基于失真特征的视频图像质量评价模型
由于目前人类对HVS特性的了解有限,很难研究出一种对所有失真图像或视频都适用的无参考型质量评价方法,现有的无参考型质量评价方法只能是针对某一类视频图像的应用进行设计。尽管无参考型视频图像质量评价结果与主观 MOS值的相关度普遍不高,但其较高的实用价值,必将成为视频图像质量评价领域的研究热点。
前文提到一种基于视频图像失真特性的无参考质量评价方法,那么,基于该评价方法就能很轻易的找出视频图像的质量问题所在。针对失真特性质量评价找到的问题,对输出视频进行后处理,就能实现解码视频图像的质量增强。常见的方法是对失真图像进行降噪处理,主要有三种算法:
(1)像素域降噪算法和转换域降噪算法。像素域降噪算法是直接对像素值进行操作,这种方法计算量小,效果较好;转换域降噪算法的将视频图像的像素值转换到另一个域,然后再进行降噪,效果比像素域降噪好,但计算量较大,满足不了视频会议的实时性要求。
(2)滤波器降噪法。主要可分为时域二维滤波和空时三维滤波。三维滤波利用像素在相邻帧中空间邻域内所有像素间的相关性;二维滤波只利用了图像序列在时间维度上的相关性,因此,三维滤波在降噪方面比二维滤波更具优势。
(3)运动估计滤波降噪法。可分为基于运动估计和运动自适应的滤波方法。视频图像序列中的运动使得各帧相同空间位置处的相关性随时间而改变。运动估计降噪方法则直接利用运动估计过程找到当前像素在参考帧中的对应像素,然后再进行对应的补偿。
尽管这些图像降噪算法的计算复杂度较高,但视频会议图像的后处理是可选择性的,在条件满足的情况下,对输出图像进行质量增强,能够带来更良好的视觉感受。
视频图像增强技术的另一个重要分支是对比度增强。人眼能够根据周围光照条件自适应的调整接收动态范围,并且比所有视频采集设备的调整范围都要大得多。因此,由于照明条件问题可能引起的视频采集图像失真问题,往往能够通过增强图像的对比度来予以补偿。这种技术在视频图像的增强方式中较为常见,本文不再赘述。
视频会议系统为我国成千上万个用户提供着交互式的视频、图像和文字信息,极大地方便着人们的沟通交流。本文针对视频会议图像这一用户体验中最关键和核心的环节展开研究,通过大量视频图像质量评价方法的分析比较,为主、客观综合评估视频会议图像质量提供了多种适用选择,并在此基础上,探讨了一些视频图像的增强方法。
上述视频会议图像质量评价和增强的方法不仅能够用于指导会议电视系统建设,也能用于提高会议电视系统的运维管理效率。但视频会议的图像呈现质量还取决于视频会场。会场的结构布局,所使用的视频设备,会场的灯光及色彩,装饰材料的选用,背景的设计等对视频图像质量的影响同样很大。只有通过视频会议设备、视频会议质量评价与增强手段和视频会场环境之间的良好配合,才能带给与会人员更高质量的视频感受。
[1]仲元昌等.视频会议系统关键技术及应用研究[J].电视技术,2010.6.
[2]王楠楠,李桂苓.符合人眼视觉特性的视频质量评价模型[J].中国图象图形学报:A,2001,16(6): 523-527.
[3]樊稚洋.浅谈视频会议系统的质量评价方法[J].电视技术,2010.3.
[4]YD/T 5033-2005,会议电视系统工程验收规范[S].2005.
[5]王新岱,杨付正.视频质量的主客观评估方法研究,电视技术,2003,(8),81-84.
[6]曾凯.无参考型自然图像质量评价算法研究.西安电子科技大学硕士学位论文,2009,14(10),2165- 2171.