DVC中基于残差子带分组的自适应噪声模型估计

2015-12-23 09:29:23杨春玲,吴娟,郑伯伟

华南理工大学学报(自然科学版) 2015年5期

Foundation items: Supported by the National Natural Science Foundation of China(61471173,60972135)

DVC中基于残差子带分组的自适应噪声模型估计*

杨春玲吴娟郑伯伟

(华南理工大学电子与信息学院, 广东广州 510640)

摘要：为提高噪声模型的估计精度,改善系统率失真性能,文中提出了一种基于残差子带分组聚类的自适应噪声模型估计方法.首先根据频率高低对残差子带进行分组,然后由组内子带残差样本生成特征矢量,进而利用改进的模糊c-均值聚类算法对当前解码子带进行聚类,最后计算出每类残差系数的噪声参数.实验结果表明,相比于相邻子带聚类-方差估计算法,文中所提算法能够更加准确地匹配残差分布特征,率失真性能平均提升0.60dB,且解码时间平均节省40.59%.

关键词：分布式视频压缩；残差子带聚类；相关性；噪声模型估计

收稿日期：2014-12-08

基金项目：* 国家自然科学基金资助项目(61471173,60972135)

作者简介：杨春玲(1970-)，女，博士，教授，主要从事图像/视频压缩研究.E-mail: eeclyang@scut.edu.cn

文章编号：1000-565X(2015)05-0001-07

中图分类号：TN919.8

doi:10.3969/j.issn.1000-565X.2015.05.001

传统的视频压缩编码方案(如MPEG-X和H.26X标准等)采用非对称编码方式,在编码端进行运动估计和运动补偿以达到压缩的目的,其编码端计算复杂度是解码端复杂度的5～10倍,适用于一次编码、多次解码场合.与传统的视频压缩标准编码相比,分布式视频编码(DVC)编码端非常简单,特别适用于编码端资源有限的无线视频监控、多媒体传感器网络、便携式摄像机等应用[1-2].

在分布式视频编码系统中,边信息相对于原始WZ帧的相关噪声模型对编码效率有很大的影响.相关噪声模型越准确,Turbo码成功解码需要的校验位越少,既能降低码率,提高压缩效率,又能有效减少Turbo码解码的计算量[3].因此,相关噪声模型的研究一直是分布式视频压缩中的研究热点.目前国内外的相关研究主要集中在单个残差子带模型参数的精确估计方面[4-12].文献[4]针对拉普拉斯模型不能精确描述残差分布特性的问题,引入了量化噪声来修正相关噪声模型,并利用原始信息来动态调整模型参数,改善了系统的率失真(RD)性能.文献[5]研究了不同视频序列的相关噪声特性,分析了信道噪声与视频序列相关噪声之间的差异.尹明等[6]发现相关噪声信息的分布并不满足某种单峰分布,提出了基于高斯混合模型和样本特征期望最大算法的相关噪声模型.文献[7]针对变换域大残差和小残差系数统计分布与传统拉普拉斯分布存在一定偏差的事实,提出了一种拉普拉斯-柯西混合分布的相关噪声模型及参数估计算法,该算法能有效地提高系统性能且计算简单.文献[8]研究发现,WZ值越接近量化端点值,生成不准确的边信息概率越大,据此提出了不对等的残差预测措施来提高系统性能.文献[9]考虑到原始信号的预测噪声和加性噪声,提出了在编码端基于马尔可夫场假设的线性模型来估计残差方差的算法.文献[10]通过分析解码帧和边信息之间的相关性,提出了一种噪声残差重估计策略,显著提高了系统的率失真性能.

视频信息固有的非平稳性和解码端基于块的运动估计等,使DCT残差子带之间存在着一定的相关性,但上述方法都没有考虑到这种相关性.利用残差子带之间的相关性可以进一步提高噪声模型的估计精度,据此，文献[11]提出了基于DCT块聚类和系数级的残差模型参数估计算法,获得了较好的系统率失真性能,但计算量较大;文献[12]提出了针对相邻子带聚类的噪声模型估计方法,在保持较小计算量的前提下可进一步提高系统的压缩性能.然而,笔者深入研究后发现:①相邻残差子带之间的相关性并不稳定,某些相邻残差子带之间的相关性比较弱;②残差子带直方图分布并不完全满足单调性,存在很多小的突变,使得某些区域中大残差系数出现的概率比小残差系数分布的概率更大,因此对于聚类后的残差类,用一个噪声模型参数描述不够精确,且利用方差估计得到的模型参数并不能准确地描述各类残差的分布特征[13].为了更好地解决以上问题,文中提出了基于残差子带分组的自适应噪声模型估计方法,以提高噪声模型的估计精度,改善系统的率失真性能.

1残差子带相关性分析

对残差帧进行4×4的DCT变换后得到16个不同的DCT子带,按照“之字形”顺序排列,如图1所示.

0156247123811139101415

图1DCT子带的“之字形”排列顺序

Fig.1Zig-zag order of DCT sub-bands

对相邻子带残差系数求取相关系数RXiXj:

(1)

文中选取不同运动强度序列(Foreman、Soccer、Coast guard和Hall monitor序列)特定帧，求取相邻DCT子带残差间的相关系数,分析相邻子带的相关性,结果如图2所示.其他图像帧有相似的特征.

从图2可以看出,相邻子带间存在相关性,不同相邻子带之间的相关程度不同,如子带AC1和AC2、AC3和AC4、AC4和AC5、AC7和AC8、AC10和AC11、AC14和AC15之间的相关性较强,而子带AC2和AC3、AC5和AC6、AC9和AC10之间的相关性较弱.仅将相邻子带之间的残差样本进行聚类并没有充分考虑它们彼此之间的相关性差异,结合DCT子带的分布,笔者发现相关性强的子带处在同一频率上,即在同一频率组的子带之间有较强的相关性,不同频率组的子带相关性较弱.为此,文中按照子带频率高低分组,利用组内子带的相关性对残差子带系数进行聚类,具体把DCT残差系数分为{DC}、{AC1、AC2}、{AC3、AC4、AC5}、{AC6、AC7、AC8、AC9}、{AC10、AC11、AC12}、{AC13、AC14}和{AC15}共7组,如图3所示.

图24个序列第0帧DCT相邻残差子带间的相关系数

Fig.2Correlation coefficients among the adjacent DCT sub-bands residual of the 0th frame in four sequences

图3不同DCT子带分组示意图

Fig.3Schematic diagram of grouping for different DCT sub-bands

2残差子带分组的噪声模型估计方法

文中对基于Turbo码的DCT域分布式视频编解码框图[13]进行改进,结果如图4所示.

文中提出的基于残差子带分组的自适应噪声模型估计方法的具体步骤如下:

(1)对DCT残差子带进行分组.对残差帧进行4×4的DCT变换得到16个不同的DCT子带后,按照“之字形”顺序排列,然后对残差子带进行分组.

残差系数组成,即

(2)

(3)自适应估计噪声模型参数.在噪声模型参数估计环节,文中提出了自适应参数估计方法,对聚类后的不同残差系数类,根据其特征采用不同的参数估计方法对某些突变的残差系数单独计算其模型参数.不同类残差系数的噪声模型参数估计算法为

(3)

突变残差系数的噪声模型参数估计方法为

(4)

图4改进的分布式视频编码框图

Fig.4Block diagram of the improved distributed video coding

对于式(3)中不同类残差系数,若第Ci类残差系数的方差小于整个子带的方差,则说明该类残差系数的置信度较高,利用最大似然估计方法可以较好地估计该类残差系数的模型参数,否则用第Ci类残差系数的方差求取噪声模型参数.

对于式(4)中第Ci类突变残差系数的分布参数,若第Ci类残差系数方差比子带级残差系数方差小,且第Ci类中某残差系数平方大于第Ci类残差系数方差,说明该残差系数值更接近于子带方差估计,则用整个子带方差来估计该残差系数的分布参数更为准确,反之则仍用最大似然估计方法估计;若第Ci类残差系数方差比子带级残差系数方差大,且第Ci类中某残差系数平方大于第Ci类残差系数方

差,说明该残差系数值与第Ci类残差方差、子带级方差估计均存在较大的差异,以该残差系数的方差(即平方值)来描述其特征.

(4)对当前子带进行解码.利用所得噪声模型对当前子带进行解码.

3实验结果及分析

为验证文中方法的性能,在DCT域分布式视频编码系统中采用4组视频序列Hall monitor(165帧)、Coast guard(150帧)、Foreman(150帧)和Soccer(150帧)进行仿真实验,视频的运动程度分别为低、中等、中等偏上、快速.各视频序列均为QCIF格式,帧率为15Hz,奇数帧为关键帧,偶数帧为WZ帧.文中只对Y分量进行统计,对关键帧的量化参数与DISCOVER一致[14],用分级运动估计(HME)算法[15]生成边信息,采用最小均方误差(MMSE)算法[16]重建WZ帧解码,残差信号由前向补偿帧和后向补偿帧相减获得.

3.1率失真性能分析

文中所提出的分组子带聚类-自适应估计噪声模型估计方法和相邻子带聚类-方差估计方法[12]的率失真性能如图5所示.为更好地分析分组子带聚类方法和自适应参数估计方法的作用,图5中还给出了分组子带聚类-方差估计(分组聚类后再进行方差估计)、相邻子带聚类-自适应估计(采用相邻子带聚类[12]后再用文中自适应方法估计参数)方法的率失真曲线.从图可知:相对于相邻子带聚类-自适应估计方法,文中分组子带聚类-自适应估计方法的率失真性能提升显著,对于运动剧烈的Soccer序列,率失真提升最大为0.40dB,而对于运动缓慢的Hall monitor序列,率失真也可提升0.15dB,这说明文中提出的分组子带聚类方法的率失真性能优于相邻子带聚类方法;相对于相邻子带聚类-方差估计方法,相邻子带聚类-自适应估计方法的率失真性能有所提升,提升最大为1.00dB的,平均增益达0.40dB,这说明聚类后自适应估计方法估计的噪声模型参数能更加准确地描述残差系数的分布特征,文中分组子带聚类方法可以更好地利用不同DCT子带残差之间的相关性,从而提高系统压缩性能.

由于在解码端利用原始的WZ帧信息来估计相关噪声模型可以达到性能的上界,为更好地验证文中方法的有效性,图6给出了理想条件下几种参数估计方法的实验结果,其中残差信号由原始WZ帧和边信息相减获得.从图可以看出:理想条件下文中方法的率失真性能提升更为显著,对运动越剧烈的序列所获的系统增益越明显,对运动平缓的序列所获的系统增益相对较小;相对于相邻子带聚类-方差估计方法[12],文中方法的率失真性能提升最大为1.20dB,平均增益达0.60dB.

综合上述实验结果可以看出,在线模式(真实条件)下的RD性能提升没有离线模式(理想条件)下显著,主要原因是残差估计与真实残差存在差距,因此所获得的增益有所减小.

3.2模型复杂度分析

为进一步评估文中方法的性能,以第8个量化矩阵对应的RD点为例,给出了Hall monitor、Coast guard、Foreman和Soccer序列每帧的平均解码时间,如表1所示.实验在CPUAMD/2.8GHz、RAM2GB、Microsoft Windows 7计算机上进行，仿真软件为Visual Studio 2008.

表1不同方法的平均解码时间对比

Table 1　Comparison of average decoding time among different methods　s

从表1可以看出:分组子带聚类方法的解码时间较相邻子带聚类方法[12]减少,主要原因是对残差子带进行分组后,组内残差系数相关性更强,FCM聚类收敛速度更快,而单纯的相邻子带聚类方法由于某些相邻残差子带之间的相关性非常弱,需要执行更多次的迭代才能收敛;自适应估计方法较方差估计方法解码时间少,这是因为自适应参数估计方法可以更加准确地匹配残差分布特征,从而减少解码所需的反馈次数.因此,文中的分组子带聚类-自适应估计方法具有相对最优的时间复杂度,较相邻子带聚类-方差估计方法[12]最多可节省46.15%、平均可节省40.59%的解码时间.

4结论

针对相邻子带之间相关性强弱不同,结合DCT子带的分布,文中提出了基于残差子带频率高低分组的聚类方法.同时,针对残差系数分布直方图中的突变现象,文中提出了自适应的噪声模型参数估计方法.实验结果表明,相比于相邻子带聚类-方差估计方法,文中方法平均可以获得0.60dB的率失真性能提升,且有效降低了解码端的计算复杂度.文中方法对在线模式所获得的系统增益不如离线模式显著,寻求更加准确地在线残差获取方式是下一步的研究重点.

参考文献：

[1]罗武胜,瞿永平,鲁琴.无线多媒体传感器网络研究 [J].电子与信息学报,2008,30(6):1511-1516.

Luo Wu-sheng,Qu Yong-ping,Lu Qin.Study on wireless multimedia sensor networks [J].Journal of Electronics & Information Technology,2008,30(6):1511-1516.

[2]孙艳,马华东.无线多媒体传感器网络Qos保障问题 [J].电子学报,2008,30(6):1412-1420.

Sun Yan,Ma Hua-dong.The QoS guarantee problem for wireless multimedia sensor networks [J].Chinese Journal of Electronics,2008,30(6):1412-1420.

[3]Aaron A,Rane S D,Setton E,et al.Transform-domain Wyner-Ziv codec for video [C]∥Proceedings of Electronic Imaging 2004.San Jose:International Society for Optics and Photonics,2004:520-528.

[4]尹明,蔡述庭,谢云,等.分布式视频编码中基于量化噪声因素的虚拟相关信道模型 [J].通信学报,2012,33(2):141-148.

Yin Ming,Cai Shu-ting,Xie Yun,et al.Virtual channel model for distributed video coding accounting for quantization noise [J].Journal on Communications,2012,33(2):141-148.

[5]Thambu K,Fernando X N,Guan L.Channel noise and correlation noise of video sequences in distributed video co-ding [C]∥Proceedings of IEEE the 21st International Conference on Noise and Fluctuation.Toronto:IEEE,2011:254-257.

[6]尹明,蔡述庭,谢云.基于高斯混合模型的Wyner-Ziv视频编码 [J].计算机学报,2012,35(1):173-182.

Yin Ming,Cai Shu-ting,Xie Yun.Wyner-Ziv video coding based on Gaussian mixture model [J].Chinese Journal of Computers,2012,35(1):173-182.

[7]杨春玲,谢小兰.分布式视频编码中拉普拉斯-柯西混合分布相关噪声模型研究 [J].电子与信息学报,2012,34(10):2348-2352.

Yang Chun-ling,Xie Xiao-lan.A Laplacian-Cauchy mixture model for improved correlation noise modeling in distributed video coding [J].Journal of Electronics & Information Technology,2012,34(10):2348-2352.

[8]Micallef Jeffrey J,Farrugia Reuben A,Debono Carl James.Correlation noise-based unequal error protected rate-adaptive codes for distributed video coding [J].IEEE Transactions on Circuits and Systems for Video Technology,2014,24(1):127-140.

[9]Zhu X L,Zhang N,Fan X P,et al.Correlation estimation for distributed wireless video communication [C]∥Proceedings of 2013 Visual Communications and Image Processing.Kuching:IEEE,2013:1-5.

[10]van Luong H,Raket L L,Forchhammer S.Reestimation of motion and reconstruction for distributed video coding [J].IEEE Transactions on Image Processing,2014,23(7):2804-2819.

[11]van Luong H,Huang X,Forchhammer S.Adaptive noise model for transform domain Wyner-Ziv video using clustering of DCT block [C]∥Proceedings of IEEE the 13th International Workshop on Multimedia Signal Proce-ssing.Hangzhou:IEEE,2011:1-6.

[12]杨春玲,吴娟.分布式视频编码中基于改进FCM聚类的相关噪声模型估计 [J].中国图象图形学报,2014,19(2):185-193.

Yang Chun-ling,Wu Juan.Correlation noise modeling based on improved fuzzyc-means clustering in distributed video coding [J].Chinese Journal of Image and Graphics,2014,19(2):185-193.

[13]Huang Xin,Forchhammer S.Cross-band noise model refinement for transform domain Wyner-Ziv video coding [J].Signal Processing:Image Communication,2012,27(1):16-30.

[14]Artigas X,Ascenso J,Dalai M,et al.The DISCOVER codec evaluation:achitecture,techniques and evaluation [EB/OL].(2010-09-14)[2014-10-20].http:∥www.img.lx.it.pt/～discover/home.html.

[15]Ascenso J,Pereira F.Hierarchical motion estimation for side information creation in Wyner-Ziv video coding [C]∥Proceedings of the 2nd International Conference on Ubiquitous Information Management and Communication.Suwon:ACM,2008:347-352.

[16]Kubasov D,Nayak J,Guillemot C.Optimal reconstruction in Wyner-Ziv video coding with multiple side information [C]∥Proceedings of IEEE the 9th Workshop on Multimedia Signal Processing.Crete:IEEE,2007:183-186.

Adaptive Noise Model Estimation Based on Residual Sub-Band

Grouping in DVC

YangChun-lingWuJuanZhengBo-wei

(School of Electronic and Information Engineering,South China University of Technology,Guangdong 510640,Guangdong,China)

Abstract:In order to improve the estimation accuracy of noise model and the rate-distortion performance of the system,an adaptive noise model estimation method on the basis of residual sub-band grouping is proposed.In this method,firstly,residual sub-bands are grouped according to their frequencies.Secondly,feature vectors are generated from the residual coefficients of all sub-bands in the same group.Then,the coefficients in each sub-band are clustered into different classes by means of improved fuzzy c-means clustering.Finally,the noise para-meters of each class of residual coefficients are estimated successfully.Experimental results show that,in comparison with the method on the basis of adjacent sub-band clustering and variance estimation,the proposed method matches the residual distribution characteristics more accurately,improves the average rate-distortion performance by 0.60dB,and saves the decoding time by 40.59%.

Key words: distributed video compression;residual sub-band clustering;correlation;noise model estimation