郑 成,王国中,范 涛,赵海武
ZHENG Cheng,WANG Guozhong,FAN Tao,ZHAO Haiwu
上海大学 通信与信息工程学院,上海 200444
School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China
香农在经典信息论里指出:精确重构信号的前提是对信号的采样频率不低于信号带宽的两倍,这是著名的奈奎斯特采样定理。传统的信号压缩主要包括:采样、变换、量化、熵编码等过程,其中在奈奎斯特采样速率下采样后的数据大部分信息都在变换、量化过程中被丢掉了。所以说,按照奈奎斯特采样速率得到的信号中有很多信息是利用不了的,这浪费了采样的带宽、存储空间以及计算资源。Candes和Donoho等人提出的压缩感知理论利用某些信号本身的稀疏性将采样和压缩合为一步,打破了奈奎斯特速率,实现了低采样率下信号的采样和重构,节省了计算资源和存储资源。压缩感知理论主要包括三方面:信号的稀疏性、非相关测量以及信号的重建。其中信号的稀疏性是指长度为N的一维离散信号x在某一个正交变换基ψ上展开,且大部分系数为零,则认为信号x在ψ上具有稀疏性,为变换矩阵。如式(1)所示:
其中si为展开系数,如果满足有K个非零值且K<<N,则称信号x为K阶稀疏信号。其中DCT基和小波基由于其对图像较好的压缩特性以及成熟的快速算法,常被用来发掘图像信号的稀疏性。
测量矩阵Φ是一个M×N维的行满秩的矩阵,其中M<<N,且Φ和ψ之间应该满足不相关性,实际压缩采样过程如式(2)所示:
信号的重建即通过压缩采样得到的值y和观测矩阵求解原始信号x的数学问题,显然这是一个欠定方程,有无限多解。但由于原始信号在ψ上是稀疏的,故该方程的解可以由优化类重构算法或贪婪类重构算法求解,式(3)所示的为约束优化问题来重构原始信号:
综上所述,压缩感知理论中,信号的稀疏性是必要条件,最优重构算法是原始信号重建的手段,而观测矩阵和变换矩阵的不相关是最优重构算法收敛的必要保证[1]。
在无线传感网络中,一方面,终端设备受电能有限、计算能力有限以及信道不稳定等因素影响;另一方面,传统的视频编码标准H.264、AVS等,在编码端有复杂的帧内预测、运动估计以及运动补偿。故传统的视频编码标准在无线多媒体传感器网络中并不能发挥其应有的性能。压缩感知是一种新型的采样理论,压缩视频感知将它应用到视频压缩上,它利用信号本身的稀疏性将采样和压缩合二为一,打破了香农理论中的奈奎斯特采样理论极限,所以在压缩视频感知中,编码端仅需要对数据进行压缩采样,将复杂的信号重构放在了解码端。基于这样一个特点,压缩视频感知在无线多媒体传感器网络中、复杂环境下的视频监控中有着明显的优势。另外一方面,由于压缩采样后得到的各低阶稀疏信号对于图像重建而言是等价的,不同于传统视频编码标准中使用的DCT,低频信号更为重要,所以压缩视频感知的鲁棒性在理论上是要强于传统视频编码标准的[2-3]。
压缩视频感知是在分布式视频编码[4]以及压缩感知理论的基础上发展起来的,其基本思想源于分布式视频编码。分布式视频编码将视频序列分为关键帧和非关键帧(又称为WZ帧),并且对这两种帧类型采取不同的编码方案。对于关键帧,由于它要为非关键帧的解码提供高质量的边信息(Side Information),所以在分布式视频编码中对关键帧的编码采用了传统的H.264中帧内编码的方法,而对于非关键帧则采用Wyner-Ziv编码器在像素域以及后来发展的变换域进行编码[5-6]。Baron、Duarte等人在2009年提出了分布式压缩感知[7],这使得将压缩感知应用到分布式视频编码中成为了可能。Prades-Nebot等人于2009年首次提出一种分布式视频压缩感知,其中关键帧的编解码采用传统的H.264帧内编解码,但是在非关键帧中采用了压缩感知技术,这两种不同的编码方式无疑增加了系统复杂度[8]。随后,Kang等人提出更为彻底压缩视频感知算法,将关键帧也用压缩感知进行采样编码,初步构建了目前压缩视频感知的基础理论与基本框架[9]。图1给出了目前压缩视频感知的基本框架。
图1中可以看出目前压缩视频感知中关键帧与非关键帧都采用分块压缩采样的方法,只是关键帧的采样率更高一点。这样对于关键帧可以采用普通静态图像的重建方法进行较为高质量的重建,对于非关键帧目前较多采用参考帧与当前帧观测向量的联合空时域的重建,文献[10]对此做了较为系统的研究与阐述。
图1 压缩视频感知框架
众所周知,近10多年来,对于压缩感知的理论研究以及其应用领域都有了很大的发展,人们似乎忽略了在数字信号处理领域很重要的一步:量化。量化性能的好坏直接关系整个数字信号系统的性能好坏,在视频压缩领域,量化技术关系到视频压缩的率失真优化、压缩效率等重要性能参数。因此,一种高效、简单的量化器是压缩视频感知中必不可少的一环。当前,在压缩视频感知中主要使用简单非均匀量化、基于DPCM的非均匀量化等。近两年来,有学者逐步关注了压缩采样后,数据的量化问题,文献[11]提出了一种Analysis-by-Synthesis量化器,文献[12]分析了量化对于压缩视频感知的影响。上述方法,尤其是Analysis-by-Synthesis量化器,对于重建图像的质量几乎接近了利用无限精度采样数据重建的图像,可惜的是它在量化时需要迭代,计算复杂度很高,在计算资源有限的情况下,图像质量并不是CVS最关注的。本文结合文献[13]中的DPCM方法和最佳标量量化准则,对压缩采样的数据特性进行分析后,设计了一种高效、简单的量化器,提升了文献[14]中所提CVS的性能。
在图1所示的主流的压缩视频感知系统中,考虑到图像尺寸、硬件编码器的实现以及码流的实时传输等因素,对图像均采用了分块测量的方法。正如上文所述,各类采样以及重建算法层出不穷,但是关于量化器的设计却鲜有人关注。文献[13]与文献[14]提出了一种直接、高效的量化方法,它将DPCM和均匀标量、非均匀量化结合起来应用在图像块划分测量系统中,在实时性以及RD性能上都有不错的表现。
现简单描述该算法在图像分块测量系统中的应用。首先将图像分割成互不相交的N×N大小的块,这样就可以得到M个N×N的Y分量矩阵(以Y分量为例),此时将N×N的矩阵转为一维向量,用xn表示。由式(2)可得当前块的观测值为yn,以此类推可以得到下一个块的测量值yn+1,具体量化过程如图2所示。
图2 基于DPCM的量化器框架
从图2中可以看出,量化器将当前块的测量值减去预测值,得到残差,将残差进行量化输出如式(4),需要注意的是量化器对残差是进行单个残差数值的标量量化,而不是直接对残差向量进行矢量量化。另一方面,对残差进行反量化,得到下个块的预测值如式(5):
由于图像中相邻块有较强的相关性,文献[13]证明了图像中相邻块在观测域中也存在很强的相关性。故引入DPCM可以消除观测域中的冗余,在相同的量化位宽下,PSNR通常比直接量化高6 dB左右[13]。
众所周知,具有均匀概率密度分布的数据源几乎是不存在的,故而在设计量化器时要对数据源进行分析统计,根据其概率密度分布来设计量化步长。本文中需要量化的为DPCM系统中的残差数据dn+1即:
式中yn+1为下一个观测值,y′n为当前预测值,它可以表示为当前观测值加上量化误差:
结合式(6)和式(7)就可以得到本文中需要量化的数据dn+1。式(7)中的量化误差en用白噪声模拟,其方差按照信噪比为30 dB计算得到。由于图像分块测量系统中DPCM量化器是对dn+1中每一个数分别进行标量量化的,故而将dn+1看成一个数据集合{ }dn+1,作为绘制残差数据概率密度的样本,用残差数据d表示。本文选取HEVC中部分测试序列中的第一帧作为测试图像,经文献[14]中CVS框架进行压缩观测,经DPCM系统后得到的残差数据,再绘制其概率密度函数曲线。选取两个序列的概率密度函数曲线如图3所示。
图3所示的概率密度函数与文献[13]和文献[14]中所展示的一样,其在残差数据服从高斯分布的基础上,使用u律设计量化器码书。本文对进一步残差数据进一步分析。
本文使用Kolmogorov-Smirnov检验(下称K-S检验)进行假设检验。K-S检验是一种非参数检验,它能够推断出样本是否来自某个服从分布的总体,是一种拟合优度的检验方法。具体而言,是以样本数据的累计频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自某特定分布。本文在显著性水平α为0.05时,提出假设检验问题,假设如下:
H0:残差数据d不服从高斯分布
H1:残差数据d服从高斯分布
令F0(x)为理论分布的分布函数,Fn(x)表示随机样本的累计分布函数。在本文中首先对残差数据d进行参数检验,得到理论分布F0(x )的σ2和μ,然后令:
当D>D(n,α)时,则认为样本的累计分布与理论分布在显著性水平为0.05时有显著差异。其中D(n,α)为样本容量为n,显著性水平为α时的拒绝临界值,可以查表获得。具体的,F0(x)与Fn(x)如图4所示,可以看出残差数据d的累计分布与理论分布的曲线不重合。进一步计算得,K-S检验中D=0.061 9可得检验接收H0,即残差数据d不服从高斯分布。
图3 残差数据的概率密度
图4 累计分布函数与理论分布函数曲线
检验结果为拒绝H1,即残差数据d不服从高斯分布。根据劳埃德最佳标量量化器准则,量化器的设计需和被量化数据的分布特性相匹配才能使量化误差最小。故而,本文根据劳埃德最佳标量量化器准则来设计量化器,具体如下。
3.2节证明了CVS系统中,量化器的设计需要根据最佳标量量化准则来设计。这里使用表示量化输出值,用表示量化区间,即落在xi和xi+1间的值全部可以映射成yi,令输入信号的概率密度函数为p(x),量化误差准则为 f(x),那么量化误差D可以用式(9)表示:
对yi以及xi求偏导数,并令偏导数等于0可以得:
选用均方误差作为误差准则,那么由式(10)、式(11)可导出:
即量化区间与量化电平满足式(12)和式(13)时,量化器的均方误差最小。式(12)表明量化区间的端点为两个量化电平的中点,式(13)表明量化电平是其所在量化区间的质心,如图5所示。
图5 最佳量化器设计准则
根据上述劳埃德设计准则,给出量化器设计步骤:
(1)获得数据集,即对3.2节中残差数据d归一化到[-1,1]。该数据集用来计算待量化数据的概率密度函数。
(2)给定量化位宽N,由此获得初始码书C0如式(14),即码书中的量化电平从以为步长,步进到。由初始码书的生成方式可以看出初始码书为N均匀量化的码书。码书中每一个码字表示量化电平,根据劳埃德准则可以得到两个量化电平间的端点。
(3)根据码书Cm以及式(12)更新各量化区间的端点。
(4)根据步骤(3)得到的新的量化区间的端点以及式(13)更新码书到Cm+1,并计算该码书作为量化器码书的量化为误差Dm+1,一般用均方误差表示。式(13)中积分使用梯形数值积分方法计算获得。
(5)计算量化误差下降程度ΔD=(Dm-Dm+1)/Dm,如果ΔD低于某个阀值,这里给出经验值5%,则认为码书Cm+1为最佳量化器的码书,否则继续步骤(3)。
图6给出了均匀量化的码书相对于u律、本文量化器码书的映射曲线。
图6中可以看出本文提出的量化器码书与传统的u律区较大,结果也是证实了3.2节中的结论。
图6 量化码书映射曲线
本文从编码器的性能来评价量化器性能。其中对编码器的性能一般采用峰值性噪比差值(BDPSNR)、比特率差值(BD-Rate)两个客观指标来评判。实验选取不同尺寸、不同纹理特征以及运动特征不同的视频序列,以此验证量化器在不同类型的视频序列中的性能。实验中所用量化器码书是根据一定量的视频序列按照3.3节中所述方法训练而来。实际使用中可根据应用场景单独训练量化码书,性能会更好。表1给出了本文设计的量化器相比于文献[13]所提量化器在CVS中的性能比较。
从表1中可以看出本文所提的量化器相比于文献[13]所提的量化器性能要好很多,主要体现在编码器的压缩效率上。以Keiba序列为例,BDPSNR为0.17表明,相同的码率下,图像的PSNR比文献[13]高约0.17 dB;BD-Rate为10%表明,相同的图像质量下,码率比文献[13]要低10%。进一步给出两个有代表性的视频序列的Rate-Distortion曲线(RD曲线),如图7,其中Blowing-Bubbles色彩艳丽、纹理丰富、运动平稳;PKU_campus是AVS2监控档中的标清监控序列。
从RD曲线中可以看出,本文所提量化器对于编码器而言性能明显优于文献[13]所提的量化器。高码率时,图像质量趋向于一个极限值,这个极限值是和图像重建算法相关的,在同样的图像重建算法下本文所提量化器在较低码率下即可逼近图像质量的极限值。进一步分析PKU_campusAVS2监控档序列,这是个有代表性的监控序列,前者前景运动多样,背景稳定。可以看出本文所设计量化器对于监控视频的压缩效率有明显提升,对于普通的视频序列也有一定的提升。综合BDPSNR、BD-Rate以及RD曲线可以认为,本文所提量化器在性能上优于文献[13]所提的量化器。
本文介绍了压缩视频感知和分布式编码的发展状况、应用场景,并重点研究了压缩视频感知编码框架中量化器部分的设计,通过对压缩采样数据分布特性的研究,提出了一种基于DPCM的最佳量化器设计方法。实验结果表明,该量化器使得编码器的BD-Rate降低了14.2%,相同码率下PSNR提升了0.11 dB,大大提升了该CVS的编码性能。
不容忽视的是,当前压缩视频感知的压缩效率远远低于传统视频编码标准,但是考虑到其还没有成熟的编码标准与具体实现,以及其应用场景压缩视频感知的方方面面都有很多值得挖掘的地方,例如:编码端的熵编码、解码端的多帧参考、双向预测等等。下一步,一方面应该深入挖掘不同观测矩阵和变换矩阵对压缩采样数据统计特性的影响,设计出更加高效的量化器和熵编码器提升编码器性能;另一方面,需要利用视频序列的时间相关性,充分挖掘帧间的信息参考,进一步降低重建图像所需的信息量,使得CVS在保持编码端实时采样编码的前提下,降低其码率,提高压缩效率。
表1 与文献[13]所提量化器性能对比
图7 Rate-Distortion曲线
参考文献:
[1]Candès E J,Wakin M B.An introduction to compressive sampling[J].IEEE Signal Processing Magazine,2008,25(2):21-30.
[2]Sankaranarayanan A C,Studer C,Baraniuk R G.CS-MUVI:Video compressive sensing for spatial-multiplexing cameras[C]//2012 IEEE International Conference on Computational Photography(ICCP),2012:1-10.
[3]Haixiao L,Bin S,Hao Q,et al.A dictionary generation scheme for block-based compressed video sensing[C]//2011 IEEE International Conference on Signal Processing,Communications and Computing(ICSPCC),2011:1-5.
[4]Girod B,Aaron A M,Rane S,et al.Distributed video coding[J].Proceedings of the IEEE,2005,93(1):71-83.
[5]Aaron A,Zhang R,Girod B.Wyner-Ziv coding of motion video[C]//The Thirty-Sixth Asilomar Conference on Signals,Systems and Computers,2002:240-244.
[6]Brites C,Ascenso J,Pereira F.Improving transform domain Wyner-Ziv video coding performance[C]//Proceedings 2006 IEEE International Conference on Acoustics Speech and Signal Processing,2006.
[7]Baron D,Duarte M F,Wakin M B,et al.Distributed compressive sensing[J].arXiv preprint arXiv:0901.3403,2009.
[8]Prades-Nebot J,Ma Y,Huang T.Distributed video coding using compressive sampling[C]//2009 Picture Coding Symposium(PCS 2009),2009:1-4.
[9]Kang L W,Lu C S.Distributed compressive video sensing[C]//2009 IEEE International Conference on Acoustics,Speech and Signal Processing,2009:1169-1172.
[10]李然.图像与视频压缩感知研究[D].南京:南京邮电大学,2014.
[11]Shirazinia A,Chatterjee S,Skoglund M.Analysis-by-synthesisquantization forcompressed sensing measurements[J].IEEE Transactions on Signal Processing,2013,61(22):5789-5800.
[12]Baig Y,Lai E M K,Lewis J P.Quantization effects on compressed sensing video[C]//2010 IEEE 17th International Conference on Telecommunications(ICT),2010:935-940.
[13]Qian C,Zheng B,Lin B.Nonuniform quantization for block-based compressed sensing of images in differential pulse-code modulation framework[C]//2014 2nd International Conference on Systems and Informatics(ICSAI),2014:791-765.
[14]Li R,Liu H,Xue R,et al.Compressive-Sensing-Based video codec by autoregressive prediction and adaptive residual recovery[J].International Journal of Distributed Sensor Networks,2015:151.
[15]Lloyd S.Leastsquaresquantization in PCM[J].IEEE Transactions on Information Theory,1982,28(2):129-137.