整体压缩高清视频的可伸缩编码算法

2016-12-22 06:27张云舟
中北大学学报(自然科学版) 2016年5期
关键词:压缩率层间金字塔

张云舟,张 陌,张 刚

(1. 三亚中科遥感研究所,海南 三亚 572029; 2. 太原理工大学 信息工程学院,山西 太原 030024)



整体压缩高清视频的可伸缩编码算法

张云舟1,2,张 陌2,张 刚2

(1. 三亚中科遥感研究所,海南 三亚 572029; 2. 太原理工大学 信息工程学院,山西 太原 030024)

高清视频从一层原始信号出发,通过降采样产生多层影像,其各层数据是同一场景的不同分辨率表现,存在高度相关,目前各种压缩算法忽略了这种层间相关性. 本文针对高清视频引入层内-层间搜索机制,探索一种从整体上压缩金字塔的可伸缩的层间压缩编码I-LC,其预测残差能量比传统帧内-帧间搜索方法更低. I-LC降采样部分利用纹理滤波TDFA层内搜索,有效去除了影像数据的层内纹理相关,类似于H.26x 的帧内压缩; I-LC升采样部分形成了原始信号的一个高精度逼近,可以去除图像的层间相关性,相当于H.26x的帧间压缩. I-LC将这两个手段与传统的DCT,量化和游程编码等结合在一起,把空间金字塔作为一个整体进行压缩,重建PSNR高于36 dB时,压缩率比传统AVS的I帧编码提高103.05,压缩效率相当于H.265或AVS2.

层间压缩; 高清视频; 重采样滤波对偶; 纹理滤波; 可伸缩编码

高清数字视频编码从超高清(7 680×4 320)原始信号出发,通过降采样产生多层金字塔影像[1-5],诸如H.265或AVS2压缩编码的目标是提供直到SQICF(128×96)多达6层的压缩处理[6-8]. H.264(或AVS)的可伸缩编码基于帧间处理技术[9-10],利用运动补偿参数的层间相关性提高压缩率,可提供0.2 bit/像素的压缩效率. 帧间可伸缩编码的缺陷是重建影像质量在高层衰减严重,目前尚未应用到H.265或AVS2[11]. 对于运动剧烈的影像,帧间编码会引入大量I帧预测模式,产生I帧模式占比极高的甚至全I帧码流. 全I帧压缩可以产生高质量的重建影像,但压缩率μ(一幅图片压缩前后尺寸之比)难以满足视频编码要求. 若全I帧可伸缩编码能够达到H.265或AVS2的压缩率水平,即0.1 bit/像素(或亮度0.06 bit/像素),则可用作高清数字视频的可伸缩编码.

利用降采样生成的金字塔各层是同一场景不同分辨率的呈现,存在高度相关,现有各种可伸缩编码都忽略了层间相关性. 本文提出一种可伸缩层间压缩算法I-LC(Inter-Layer Compression),以全I帧方式高效率去除高清视频金字塔的层间相关,其亮度图像重建PSNR高于36 dB时,压缩率μ可达128.65(或亮度0.06 位/像素),满足H.265或AVS2压缩目标.

1 层间预测

本文的层间预测方法采用“降采样+升采样”的重采样滤波对偶RSFP(Re-Sampling Filter Pair),原理如图 1 所示[12].

图1 滤波对偶RSFP原理

RSFP对原始影像P(n)降采样生成高一层数据P(n+1),然后再对P(n+1)升采样,产生当前层原始影像的一个预测P′(n),以及预测残差e(n)=P(n)-P′(n),e(n) 能量的大小反映了RSFP的预测效果. RSFP升采样选用AVS的1/2插值滤波器,降采样采用纹理方向滤波TDFA(Texture Direction Filtering Approach). 下面以亮度信号为例阐述TDFA的基本原理.

TDFA对每个8×8块在水平、 垂直、 直流、 135°和45°这5个方向中搜索,确定一个滤波方向. 纹理搜索的距离采用绝对差值之和SAD(Sum Absolute Difference). 对于2个不同的8×8块x和y

SAD(x,y) =∑ij∣xij-yij∣.

假定一个8×8块x的像素矩阵为

由x可生成水平、 垂直、 135°、 45°和直流5种方向的纹理矩阵A,B,C,D和E,其元素分别为

将A和B的对应元素加权平均形成直流矩阵E,代表一种无方向的纹理. 以及

若与x最小距离块分别为A,B,C,D或E, 则块x的纹理方向分别对应着水平、 垂直、 135°、 45°或直流. 在块x内部用一个3阶滤波器,沿着纹理方向实施降采样. 参与滤波的样点包括像素自身,以及按如下方式确定的另外2个样点.

水平纹理:同1行左右各1个像素;

垂直纹理:同1列上下各1个像素;

直流纹理:左边和上边各1个像素;

135°纹理:上左和下右各1个像素;

45°纹理:上右和下左各1个像素.

取Crew的100帧影像共633 600个8×8块作为实验数据,分别用RSFP和AVS的I帧算法求出预测残差e(n). 对e(n)作DCT变换,其直流分量DC是e(n)的能量. 图 2 是I-LC的RSFP预测器和AVS的I帧预测算法的DC分布曲线. 其横坐标是DC的取值,范围在[-3 000, 3 000],以步长60划分子区间; 纵坐标是DC的取值在每个子区间的占比.

图2 直流分量分布曲线对比

由图 2 知本文的RSFP预测效果优于AVS的I帧预测算法.I-LC的DC动态范围是±200,而AVS的I帧是±2 000; 残差能量占比也集中趋向0值附近,落在[-30, 30]内的占比超过了39%,而后者在7%左右. 这说明小能量残差的比率显著增加,有利于后续量化压缩. 测试其它3组数据(Ice、Harbor和Soccer),结果基本相同.

2 层间压缩

2.1 I-LC原理

I-LC压缩方案的整体结构见图 3,其中编码过程包括DCT变换、 量化和熵编码.

当前层P(n)经RSFP降采样得到上一层P(n+1),再经RSFP升采样得到预测信号S(n)以及预测残差

e(n)=P(n)-S(n),

e(n)经DCT变换、 量化、 熵编码得到输出E(n),类似方法处理其余各层获得金字塔全部输出. 因最高层P(l+m)数据量是第l层的1/4m,当总层数m足够大时,P(l+m)占比很小,可不作压缩直接存储.

图3 I-LC原理

2.2 I-LC编码算法

I-LC编码器的工作流程见图 4.

首先降采样处理每一层,得到金字塔各层影像数据P(n). 令最高层P(m)为当前层重建数据P′(n),从最高层开始升采样当前层重建数据P′(n)得到下一层预测信号S(n-1),当前的层数n减1. 对该层预测残差e(n)作DCT变换,量化和熵编码形成该层输出E(n). 随后对E(n)解码,逆量化和逆变换产生该层重建预测残差e′(n),加上S(n)得到新的一层重建数据P′(n). 由于I-LC仅压缩高清视频各层的预测残差,因此压缩效率很高.

2.3 I-LC解码算法

I-LC解码器的工作流程见图 5.

首先确定解码观察的目标层数l和金字塔最高层层号m,令n=m-1,上一层重建数据P′(n+1)是未经压缩的顶层数据P(m). 升采样P′(n+1)得到当前层预测信号S(n); 取出存储的当前层输出信号E(n)并进行熵解码,逆量化和逆DCT变换,得到当前层重建预测残差e′(n); 当前层重建信号P′(n)=S(n)+e′(n). 对无损压缩有e′(n)=e(n)以及P′(n)=P(n). 重复此过程直到各层数据均被重建.

比较图 4 和图 5,发现I-LC编码器内部嵌入了一个解码器,这样可使重建信号P′(n)在编码侧和解码侧同步,避免编码误差随层数的增加而积累.

图4 I-LC 编码流程图

图5 I-LC 解码流程图.

3 试验结果

为测试I-LC的压缩效果并与AVS的I帧算法比较,取4组实验数据(crew,harbor,ice和soccer)每组200帧,亮度数据尺寸压缩前为407 808B/帧. 分别用I-LC和AVS的I-帧算法压缩这些亮度数据并计算PSNR和压缩率μ,实验结果见表 1 和图 6.

图6 PSNR和压缩率曲线对比

表1 I-LC和AVS-I的压缩效果

从表 1 看出,QP取0时两种压缩算法都是近无损的,但I-LC的压缩率μ略高于AVS-I. 对确定的QP,I-LC的PSNR和μ都优于AVS-I,当QP大于23时,优势呈迅速扩大的趋势.

I-LC在μ为100(QP=43)时,PSNR为36.75 dB,而同样的QP取值,AVS-I的PSNR已经降到34 dB以下,而且μ不及I-LC的1/2,仅为44.81.

对于视频压缩应用,重建PSNR应高于36 dB. 此时I-LC的μ可达128.65(QP=46,亮度0.06 bit/像素),而AVS-I的μ仅为25.60(QP=38,亮度0.31 bit/像素),压缩率不及I-LC的20%.

视频压缩时,色度信息的比重低于亮度数据,因此可伸缩编码算法I-LC有望获得全彩色0.1 bit/像素的压缩效率,这是H.265和AVS2的目标,但后者不具有可伸缩能力.

4 讨论与结论

本文提出一种全I帧可伸缩图像编码方案I-LC,可用来整体压缩高清视频金字塔影像. I-LC利用纹理滤波TDFA消除金字塔数据的层内纹理相关,类似于H.26x的帧内压缩; 利用重采样滤波对偶RSFP去除金字塔数据的层间相关,相当于H.26x的帧间压缩,改善压缩效果相当明显.

分析I-LC的计算复杂性,首先I-LC用一个3阶滤波器生成金字塔,运算量相当于双三次滤波,而搜索纹理方向的原理类似于H.26x或AVS的I-帧算法,计算复杂度与其相当. 其次I-LC采用AVS的1/2插值算法升采样,运算量远低于H.26x的 1/2插值,仅占P帧计算量的很小比例; 而I-LC的其余部分包括DCT变换、 量化和熵编码等,是包括H.26x或AVS,JPEG和JPEG2000等任何压缩算法必须具备的[13-15]. 此外,一个m层金字塔数据总量不会超过原始影像的4/3.

当QP增加时,I-LC的层间预测效果对重建质量至关重要,优化RSFP可以显著提高I-LC压缩率. TDFA降采样滤波器性能仍有很大提升空间:这里的TDFA在一个8×8像素块中搜索5个纹理方向,可以选择更小如4×4像素块进行搜索,或者选择更多的搜索方向(H.265和AVS2有33个搜索方向),有望捕捉到更精细的纹理特征,这会进一步改善TDFA的降采样效果. 此外,I-LC层间预测残差主要集中在低能量范围,说明熵编码码字的概率分布已经改变,有必要重新训练它们并计算新的概率分布,然后重新分配熵编码每个码字的长度,可望进一步提高压缩率.

[1]Nasrollahi K, Moeslund T B. Super-resolution: a comprehensive survey[J]. Machine Vision and Applications, 2014, 25(6):1423-1468.

[2]Yuan H, Kwong S, Liu J, et al. A novel distortion model and lagrangian multiplier for depth maps coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 24(3):443-451.

[3]Peleg T, Elad M. A statistical prediction model based on sparse representations for single image super-resolution[J]. IEEE TIP, 2014, 23(6):2569-2582.

[4]Thapa D, Raahemifar K, Bobier W R, et al. Comparison of super-resolution algorithms applied to retinal images[J]. Journal of Biomedical Optics, 2014, 19 (5):056002.

[5]Wang J, Aidi W. Super-Resolution image reconstruction based on iteration and wavelet transform[J]. Journal of Communication and Computer, 2014, 287(1):39-44.

[6]Sullivan G J, Ohm J, Han W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2012, 22(12):1649-1668.

[7]Zhou J J, Zhou D J, Sato S G. Alternating asymmetric search range assignment for bidirectional motion estimation in H.265/HEVC and H.264/AVC[J]. Journal of Visual Communication and Image Representation, 2014, 25(5):1275-1286.

[8]Ma Siwei, Huang Tiejun, Reader C, et al. AVS2 making video coding smarter[standards in a nutshell][J]. IEEE Signal Processing Magazine, 2015, 32(2):172-183.

[9]Van d A G, David P, Reisslein M. Traffic and quality characterization of single-layer videod streams encoded with the H.264/MPEG-4 advanced video coding standard and scalable video coding extension[J]. IEEE Transactions on Broadcasting, 2008, 54(3):698-718.

[10]Wei Z, Wu Y, Deng R H, et al. A hybrid scheme for authenticating scalable video codestreams[J]. IEEE Transactions on Information Forensics & Security, 2014, 9(4): 543-553.

[11]Sullivan G J, Ohm J, Han W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2012, 22(12): 1649-1668.

[12]张云舟, 张陌,王晋年, 等. TDFA:一种生成空间影像金字塔的方法[J]. 中国图象图形学报, 2016, 21(7):959-966. Zhang Yunzhou, Zhang Mo, Wang Jinnian, et al. TDFA:a generation method of spatial image pyramid[J]. Journal of Image and Graphics, 2016, 21(7): 959-966. (in Chinese)

[13]Thomas R. Image encoding methods and apparatus providing improved visual results[P]. US8559742B2, 2013.

[14]Wallace G K. The JPEG still picture compression standard[J]. Communications of the Acm, 1991, 34(4): 30-44.

[15]Tescher A G. JPEG vs. JPEG 2000:an objective comparison of image encoding quality[J]. Proceedings of SPIE Applications of Digital Image Processing XXVII, 2004, 5558:300-308.

A Scalable Coding Algorithm of Overall Compression HD Video

ZHANG Yun-zhou1,2, ZHANG Mo2, ZHANG Gang2

(1. Sanya Research Center Institute of Remote Sensing and Digital Earth (RADI) of Chinese Academy of Science, Sanya 572029, China;2. College of Information Engineering, Taiyuan University of Technology,Taiyuan 030024, China)

The multilayer image of HD video are produced by way of down-sampling from one layer of original signal, its each layer respectively is the presentation of the different resolution of the same scene, and there is a high correlation, but which has always been ignored by the various compression algorithms. This paper explored a high efficient scalable solution of inter-layer compression I-LC, whose intra-layer and inter-layer search mechanism make the energy of prediction error much lower than that of the traditional H.26x’s or AVS’s the intra-frame and inter-frame search, so it is a novel method of overall scalable compression of HD video. I-LC’s down-sampling part carry on the intra-layer texture search, and it is similar to H.26x’s intra-frame compression, which effectively remove the intra-layer texture correlation of image data; A high precision approximation to the original signal can be formed by the I-LC’s up-sampling part, and its prediction residual energy is very low, which can effectively remove the inter-layers correlation of the image data, and is equivalent to H.26x’s inter-frame compression. Combining these two means and the traditional DCT, quantization, and run-length encoding and so on, one frame of the HD video was carried the I-LC compression as a whole. At reconstruction PSNR was over 36 dB, I-LC’s compression ratio increased 103.05 than the AVS’s I-frame algorithm, which compression efficiency is equivalent to that of H.265 or AVS2.

inter-layer compression; HD Video; re-sampling filter pair; texture filtering; scalable coding

2016-04-05 基金项目:山西省自然科学基金资助项目(2013011017-3)

张云舟(1990-),男,助理研究员,博士,主要从事遥感信息处理和云存储技术的研究.

1673-3193(2016)05-0501-05

TP751.1

A

10.3969/j.issn.1673-3193.2016.05.012

猜你喜欢
压缩率层间金字塔
“金字塔”
沥青路面层间剪切性能研究
Great Vacation Places
基于双向精控动态加载系统的路面层间联结性能测试仪开发
基于ISS&SSDR的沥青路面层间疲劳寿命外因素综合影响预估
层间组合隔震结构随机动力可靠度分析
水密封连接器尾部接电缆的优化设计
缠绕垫片产品质量控制研究
某型飞机静密封装置漏油故障分析
金字塔是用金子造的吗