尹其文
(上海海事大学 信息工程学院,上海 201306)
SHVC中帧内预测快速算法的研究
尹其文
(上海海事大学 信息工程学院,上海201306)
可分级高效视频编码(SHVC)可实现对视频序列的分层编码,正是因为实现了分层编码,编码的时间复杂度也会大大增加,尤其是在帧内预测过程中,需要从35种模式中通过率失真优化(RDO)选出最佳预测模式。为了加速增强层(EL)帧内预测模式的决策进程,基于当前预测单元(PU)与基本层(BL)相同位置PU,以及与BL中相同位置或EL中当前PU空间上相邻的PU的帧内预测模式的相关性,提出帧内预测模式快速决策算法。实验结果表明:在保证视频质量基本不变的情况下,相比较于SHVC的标准SHM-9.0而言,能减少大约40%~50%的时间。
SHVC;BL;EL;PU;相关性
可伸缩视频编码已经被研究并标准化20多年了,但是可伸缩视频编码从来没有像非可伸缩视频编码一样被广泛商业化,即使对它的研究已经很成熟,但在商用时还是处处受限,其主要的原因在于其实现的复杂度。非可伸缩视频编码实现起来较简单,并且易懂,不需要繁琐的上采样或下采样的流程和多层编码机制。相比非可伸缩视频编码,可伸缩视频编码的实现要困难得多。因为可伸缩视频编码提供了把视频编码成多层的机制,其中每一层是在相同场景下不同质量的代表。BL代表最低质量层,只有唯一的一个,通过参考BL可以编码一个或者多个EL,往后每一个EL代表更高层次的视频质量,以此来一步步提升视频的质量。可伸缩视频编码的优点在于不管是将视频序列编码成多少层,传输码流的方式还是一样的,将不同层的码流融入进一支码流中,在解码端,可以根据不同的网络和硬件设备条件,来提取其中所需的码流。但是正是因为将视频编码成多层,每一层都需要用到帧内预测和帧间预测,尤其是在帧内预测时,每一个PU在进行帧内预测时都需要从35种模式中选出一种最佳预测模式,因此时间复杂度也大大增加。
高效视频编码(HEVC)[1-2]的第二版本主要分为:SHVC[3-4]、3D-HEVC、MV-HEVC,其中3D-HEVC更适用于深度图的编码,MV-HEVC更适合于多视点编码,而SHVC是可伸缩编码,可以广泛应用于网络不稳定、带宽不够或者终端设备差异性较大情况下的编码,其应用范围相对于其他两个来说更广。
在SHVC的发展过程中,吸取了以前的经验教训,改变了常规可伸缩视频编码的模式,重复利用多个单层HEVC核和仅改变高层语法的HEVC*编码器来实现可伸缩视频编码架构。这样一来,在可伸缩视频编码的架构中,可以在技术改进很小的情况下去实现可伸缩编码。SHVC的编码架构中,BL使用的是HEVC编码器或AVC[5-6]编码器,在EL中使用的是HEVC*编码器,所谓HEVC*编码器,也就是对HEVC编码器进行了高层语法的改动之后形成的编码器,用于编码除BL外的所有EL,这些高层语法改动用以通知有关层依赖性的必要信息。因此,SHVC一问世,就受到了广大专家的推崇与认可,其商用价值也是最被看好的。虽然SHVC目前还没有大量应用于实际当中,但是其所采用的各项新技术已经预示着SHVC将会成为取代HEVC的主流多媒体编码标准。
SHVC是目前视频压缩编码研究中的一块热领域。它继承了HEVC的35种帧内预测模式,如图1所示,其中包括33种角度模式、一种DC模式和一种PLANAR模式。对于每一层中的每一个PU,SHVC标准都会依次实施这35种模式(如图1),然后对其结果进行率失真优化(RDO)[7]选出该帧图像的EL中此PU的最佳帧内预测模式。这相比较于AVC或者HEVC来说,复杂度大大增加,时间性能下降。因此,为了在保证视频质量和良好的用户体验的基础上,改善SHVC的时间性能,出现了一系列的帧内预测快速算法。
图1 35种帧内预测模式
文献[8-9]提出了对SVC帧内预测的快速决策算法,算法总体思想就是根据BL和EL的相关性来减少EL帧内预测的候选模式,但是由于SVC与SHVC的帧内预测的模式不相同,SHVC的角度模式进一步细化了,因此此类算法无法应用于SHVC,但是此类算法利用BL与EL的相关性的思想可以加以借鉴。
文献[10-11]提出了对HEVC的快速决策算法,应用提出CU分割决策方案来跳过一些不必要的CU位深查询。这类跳过算法是基于对当前CU或时间或空间上相邻的CU的位深的分析来提出的。SHVC中,可以利用BL的CU位深来快速选出EL的CU大小。
文献[12-14]提出了针对SHVC帧内预测的快速算法,文献[12]是在EL中仅仅对同位BL的帧内预测模式及其相邻的帧内模式进行RDO来得出最佳预测方案,这种方案的明显缺陷在于无法保证预测模式的多样性,但是可以在EL中利用同位BL的帧内预测模式的信息;文献[13]和文献[14]都提出了一种由粗到精的帧内预测模式决策方案,都是首先按照某种算法从35种帧内预测模式中选出几种,然后对其进一步精确化,最后得出最佳的模式。
总言之,以前的各种算法各有其优缺点,都可以在时间性能上得到改善,但是可能会造成其他方面的缺陷,比如PSNR的大幅度降低,或者BD-rate的大幅度减小,又或者没有充分利用空间上相邻的PU的模式相似性,这些都会影响视频本身的质量或者没有充分节省时间。
事实上,BL的图像是按照一定的缩放因子从EL进行下采样获得的,因此,BL与EL的图像具有相似的纹理和结构信息[15-16]。有理由相信,EL与BL的PU分割方式是非常相似的,因此,大胆推测EL与BL中同位置PU的帧内预测模式(BLM)是相似的。表1的数据表明,这种推测是合理的,其中BLM-1表示与BLM模式左边相邻的模式,其他的以此类推。特别说明,没有将PLANAR模式和DC模式作为统计考虑的对象,因为它们不是角度模式,没有相邻模式。
表1 空间可伸缩下EL的PU与BL中相同位置的PU的帧内预测模式的相关性 (单位:%)
此外还用到了EL中与当前PU空间上相邻的PU的帧内预测模式(ELM)的相关性,将其作为候选模式的其中一个要素,假定当前PU左边有两个PU块,帧内预测模式分别为:ELM左、ELM左上,上边有两个PU块,预测模式分别为:ELM上中、ELM上右。表2表明,其逻辑是合理的。
表2 空间可伸缩下EL的当前PU与EL中空间相邻的PU的帧内预测模式的相关性 (单位:%)
另外,还用到了与BL中相同位置PU空间上相邻的PU的帧内预测模式(BLM)的相关性,作为候选模式的另外一个要素,同样假定BL中同位置PU左边有两个PU块,帧内预测模式分别为:BLM左、BLM左上,上边有两个PU块,预测模式分别为:BLM上中、BLM上右。表3表明,该逻辑是合理的。
表3 空间可伸缩下EL的当前PU与BL中同位置空间相邻的PU的帧内预测模式的相关性 (单位:%)
基于对以上数据和其他各种快速算法的整理与分析,本文利用EL中当前PU与BL中同位置PU,以及与BL中相同位置或EL中当前PU空间上相邻的PU的帧内预测模式的相关性提出自己的算法,流程图如图2,提出的算法包括以下几个步骤:
(1)根据PU的纹理与结构信息,计算33种角度模式的Hadamard变换的绝对值差和(SATD),然后根据SATD的大小排序得出SATD排序中较小的5种帧内预测模式;
表4 空间可伸缩下视频序列的R-D性能、时间复杂度减少以及比特率(SHM标准与本文提出的算法)
(2)对这5种帧内预测模式的相邻模式(相邻模式最多可能10种)计算出SATD;
(3)对PLANAR、DC、BLM模式计算出SATD;
(4)找出同位BL的PU块的左边和上方相邻PU块的预测模式(BLM左、BLM左上、BLM上中、BLM上右),计算出SATD;
(5)找出EL中当前PU块的左边和上方相邻PU块的预测模式(ELM左、ELM左上、ELM上中、ELM上右),计算出SATD;
(6)对上述5个步骤的结果的SATD进行排序生成一个长度为N的序列;
(7)对N个候选模式分别进行RDO,RDO最小的即为最佳候选模式。
图2 本文提出的帧内预测算法流程图
本方案仿真是实验室环境,采用Win10系统,4 GB内存,CPU为i7-5500U的计算机,安装的软件是Microsoft Visual Studio 2010,从八大类序列中抽取了七大类(CGS一般用于色域可伸缩情况),每类中抽取1~2个测试序列,所有序列均为4:2:0YUV序列,分别为BasketballDrive,最高分辨率为1 920×1 080; BQTerrace,最高分辨率为1 920×1 080;Cactus,分辨率为1 920×1 080;Kimono,最高分辨率为1 920×1 080;ParkScene,最高分辨率为1 920×1 080;PeopleOnStreet,最高分辨率为2 560×1 600;Traffic,最高分辨率为2 560×1 600。其中只有PeopleOnStreet和Traffic没有2x配置文件,其他的均是采用了1.5x和2x两种配置文件来进行仿真的。特别说明,其中最高分辨率指的是EL的分辨率,对其进行下采样之后可以得到相应的BL的分辨率。
为了验证提出的算法的合理性,基于以上基础,采用的代码为SHM-9.0,严格按照JCT-VC[17]提出的共同测试环境。
实验结果如表4所示。
注:(1)
(1)
Tproposed为本文提出算法的时间,TSHM为SHM-9.0标准算法的时间。
(2)
PSNR=PSNRproposed-PSNRSHM
(2)
PSNRproposed为本文提出算法的PSNR,PSNRSHM为SHM标准算法的PSNR。
从表4的结果可以看出,本文提出的算法与SHVC标准SHM-9.0相比,在保证视频质量基本不变或者降低很微小的前提下,实现时间大幅度减少。相比较于SHVC的标准SHM-9.0而言,对1.5x序列PSNR的平均降低控制在0.08 db内,平均时间达到了45.9%的减少;对2x序列,PSNR平均降低了0.06 db,实现了平均时间43.7%的减少。
本文提出的针对帧内预测模式的快速算法,其原理是基于当前PU与BL相同位置PU,以及与BL中相同位置或EL中当前PU空间上相邻的PU的帧内预测模式的相关性。仿真结果表明:在保证视频质量基本不变的情况下,相比较于SHVC的标准SHM-9.0而言,能减少大约40%~50%的时间,这也证明了算法的有效性。
[1] SJOBERG R,Chen Ying.Overview of HEVC:high-level syntax and referencs picture managemant[J].Institute of Electrical and Electronics Engineers(IEEE),2012,22(12):1858-1870.
[2] ZHANG Y F,WANG H B,LI Z.Fast coding unit depth decision algorithm for interframe coding in HEVC[J].Data Compression Conference (DCC),2013,113:53-62.
[3] BOYCE J M,Ye Yan,Chen Jianle, et al.Overview of SHVC:scalable excetion of the hign efficiency video coding(HEVC) standard[J].IEEE Transactions on Circuits & Systems for Video Technology,2016,26(1):20-34.
[4] 卢鑫,林茂六,金雪松等.新一代可伸缩视频编码标准:背景、特征、技术及其应用[J].电子测量与仪器学报,2015,29(10):1415-1424.
[5] LI G L,CHEN M J,LI H J,et al.Efficient search and mode prediction algorithms for motion estimation in H.264/AVC[C].Kobe, Japan: Proceeding of IEEE International Symposium on Circuits and Systems(ISCAS),2005,5:5481-5484.
[6] LAUDE T, Xiu Xiaoyu,Dong Jie,et al.Scalsble extension of HEVC using enhanced inter-layer prediction[J].IEEE International Conference on Innage Processing,2015:3739-3743.
[7] ZHU X,HONG W,XU H,et al.Spatial quality index based rate perceptual-distortion optimization for video coding[J].Journal of Visual Communication & Image Representation,2016,291:423-434.
[8] SEGALL C A, SULLIVAN G J.Spatial scalability within the H.264 AVC scalable video coding extension[J].IEEE Transactions on Circuits and Systems for Video Technology, 2007,17(9):1112-1135.
[9] KHALEK A A,CARAMANIS C, HEATH R W.A cross-layer design for perceptual optimization of H.264/SVC with unequal error protection[J].IEEE Journal on Selected Areas in Communications,2012,30(7):1157-1171.
[10] ZHAO L,ZHANG L,MA S,et al.Fast mode decision algorithm for intra prediction in HEVC[J].ISCAS,2011,37:1-4.
[11] SHEN X L,YU L,CHEN J.Fast coding unit size selection for HEVC based on Bayesian decision rule[J].Picture Coding Symposium (PCS),2012,29:453-456.
[12] BAILLEUL R, COCK J D.Fast mode decision for SNR scalability in SHVC digest of technical papers[C].IEEE International Conference on Consumer Electronics,2014:193-194.
[13] FRANÇOIS E,SHI S,GISQUET C,et al.Non-SCE1:simplification of intra mode coding in SHVC[C].JCT-VC M0115 Apr.2013.
[14] Zuo Xuguang,Yu Lu.Fast mode decision method for all intra spatial scalability in SHVC[C].IEEE,2015:394-397.
[15] 雷海卫,刘文怡,王安红.3D-HEVC中深度图帧内预测模式判决过程的改进[J].电子技术应用,2016,42(10):116-119.
[16] 罗国成,余彪,刘进,等.基于小波变换的新型帧内模式预测快速选择算法[J].微型机与应用,2013,32(25): 32-34.
[17] SEREGIN V,HE Y.Common SHM test conditions and software reference configurations[S].JCT-VC P1009,Jan.2014.
Fast algorithm for intra prediction in SHVC
Yin Qiwen
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306,China)
Scalable High Efficiency Video Coding (SHVC) can achieve hierarchical coding of video sequences,because of the realization of the hierarchical coding,the prediction of the time complexity will be greatly increased,especially in the intra prediction process,because of selecting the best mode from 35 models.In order to accelerate the intra prediction mode decision process in the enhancement layer (EL),based on the correlation of the intra prediction mode among the current prediction unit (PU),the PU in the same position of the base layer (BL) and the PU in Spatially adjacent of BL or EL,proposed the fast decision algorithm for intra prediction mode.The experimental results show that the time reduction of about 40%~50% can be achieved compared with SHVC standard SHM9.0 when the video quality is basically the same.
SHVC; BL; EL; PU; correlation
TP391
A
10.19358/j.issn.1674-7720.2017.21.013
尹其文.SHVC中帧内预测快速算法的研究J.微型机与应用,2017,36(21):41-44.
2017-04-14)
尹其文(1992-),男,硕士研究生,主要研究方向:视频压缩编码,新一代可伸缩视频编码(SHVC)的帧内预测算法的优化。