基于学习模型的3D-HEVC提前Merge模式终止算法

2019-07-26 02:33:36李跃杨高波丁湘陵朱亚培
通信学报 2019年7期
关键词:深度图视点复杂度

李跃,杨高波,丁湘陵,朱亚培

(1. 南华大学计算机学院,湖南 衡阳 421001;2. 湖南大学信息科学与工程学院,湖南 长沙 410082;3. 湖南科技大学计算机科学与工程学院,湖南 湘潭 411201;4. 衡阳师范学院物理与电子学院,湖南 衡阳 421002)

1 引言

随着3D内容获取和显示技术的快速发展,3D视频因其能提供更真实的视觉体验越来越受观众欢迎。3D视频数据由多个纹理视点及其相应的深度图(纹理视点的几何信息)组成。然而,与单个纹理视频相比,3D视频数据更多、更复杂。因此,高效压缩对于3D视频数据实时传输的应用非常重要[1]。

HEVC(high efficiency video coding)由 JCT-VC(joint collaborative team on video coding)开发并用于单个纹理视点压缩[2],为了进一步压缩 3D视频数据,JCT-3V(joint collaborative team on 3D video coding)在 HEVC的基础上进一步推出了针对 3D视频压缩的3D-HEVC压缩标准[3]。3D-HEVC编码的预测结构如图1所示。图1中,View轴表示编码的视点,Temporal轴表示每个视点在时序上的编码帧,基本视点(V0)为独立视点,其余视点(V1、V2)为非独立视点,Ti(i=0,1,2)为纹理视点,Di(i=0,1,2)为在Ti之后编码的深度图,P、B、I表示采用了不同技术的编码帧。为了进一步提高压缩效率,3D-HEVC采用了一些新的编码技术。例如,为减少视点间相关性,非独立视点编码采用了视差补偿预测(DCP, disparity compensated prediction)技术,特别对于深度图,它由锐利边缘分开的光滑区域组成。为了保护锐利边缘质量,进一步提高深度图编码的效率,采用了几种额外的编码工具,如DMM(depth modeling mode)[4]、DIS(depth intra skip)[5]、SDC(segment-wise DC coding)[6]和 VSO(view synthesis optimization)等。虽然这些先进的编码技术可以提高3D-HEVC纹理视点和深度图的压缩效率,但同时也增加了3D-HEVC的编码复杂度。因此,有必要研究快速编码方法以降低3D-HEVC编码器复杂度,同时保持编码性能基本不下降。

为了使3D-HEVC能应用于实时需求场景或者计算资源有限的场景,学者们提出了许多快速编码方法以降低3D-HEVC的编码复杂度,主要分为2种类型:帧内快速编码方法和帧间快速编码方法。

1) 帧内快速编码方法

已提出的帧内快速 3D-HEVC编码方法主要分为帧内快速 CU大小决策方法和帧内预测模式快速决策方法,主要采用基于相关性分析和基于机器学习的方法,进行快速CU大小和预测模式决策[7-8]。

图1 3D-HEVC预测编码结构

2) 帧间快速编码方法

3D-HEVC帧间快速方法同样可分为帧间快速CU大小决策方法和帧间预测模式快速决策方法,采用的方法主要是基于相关性分析和编码信息进行快速决策,相关性分析主要包括模式相关性、时空相关性、视点间相关性等,编码信息主要包括率失真代价(RD cost, rate distortion cost)、运动矢量(MV, motion vector)、编码块标记(CBF, coded block flag)等[9-17]。

例如,Shen等[10]提出利用时空相关性、视点间相关性、纹理深度相关性和层间相关性来加速3D-HEVC中的模式决策。类似地,Zhang等[11]根据空间-时间和视点间相关性来建立编码复杂度模型,然后根据复杂度模型提出2个低复杂度方法来降低3D-HEVC编码的复杂度。Tohidypour等[12]利用运动信息和RD cost,提出了一种用于3D-HEVC非独立纹理视点的复杂度降低方法。Zhang等[13]提出了一种基于运动同一性的快速方法,以降低3D-HEVC纹理视频编码复杂度,该方法包括提前CU大小决策、提前SKIP/Merge模式决策和自适应运动搜索范围调整。Li等[14]通过利用RD cost、CBF等编码信息相关性建立混合终止模型用于降低3D-HEVC非独立纹理视频编码复杂度。Chen等[15]利用视点间的纹理相关性,提出了一种快速3D-HEVC帧间模式决策方法。Lei等[16]利用灰度相似度和视点间相关性,提出了一种用于 3D-HEVC深度图编码的快速模式决策方法。Liao等[17]利用时空相关性及视点间相关性,提出了一种有效的帧间预测方法以降低3D-HEVC深度图编码复杂度。

由于在HEVC或3D-HEVC中,SKIP/ Merge模式是一种特殊的帧间预测模式,通常在背景或运动缓慢区域被选为最优模式,并且其不需要进行复杂的运动估计(ME, motion estimation)[18]以获得预测信息。因此,研究者提出了一些提前SKIP/Merge模式决策方法以降低编码复杂度。例如,Yang等[19]提出了一种提前 SKIP模式决策方法,该方法首先计算Inter_2N×2N和Merge模式,如果当前编码CU满足运动矢量差(MVD, motion vector difference)和Inter_2N×2N模式的残差都为零的条件,则跳过当前CU深度其余模式计算。其中,SKIP模式为Merge模式的一种特殊情况,既不计算ME也不编码残差。Li等[20]提出了一种单峰停止模型用于HEVC提前SKIP模式决策。Pan等[21]利用全零块(AZB, all zero block)和 Inter_2N×2N模式的运动信息,提出了一种提前Merge模式决策方法。利用视点间相关性,研究者提出了一些提前 Merge模式决策方法,分别用于3D-HEVC的非独立纹理视点[22-24]和非独立深度图[25]。Li等[26]通过建立概率模型,提出了一种提前Merge模式决策方法以降低3D-HEVC非独立视点编码复杂度。

然而,现有3D-HEVC提前Merge模式决策方法仍未充分探索所有纹理视点、深度图的独立视点和非独立视点的Merge模式提前决策。本文提出了一种基于残差的学习模型,用于所有纹理视点和深度图提前Merge模式决策,以降低3D-HEVC的编码复杂度。本文的主要贡献包括:1) 提取纹理视点和深度图的预测残差信号作为特征,其与传统的量化后残差系数不同;2) 建立学习模型,为每个P帧和B帧选择自适应阈值;3) 针对 3D-HEVC中的纹理视点和深度图,提出了提前Merge模式决策方法,该方法在保持编码性能的同时降低了编码复杂度。

2 问题分析

为了分析3D-HEVC中预测单元(PU, prediction unit)的预测模式的分布,采用 2个不同运动特性的视频序列进行测试,“GT_Fly”(1 920×1 088)为缓慢运动视频序列,“ Poznan_Hall2”(1 920×1 088)为快速运动视频序列。测试条件为:对于纹理视点和深度图,量化参数(QP, quantization parameter)分别设置为25、30、35和40,编码树单元(CTU,coding tree unit)大小为64×64。图2给出了纹理视点和深度图在不同QP下的Merge模式分布情况。从图2中可以看出,在纹理视点和深度图编码中,大部分Merge模式被选择为最优模式。随着QP的增加,对于纹理视点和深度图编码,Merge模式的百分比也逐渐增加。同时,对于不同的运动特性视频序列,非独立视点的Merge模式的百分比大于独立视点的Merge模式的百分比。特别地,对于具有缓慢运动的“GT_Fly”视频序列,超过75%和77%的CU分别选择Merge模式作为纹理视点和深度图编码中的最优模式。由于“Poznan Hall2”视频序列中包含快速运动对象,因此,在 QP=25时,仅有34%和54%的独立和非独立深度图选择Merge模式为最优模式。但是,在较大的 QP编码中,Merge模式的百分比仍然相对较高。在3D-HEVC的模式决策过程中,Merge模式都在其他模式之前进行计算,并且纹理和深度图视频序列中都存在大量的静止或运动缓慢区域,而这些区域大多选择Merge模式作为最优模式。因此,如果可以准确地提前终止Merge模式,则将跳过帧间和帧内的剩余模式计算过程,从而减少编码的计算复杂度。因此,可以设计合理的条件提前终止Merge模式决策,以减少编码时间。

图2 不同QP下纹理视点和深度图的Merge模式百分比

3 提前Merge模式决策方法

3.1 整体框架

本文提出的方法基于学习框架,其目标是提前终止Merge模式决策并且保持3D-HEVC纹理视点和深度图的编码性能基本不变。与传统的基于相关性分析方法不同,本文提出了一种新的基于残差的学习方法提前终止Merge模式决策。具体地,本文将提前Merge模式决策的过程建模为二元分类问题。因此,本文建立了一个基于残差的学习模型以确定Merge模式是否为最优模式。图3为针对每个CU深度i的提前Merge模式决策方法的流程。首先,计算每个CU深度i的Merge模式。然后,提取Merge模式的残差信号特征值,将其与学习模型的判定参数值进行比较,以确定当前CU深度i的Merge模式是否为最优模式。学习模型的决策参数值从先前已编码的最优 Merge模式中学习。

图3 提前Merge模式决策方法的流程

3.2 特征分析和提取

为每一个 CU深度i获得最优模式,所有预测模式m都需要通过式(1)计算其RD cost,即

其中,RDm、Dm、Bm和λ分别表示模式m的 RD cost、预测失真、编码比特率和拉格朗日因子。Q表示所有的帧间帧内预测模式。在式(1)中,编码比特率Bm也可以分为两部分,头部比特率和残差系数比特率。因此,式(1)可以重写为

其中,RS表示残差信号,f(D)和g(B)分别表示失真和残差系数比特率的正相关系数。然后,结合式(2)~式(4),模式m的RD cost计算可以重写为

根据式(5)可以得出结论,模式m的RD cost与残差信号具有很强的正相关关系。由于最优模式决策是基于模式的RD cost的大小进行判断的,因此将残差信号用作评估提前Merge模式决策的有效特征是合理的。本文将提前Merge模式决策过程建模为二元分类问题,分类方法是通过特征提取和决策参数学习更新。其中预测残差r(i,j)定义为

其中,ori(i,j)和pre(i,j)表示原始亮度像素值和预测模式亮度像素值,W和H分别表示 CU的宽和高。由于方差越小,该组中的数据越稳定;方差越大,该组中的数据越不稳定。因此,选择残差信号的方差2σ作为特征,计算式为

根据式(7)可知,当前预测模式的2σ值越小,原始像素值和预测像素值之间的失真越小。相反,当前预测模式的2σ值越大,原始像素值和预测像素值之间的失真越大。因此,如果当前预测模式的2σ很小,则可以提前终止当前模式。通常提出的方法中,采用量化后的残差信号进行快速模式选择,从式(2)可以看出,当量化残差信号时,它不能很好地反映失真Dm。同时,量化后的大部分残差信号将等于 0。因此,本文在量化之前使用残差信号,可以更好地表示预测失真。

3.3 基于学习的决策参数更新

提前Merge模式决策被定义为一个二元分类问题,需要预先设置决策参数以预测Merge模式的残差信号是否为最优预测残差信号,如果Merge模式的预测残差信号满足提前终止模式决策参数条件,则它将提前终止。通常,可以通过基于统计学习或机器学习方法来选择决策参数但是,决策参数需要大量的原始样本进行训练,这将会进一步增加编码的计算复杂度,同时也增加了编码硬件设计的难度。因此,本文提出了一种简单的学习方法来实现决策参数更新,它不需要统计实验,只采用一个原始编码的最优Merge模式数据进行训练,并且的值为自适应更新。图4给出了学习决策参数独立更新框架。为了避免不同QP的影响,决策参数在每个编码帧中重新进行更新,即在每个新编码帧的开始处初始化决策参数。不同CU深度i独立地更新决策参数即

图5 残差信号方差

3.4 基于学习模型的提前Merge模式决策

图4 学习决策参数独立更新框架

由于量化后的Merge模式的残差信号通常等于0,为了进一步提高提前Merge模式决策的准确性,将编码块标记(CBF)与式(10)进行组合,作为3D-HEVC中纹理视点和深度图编码的提前 Merge模式决策条件。根据文献[16],如果模式的CBF=0,则表示当前模式很有可能为最优模式。因此,纹理视点和深度图编码的提前Merge模式决策条件可表示为

4 实验结果及分析

4.1 测试条件

为了验证本文提出的提前Merge模式决策算法对 3D-HEVC中纹理视点和深度图编码性能的影响,将提出的算法集成到 3D-HEVC参考软件HTM16.2上实现,快速编码决策方法[22]和 DIS模式始终开启。采用通用测试条件进行评估[27],其中包括JCT-3V推荐的8个测试视频序列,用于评估所提出算法的效率,视频序列包括2个分辨率,分别是 1 024×768(Balloons、Kendo、Newspaper)和1 920×1 088(GT_Fly、Poznan_Hall2、Poznan_Street、Undo_Dancer、Shark)。每个测试视频序列包括3个纹理视点及其对应的深度图,测试序列的细节如表1所示。编码时间节约计算为

4.2 实验结果

表2~表4给出了本文提出的用于3D-HEVC纹理视点和深度图的提前Merge模式决策方法的编码性能,其通过纹理视点和深度图的编码时间减少和 Bjontegaard(BD-Rate)来测量[28]。表 2~表4中,video0、video1和video2分别表示单个纹理视点的BD-Rate编码结果,video PSNR/ videobitrate(V/V)表示所有编码纹理视点的BD-Rate编码结果,video PSNR/total bitrate(V/T)表示编码纹理视点和深度图的比特率之和的BD-Rate编码结果,synth PSNR/total bitrate(S/T)表示合成视点的 BD-Rate编码结果,TStexture、TSdepth和TStotal分别表示纹理视点编码时间节约、深度图编码时间节约和总编码(纹理视点和深度图)时间节约。

表1 测试视频序列

表2 本文提出方法的编码性能

表2给出了本文提出方法的编码性能。从表2可以看出,本文提出的方法可以有效地节省纹理视点和深度图的编码时间,同时保持所有测试纹理视点和深度图的相似的编码效率。对于纹理视点,本文提出方法的编码时间节约为 31.2%~50.1%,平均为 41.9%。同时,video0、video1和video2的BD-Rate平均增加了0.7%、0.8%和0.7%。对于深度图编码,编码时间节约为8.2%~30.6%,平均减少 24.3%。同时,总编码时间节约为28.9%~39.7%,平均为34.4%。V/V、V/T和S/T的BD-Rate平均增加了为0.8%、0.7%和0.8%。以上实验结果表明,本文提出的基于学习模型的提前 Merge模式决策方法可以有效地提前终止3D-HEVC中纹理视点和深度图的Merge模式决策。

为了进一步评估本文提出方法的性能,将其与提前Merge模式决策方法PanTB[20]、组合快速方法CBF+ESD[9,19]用于编码性能的客观比较。表3给出了PanTB方法与原始测试平台HTM16.2相比的性能。从表3可以看出,PanTB方法的纹理视点、深度图和总编码时间平均节约了 25.7%、12%和20.6%,video0、video1和video2的BD-Rate平均增加了0.3%、0.5%和0.5%,V/V、V/T和S/T的BD-Rate平均增加了0.7%、0.5%和0.5%。与PanTB算法相比,本文提出的方法可以进一步节约纹理视点、深度图和总编码16.2%、12.3%和13.8%的编码时间,同时保持相似的BD-Rate增加。

表3 PanTB方法的编码性能

表4 CBF+ESD方法的编码性能

表4给出了CBF+ESD[9,19]方法与原始测试平台HTM16.2相比的性能。从表4可以看出,CBF+ESD方法对纹理视点、深度图和总编码的编码复杂度平均降低了34.6%、5.7%和22.7%,video0、video1和video2的BD-Rate平均增加了0.6%、1.6%和1.7%,V/V、V/T和S/T的BD-Rate平均增加了1.0%、1.0%和0.8%。与CBF+ESD方法相比,本文提出的方法可以进一步节约纹理视点、深度图和总编码7.3%、18.6%和11.7%的编码时间,同时获得了更好的编码性能。

为了更直观地体现独立和非独立视点的编码时间节约,图6给出了PanTB、CBF+ESD和本文提出方法之间的编码时间节约对比。从图6中可以看出,本文提出的基于学习残差模型的提前Merge模式决策方法节约了更多的独立视点和非独立视点编码的编码时间。对于独立纹理视点编码,这些方法减少了几乎相同的编码时间。然而,对于独立和非独立的深度图编码,与PanTB和CBF+ESD方法相比,本文提出的方法可以为每个测试视频序列节约更多编码时间。特别是对于非独立纹理视点编码,PanTB方法增加了Poznan_Hall2的编码时间,原因在于PanTB方法中首先计算CU深度0处的Inter_2N×2N模式,然而,集成在3D-HEVC中的快速算法首先计算Merge模式并提前终止,这可能导致 Merge模式应该提前终止而没有提前终止,而PanTB方法中需要进一步计算Inter_2N×2N模式,从而增加编码时间。

为了验证本文提出的方法单独用于 3D-HEVC深度图的编码性能影响,表5给出了在深度图编码下不同快速方法的编码性能对比,其中文献[16]方法(测试平台为HTM13.0)和文献[17]方法(测试平台为HTM15.1)都可用于降低3D-HEVC深度图的编码复杂度。从表5中可以看出,本文提出的方法能降低较多的编码时间,得到很好的合成视点编码质量。相比文献[16]方法,本文提出的方法在相似的时间节约下,还降低了2.1%的编码码率。相比于文献[17]方法,本文提出的方法可以进一步节约20.8%的深度编码时间,同时降低了0.2%的编码码率。综上所述,将本文提出的方法用于所有3D-HEVC纹理视点和深度图编码以及只用于3D-HEVC深度图编码,相比于其他先进的快速3D-HEVC编码方法,都能得到更好的编码性能。

图6 编码时间节约对比

表5 在深度图编码下不同快速方法的编码性能对比

5 结束语

本文提出了一种提前Merge模式终止方法,用于3D-HEVC纹理视点和深度图,通过使用基于残差的学习模型来降低3D-HEVC编码器的计算复杂度。首先,基于每个最优Merge模式中的原始亮度像素和预测亮度像素来提取残差信号。其次,基于学习残差的提前Merge模式决策方法采用所提出的残差信号特征来提前预测最优模式是否为Merge模式。实验结果表明,该方法可以有效地减少编码时间,在复杂度降低方面优于最先进的算法。此外,基于学习的方法还有几个独特的优点。首先,与传统的基于统计的方法相比,本文提出的方法可以在纹理视点和深度图编码中实现。其次,学习模型简单易实现,适用于3D-HEVC和HEVC的提前Merge模式决策。

猜你喜欢
深度图视点复杂度
基于深度图的3D-HEVC鲁棒视频水印算法
计算机应用(2019年3期)2019-07-31 12:14:01
一种低复杂度的惯性/GNSS矢量深组合方法
求图上广探树的时间复杂度
一种基于局部直方图匹配的深度编码滤波算法
软件导刊(2016年9期)2016-11-07 22:22:57
叠加速度谱在钻孔稀少地区资料解释中的应用
科技视界(2016年2期)2016-03-30 11:17:03
某雷达导51 头中心控制软件圈复杂度分析与改进
视点
河南电力(2016年5期)2016-02-06 02:11:24
让你每天一元钱,物超所值——《今日视点—2014精萃》序
新闻前哨(2015年2期)2015-03-11 19:29:22
出口技术复杂度研究回顾与评述
两会视点
中国水利(2015年5期)2015-02-28 15:12:40