基于T-CNN 的3D-HEVC 深度图帧内快速编码算法①

2023-11-20 08:36:56贾克斌

高技术通讯 2023年10期

关键词：深度图视点编码器

于源贾克斌

(北京工业大学信息学部北京 100124)

(北京工业大学计算智能与智能系统北京市重点实验室北京 100124)

(先进信息网络北京实验室北京 100124)

0 引言

目前,在日常生活中广泛应用的视频编码标准是H.264/AVC(advanced video coding)标准[1]。然而,在有限的网络带宽和存储资源下,该标准已逐渐难以满足高分辨率视频业务对于高效率编码的要求。为此,新一代编码标准H.265/HEVC(high efficiency video coding)[2]应运而生。由于在二维视频编码中H.265/HEVC 标准展现了其高效性,因而基于H.264/AVC 的三维视频编码标准(three dimensional AVC,3D-AVC)也发展到了基于H.265/HEVC的3D-HEVC 标准,该标准是目前最新一代的3D 视频编码标准。

以往的多视点视频编码(muliti-view video coding,MVC)[3]不包括深度信息,因而不能使用基于深度图的绘制技术(depth image based rendering,DIBR)[4]来合成虚拟视点,相比之下加入了深度图的3D-HEVC 标准的显示效果更好且范围更广。然而,3D-HEVC 标准需要对多个视点中的纹理图和对应深度图进行编码,这导致数据量急剧增加。该标准下各个视点中的纹理图和深度图仍以HEVC 标准的编码框架为基础[5]。H.265/HEVC 的编码复杂度相对于H.264/AVC 增加了253%,其中基于四叉树结构的编码单元(coding unit,CU)[6]递归划分技术是编码复杂度提升的主要源头,判断其划分过程就占据了整体编码时间的80%[7]左右。3D-HEVC继承了HEVC 中的这种划分结构,且所有视点中的纹理图和深度图均需要进行该种划分过程。在这个过程中,从最小尺寸8 ×8 的CU 到最大尺寸64 ×64的CU 中所有可能的划分方式均要先计算率失真成本(rate-distortion cost,RDCost),随后选取RDCost 值最低的划分方式为当前编码树单元(coding tree unit,CTU)的最终划分结构,对当前帧的所有CU 进行处理后即可得到该帧的最终划分结果。在待编码CU 的划分过程中,需要在多达35 种HEVC 原有的帧内预测模式以及3D-HEVC 中加入的深度建模模式(depth modeling mode,DMM)DMM1 和DMM4 中依据RDCost 进行最优帧内模式的选择,大幅提高了编码复杂度。本文也将从这一点出发,提出优化算法来加快深度图帧内CU 划分过程,提高编码效率。

现有的降低3D-HEVC 帧内编码复杂度的研究可主要分为2 类,包括预测模式快速决策算法和CU尺寸快速决策算法。文献[8]使用Canny 算子和Hough 变换处理深度图中所具有的独特的边缘信息,最终跳过计算复杂度高的DMM1 模式,加快帧内预测模式选择过程。此外,各向同性的Sobel 算子也可以被用来检测预测单元的纹理复杂度和边缘方向[9]。

由于帧内CU 划分具有的特点,机器学习相关的方法也广泛应用到降低3D-HEVC 深度图编码计算复杂度的工作中。比较有代表性的算法如基于静态决策树的快速深度图编码算法[10]和利用多个决策树进行帧内编码单元划分深度早期决策的算法[11]。但是,上述方法都是基于概率或人工特征判断,缺乏鲁棒性。近些年深度学习快速发展,有效克服了传统机器学习方法中存在的这些弊端。如文献[12]中使用10 层的快速选择卷积神经网络(fast selecting CU’ s depth-convolutional neural network,FSCD-CNN)对深度图CU 的分类进行学习,加快视频编码的速度。文献[13]使用整体嵌套边缘检测(holistically-nested edge detection,HED)[14]网络来检测深度图的边缘,通过对边缘复杂度进行提前判断来简化划分深度选择过程,实现快速编码。为了加快所有视点下深度图的编码过程,本文使用所提出的算法对深度视频进行CU 划分深度预测,并使用其来替换原始编码器HTM 中的深度图CU 划分过程,显著地提高了编码效率。本方法的参数量相比复杂的网络更低,计算时间也较少,可以在未来更加易于部署到硬件中实现。

1 3D-HEVC 标准编码结构

1.1 3D-HEVC 编码流程

如图1 所示,3D-HEVC 标准中同一时刻的所有视点的纹理图及深度图组成一个处理单元(access unit,AU),并以此作为单位按照时间顺序进行编码。为了保证编码质量,独立视点按照原始的HEVC 标准进行编码,依赖视点采用扩展后的HEVC 标准进行编码。该扩展过程中加入了更加适用于深度图编码以及多视点视频编码的新技术,如基于深度图特点提出了新的帧内预测模式,深度建模模式DMMs等,然而新模式的加入使得深度图帧内CU 划分的复杂度再次增加。

图1 3D-HEVC 多视点标准编码顺序

1.2 CTU 划分结构

其中,占据编码复杂度最高的CTU 划分过程的具体划分方式如图2 所示。

图2 CTU 划分结构示意图

3D-HEVC 标准下的帧内CU 采用四叉树结构进行划分。如图2 所示,待编码的图像以CTU 为单位进行划分,默认情况下CTU 的尺寸为64 ×64,该尺寸的CTU 称作最大编码单元(largest coding unit,LCU)。CTU 可以包含单个CU,即CTU 不再进一步划分,也可以根据四叉树结构递归拆分成多个较小的CU,如图中不同划分深度下不同尺寸的CU,最小尺寸默认值为8 ×8。

每个CTU 中的CU 大小是通过蛮力率失真优化搜索来进行确定的,包括从父CU 到子CU 由上而下的检查过程以及由子CU 到父CU 的比较过程。在检查过程中,编码器需要检查整个CTU 的率失真代价,随后对其子CU 进行检查,此过程由上到下进行,直到CU 尺寸达到最小。父CU 的率失真代价使用Rparent表示,其子CU 率失真代价表示为{1,2,3,4})。根据父CU 和其对应的子CU 的率失真代价,进行由下至上的比较过程来判断是否拆分父CU。若满足≥Rparent,则父CU 不进行拆分;若满足＜Rparent,则父CU 将被拆分。在决定是否拆分时,要考虑划分标志的率失真代价。在经过完整的率失真优化搜索后,最终率失真代价最小的CU 划分结构将会被采纳。

1.3 深度图编码特性

从图3 以及图4 中的数据统计结果可以看出,深度图中包含大面积的平坦区域,这使得50%左右的CU 的划分深度为0,即所有待划分的CTU 中约一半是不需要进行划分的,然而这些不需划分的CU在标准编码器HTM中仍要进行率失真成本的计算等不必要的复杂操作,这就导致深度图编码时间急剧增加。从图5 中可以看到,在不同的量化参数(quantization parameter,QP)值下,深度图编码时间占总编码时间的86%～88%,即基于3D-HEVC 的多视点编码过程中,深度图的编码占据了绝大多数编码时间,因而急需对深度图编码过程进行优化。

图3 深度图特性

图4 深度图划分深度统计

图5 编码时间分布

2 算法设计

2.1 深度图划分数据集

表1 中所示的是构建深度图划分数据集所使用的视频及各项参数。构建的数据集将用于后续的网络训练。由于3D-HEVC 标准测试序列数量有限,为了尽量扩大数据集的数量和种类,选择的视频数量较多,且为了避免训练数据和测试数据出现重叠,将训练帧和测试帧以至少50 帧完全间隔开。

表1 深度划分数据集

2.2 T-CNN 网络结构

图6 展示的是本文的整体算法流程。由于深度图中包含大面积平坦区域以及分割平坦区域的边缘部分,因而本文选择搭建2 个通道的特征传递层来更有效地提取特征。在预处理部分,将深度视频的待编码帧裁剪成64 ×64 尺寸的LCU,传入网络。其中一个通道进行平均池化操作至16 ×16,另一通道仍保持64 ×64。对图像进行平均池化,将多个像素值求和并平均后,可突出背景特征,从而使提取到的特征更加多样。

图6 算法整体流程

下一个部分为使用卷积层特征提取模块来对视频中具有的空间信息进行多尺度融合。由于CTU编码过程中CU 的长度为2 的倍数,因而为了不重叠地提取视频的特征,在特征传递层中卷积操作对应的卷积核(filter)尺寸分别为4 ×4、2 ×2 以及2 ×2。将2 个通道中后2 个卷积层所提取出的特征,如式(1)所示,输入到后续的全连接层中学习2 个通道之间的非线性关系。

分别经过2 个全连接层和softmax 层后输出尺寸为1 +2 ×2 +4 ×4=21 大小的划分预测信息Infosplit。由于QP 值的大小对于视频编码质量有着非常大的影响,因此将归一化后的QP 值作为特征进行了融合。由于HEVC 标准规定了52 个量化步长,对应于52 个QP(0～51),因此将QP 值通过与相乘归一化至0～1 之间。将归一化后的QP 值与第1 个全连接层的输出进行拼接,将特征组合到一起,随后进行下一步全连接操作,将QP 值与特征进行进一步融合。最终得到的Infosplit将用于判断划分深度为0 的64 ×64、划分深度为1 的32 ×32 以及划分深度为2 的16 ×16 尺寸的CU 是否需要进一步划分。对于本文所研究的问题来说,仅存在CU划分以及不划分2 种状态,因而得到的预测信息Infosplit最终经过与固定阈值0.5 进行比较,若Infosplit＞0.5 则进一步划分,否则不再进行下一深度的划分。若在划分深度为0 时,网络预测得到＜0.5 成立,则可以提前终止对是否进一步划分的判断。这就是整个两通道多层特征传递卷积神经网络(two-channel feature transfer convolutional neural network,T-CNN)的结构。

此网络将作为划分深度预测模块,在HTM 标准编码器中替换掉复杂的CU 划分深度决策过程,加快深度图帧内CU 划分。具体流程为:开始编码后,在编码到深度图时会触发预测网络,得到预测信息后直接跳过标准的CU 划分深度决策过程;在3 个视点中均进行这样的操作,编码器其余部分继续进行后面的编码相关工作,最终输出编码后的比特流以及解码出用于进行质量评估的视频信号,编码结束。

3 实验及分析

3.1 实验设置

实验中使用的是3D-HEVC 标准测试视频序列:Balloons(1024 × 768)、Kendo(1024 × 768)、Newspaper(1024 × 768)、Poznan_Hall2(1920 ×1088)、Poznan_Street(1920 × 1088)以及Undo_Dancer(1920 ×1088)。编码时对每个测试序列编码3 个视点(主视点、依赖视点1 以及依赖视点2)。纹理图中的QP 值以及与其对应的深度图的QP 值设置为(25,34)、(30,39)、(35,42)和(40,45)。其中,Balloons、Kendo 和Newspaper的帧率为30,Poznan_Hall2、Poznan_Street 以及Undo_Dancer 的帧率为25,视频序列的编码帧数为50帧。

为了对实验结果有一致的衡量标准,实验均是在配置为AMD Ryzen 7 4800H、Radeon Graphics 2.90 GHz、64 位Windows 10 操作系统的计算机上进行的。训练阶段使用的显卡为GeForce RTX 2060,实际编码过程中调用模型时仅使用CPU。为了验证所提出算法的性能,采用全帧内(all intra,AI)编码模式在3D-HEVC 测试平台HTM-16.0 上进行测试。编译软件为Visual Studio 2019,集成开发环境PyCharm,深度学习库Tensorflow-GPU 1.13.1。

3.2 评价指标

进行结果分析时,算法的率失真性能使用BDrate(bjøntegaard delta bitrate)来进行评价。表2 中视频PSNR/视频比特率表示编码纹理视图相对于视频比特率的BD-rate,视频PSNR/总比特率表示编码纹理视图相对于总比特率的BD-rate。

表2 率失真性能评价

下文中使用T代表编码时间,ΔT代表加入本算法后所节省的编码时间在原始编码时间中的占比,用来表示算法的时间复杂度的下降,其计算公式如式(2)所示。

其中,Tori为原始编码器HTM-16.0 的编码时间,Tnew为加入本算法后的HTM 编码时间。

3.3 结果分析

从表2 可以得出,与原始编码器HTM-16.0 的编码性能相比,编码视图的平均BD-rate 损失为1.4%,率失真性能没有出现明显的下降,在分辨率为1920 ×1088 尺寸的视频中,效果要优于低分辨率1024 ×768 的视频。图7 显示了不同QP 值下原始编码器与加入本文算法后的编码器最终合成的虚拟视点对比图,从主观上可看出并未出现明显失真。

使用本算法进行单个视点下深度图CU 划分深度预测所需时间不超过2.5 s,最多占据编码时间的0.1%。表3 将本文算法与其他研究者所提出的算法在编码复杂度降低程度上进行了对比。从表中可以看到,与文献[11,12,15]中的算法相比,加入本文算法后,平均可节省76.62%的编码时间,显著降低了编码复杂度。

表4 列出了实验过程中所用的测试视频所具有的特征,从中可以看到,测试视频的分辨率以及视频所具有的特征种类较为多样。结合表2 以及表3 的实验结果,可以得出算法鲁棒性较好,尤其在更高分辨率、具有更多平坦区域的视频中性能出色,可在新的测试数据上进行很好地预测。在对具有少量平坦区域的视频进行预测时,精度仍有提升的空间。

表4 测试视频所具有的特征

4 结论

本文通过对3D-HEVC 标准编码复杂度进行分析,找出编码复杂度过高的深度图帧内CU 划分过程,针对于这一点建立了深度图帧内CU 划分深度数据集,并进一步提出了3D-HEVC 深度图帧内快速编码算法。通过使用两通道多层特征传递卷积神经网络T-CNN,替代各个视点下深度图帧内CU 复杂的深度划分过程,可以在保证合成视点质量的同时,显著降低编码复杂度。结果表明,编码时间平均可降低76%,提升了编码效率。