面向３６０°全景视频的帧内预测编码的快速算法

2024-07-20 00:00:00金雪松王田田

无线电工程 2024年5期

摘要：为了节省３６０°全景视频的编码时间，对通用视频编码标准中的编码单元划分决策过程进行了研究，提出了一种面向３６０°全景视频的帧内预测编码的快速算法。通过优化编码树单元（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ，ＣＴＵ）的编码深度范围和编码单元的划分模式的选择过程，减少编码时间。实验结果表明，在全帧内模式下，所提算法比原始算法平均可以节省３４．３３％的时间复杂度，同时带来的ＢＤＢＲ平均增量仅为１．６６５％，ＢＤＰＳＮＲ的平均降低量仅为０．０７６ｄＢ。

关键词：通用视频编码；３６０°全景视频；帧内编码；快速算法

中图分类号：ＴＰ７５１．１文献标志码：Ａ开放科学（资源服务）标识码（ＯＳＩＤ）：

文章编号：１００３－３１０６（２０２４）０５－１０７４－０９

０引言

在通信技术和数字技术的推动下，普通二维视频和标清视频已无法满足人们日益增长的视频需求，视频应用的多样性和高清化的趋势对视频编码性能提出了更高的要求［１］。为此，国际电信联盟电信标准化部门（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ-ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＳｔａｎｄａｒｄｉｚａｔｉｏｎＳｅｃｔｏｒ，ＩＴＵ-Ｔ）与国际标准化组织（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ，ＩＳＯ）和国际电工委员会会（Ｉｎｔｅｒｎａ-ｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ，ＩＥＣ）合作，于２０２０年７月正式发布了最新的视频编码标准，即通用视频编码（Ｈ．２６６／ＶＶＣ）标准［２］，为已有和新兴的视频应用（如３６０°全景视频）提供更加强大的压缩性能及更加灵活易用的功能［３］。

３６０°全景视频是一种包含全方位视觉信息的球体视频，具有高帧率、高分辨率和高位深等特点［４］，能够给人们带来更真实、更鲜活、更丰富的体验感，但与此同时，也使得视频数据量成倍增长，需要花费的编码时间大大增加，影响了３６０°全景视频在实时性场景中的应用［５］。此外，由于目前尚不支持对３６０°全景视频直接进行编码，需要将３６０°全景视频的球面图像投影成二维平面图像，然后利用传统的视频编码标准框架来完成剩余的编码工作［６］。因此，面向３６０°全景视频的快速编码算法需在视频编码标准的基础上进行研究。

Ｗａｎｇ等［７］在高效视频编码（Ｈ．２６５／ＨＥＶＣ）标准的基础上结合等矩形投影（Ｅｑｕｉ-ＲｅｃｔａｎｇｕｌａｒＰｒｏｊｅｃｔｉｏｎ，ＥＲＰ）格式的视频特点，利用深度信息和空间相关性对最可能模式（ＭｏｓｔＰｒｏｂａｂｌｅＭｏｄｅ，ＭＰＭ）过程进行了优化，减少了帧内预测模式中候选模式的数量，并利用相邻预测单元（ＰｒｅｄｉｃｔｉｏｎＵｎｉｔ，ＰＵ）的深度信息和绝对变换差之和（ＳｕｍｏｆＡｂｓｏｌｕｔｅＴｒａｎｓｆｏｒｍＤｉｆｆｅｒｅｎｃｅ，ＳＡＴＤ）的相关性，提出了一种对ＰＵ提前跳过和终止划分的操作算法。Ｗａｎｇ等［８］分析了ＥＲＰ格式的采样密度的特点，基于ＨＥＶＣ标准提出去除一些大于编号１８的冗余角度模式，并扩展小于编号１８的角度模式，同时修改了最可能模式的推导方法，实现了针对ＥＲＰ格式视频的帧内角度模式的快速算法。Ｌｉｕ等［９］基于ＨＥＶＣ标准对立方体投影格式下ＶＲ３６０°视频编码的编码参数进行统计分析，提出了一种基于粗略模式决策（ＲｏｕｇｈＭｏｄｅＤｅｃｉｓｉｏｎ，ＲＭＤ）和ＭＰＭ之间的候选模式修剪方法。Ｌｉｎ等［１０］通过分析ＥＲＰ格式的纬度特性对ＨＥＶＣ标准中的帧内模式决策的影响，考虑了帧内依赖关系和率失真模型，将全局复杂度分配到所有纬度区域的问题公式化，提出了一种基于纬度的帧内编码复杂度优化算法。Ｂｅｌｉｎｇ等［１１］利用ＥＲＰ格式的拉伸模型，提出在ＨＥＶＣ标准的帧内编码树单元（ＣｏｄｉｎｇＴｒｅｅＵｎｉｔ，ＣＴＵ）划分过程中进行自适应地提前终止。Ｚｈａｎｇ等［１２］在ＨＥＶＣ标准的基础上，根据ＥＲＰ过程中的像素坐标进行自适应修正量化参数补偿，并基于深度范围和空间相关性预测实现ＣＵ划分的提前终止，以及采用ｐｒｅｗｉｔｔ算子自适应模式选择算法来减少编码时间。Ｓｔｏｒｃｈ等［１３］利用３６０°全景视频的空间特性，通过减少基于帧区域评估帧内预测模式的数量，提出一种自适应的编码帧区域的评估技术。

综上可知，面向３６０°全景视频提出的帧内预测编码的快速算法都基于ＨＥＶＣ标准，目前针对３６０°全景视频基于最新一代的视频编码标准ＶＶＣ的研究正处于初始阶段。因此，借鉴前人工作，本文在ＶＶＣ标准的基础上，结合３６０°全景视频在ＥＲＰ格式映射过程中采样不均匀的特点，从ＣＴＵ编码深度和ＣＵ划分模式两方面出发，提出面向３６０°全景视频的帧内预测编码的快速算法。

１ＶＶＣ标准ＣＵ划分模式

ＣＵ划分模式是指对ＣＵ进行分割的方式。根据不同类型的视频内容选择不同的划分模式可以提高视频的编码效率和预测精度。因此，为了满足高清、超高清等新兴视频的编码需求，ＶＶＣ标准不仅将ＣＴＵ尺寸扩展为１２８ × １２８，还提供了更灵活的ＣＵ划分模式［１４］。

在ＶＶＣ标准中，共有６种ＣＵ划分模式，分别是四叉树（ＱｕａｄＴｒｅｅ，ＱＴ）、水平二叉树（ＨｏｒｉｚｏｎｔａｌＢｉｎａｒｙ-ｔｒｅｅ，ＢＨ）、垂直二叉树（ＶｅｒｔｉｃａｌＢｉｎａｒｙｔｒｅｅ，ＢＶ）、水平三叉树（ＨｏｒｉｚｏｎｔａｌＴｅｒｎａｒｙ-ｔｒｅｅ，ＴＨ）、垂直三叉树（ＶｅｒｔｉｃａｌＴｅｒｎａｒｙ-ｔｒｅｅ，ＴＶ）和不划分。其中，ＢＨ和ＢＶ统称为二叉树，是将一个ＣＵ分成２个大小相等的子ＣＵ；ＴＨ和ＴＶ统称为三叉树，是在水平或垂直方向产生３个比例为１ ∶ ２ ∶ １的子ＣＵ［１５］，如图１所示。

确定ＣＴＵ内部最优ＣＵ划分模式的判别过程是递归过程，ＶＶＣ在递归划分ＣＵ时需要依次计算采用不划分、ＱＴ划分、ＰＨ划分、ＢＶ划分、ＴＨ划分和ＴＶ划分的率失真代价（ＲａｔｅＤｉｓｔｏｒｔｉｏｎＣｏｓｔ，ＲＤ-ｃｏｓｔ），并选择ＲＤ-ｃｏｓｔ最小的划分模式作为最优的划分方式。通过ＣＵ划分模式判别，一帧视频图像会被划分为多个能够覆盖全帧且不重叠的ＣＴＵ，并将每个ＣＴＵ作为根节点，再执行递归划分操作，得到多个ＣＵ。一个ＣＴＵ通过递归划分为多个ＣＵ的示例如图２所示，其中，图２（ａ）展示了ＶＶＣ标准中某个大小为１２８ ×１２８的ＣＴＵ在经历复杂的帧内预测和划分模式等过程后根据ＲＤ-ｃｏｓｔ选出的最优划分结果；图２（ｂ）是对应于图２（ａ）的ＣＵ划分结构的树形图，其中，黑线表示ＱＴ划分，蓝色线表示ＢＴ划分，黄色线表示ＴＴ划分。

２提出的算法

该算法首先利用ＥＲＰ格式的采样特点、ＣＴＵ的纹理复杂度以及空间相关性，对编码深度范围进行优化，以实现ＣＵ划分过程中的提前终止；然后，针对大小为３２×３２的ＣＵ利用纹理方向信息，优化ＣＵ的划分模式的选择过程，以进一步实现对ＣＵ划分过程的简化操作。

２．１基于纬度的ＣＴＵ深度决策方法

３６０°全景视频在映射为ＥＲＰ格式的过程中，为了保证球面采样的等角特性，在不同纬度区域均采用了相同的采样点［１６］，造成３６０°全景视频在球面不同纬度区域存在不同程度的拉伸。这导致采用传统的视频编码方法对３６０°全景视频压缩效果并不理想，需要在传统视频编码的基础上，针对其特点进行编码优化。因此对ＥＲＰ格式的３６０°全景视频进行分析总结：越靠近两极，拉伸程度越重，采样率越高，且视频内容常为天空或大地，编码深度较小，编码块较大；越靠近赤道，拉伸程度越轻，采样率越低，且视频内容越丰富，编码深度较大，编码块较小；对于中间区域，情况较复杂，无法直接判定出编码块大小，但此区域的图像内容通常较为复杂，应兼顾深度较小和深度较大的情况。

基于上述分析，提出对ＥＲＰ格式的３６０°全景视频进行区域划分，通过ＣＴＵ所处区域判定其编码深度的范围。首先，将ＥＲＰ格式的整幅图像划分为３个区域，分别是两极区域、赤道区域以及中间区域；然后，以ＣＴＵ的权重值作为判断当前ＣＴＵ所处区域的依据。

获取权重值的思想是以ＣＴＵ为基本单元，计算每一行像素的权重值，再将其求和并取平均，最终得到的值即为该ＣＴＵ的权重值。其中，每一行权重值ｗｊ的计算方法如式（１）所示，ｊ为每个ＣＴＵ最左侧一列像素的纵坐标，Ｈ为视频帧的高度；第ｉ个ＣＴＵ的权重值ωｉ的计算方法如式（２）所示，ＣＴＵＨ为ＣＴＵ的高度。

通过大量实验得出ωｉ取０．４、０．９作为３种区域的阈值时，可以在编码效率和编码质量之间取得较好的平衡，则ＣＴＵ所属区域如下：

式中：ＣＴＵｉ表示第ｉ个ＣＴＵ，ＰＯＬＥ、ＭＩＤ、ＥＱＵＡ分别表示ＣＴＵ所处的区域为两极区域、中间区域和赤道区域。

在ＶＶＣ标准中，ＣＴＵ默认的最大编码深度为６，最小为０。因此，将两极区域的编码深度设置为Ｄ１＝［０，４］，中间区域的编码深度设置为Ｄ２＝［２，５］，赤道区域的编码深度设置为Ｄ３＝［３，６］。由于每个ＣＴＵ必然会有一个区域与之相对应，因此将ＣＴＵ所属区域的编码深度区间作为当前ＣＴＵ的编码深度区间，则每个ＣＴＵ的深度ＤＮ１可由式（４）确定：

２．２基于方差的ＣＴＵ深度决策方法

由于３６０°全景视频通常包含很多如天空、海平面或草地等形式的平坦区域，且经实验发现在平坦区域中判断纹理复杂度时采用方差法获得的结果较为准确，因此选用方差法计算每个ＣＴＵ的纹理复杂度。具体计算方法如下：

式中：ｖａｒ为方差值，（ｉ，ｊ）为当前ＣＴＵ中的左上顶点像素的坐标值，ＣＵ＿Ｗ和ＣＵ＿Ｈ为最大ＣＵ的宽度和高度。

根据每个视频的图像内容自适应地选择判断纹理复杂度的阈值，并根据视频序列的帧率进行更新阈值。将ＣＴＵ根据纹理复杂程度区分为３类，分别为简单ＣＴＵ、一般ＣＴＵ和复杂ＣＴＵ。当ＣＴＵ的方差高于上阈值（Ｔｔ）时，可以判定该ＣＴＵ具有丰富的图像细节，可直接计算小尺寸ＣＵ的ＲＤ-ｃｏｓｔ值，而不考虑适用于简单纹理的大尺寸ＣＵ；当ＣＴＵ的方差值低于下阈值（Ｔｌ）时，判定该ＣＴＵ位于图像平滑区域，此时可以终止ＣＴＵ递归到更高的编码深度，跳过对划分结构复杂和编码深度较大的ＣＵ进行ＲＤ-ｃｏｓｔ值的计算。

具体算法是首先将视频序列分为原始算法帧和算法优化帧，间隔为当前视频的帧率值；然后，在原始算法帧中，按照ＶＶＣ标准的帧内预测的原始算法进行编码，并在编码完成后，计算所有ＣＴＵ的方差值以及存储各个ＣＴＵ内所有ＣＵ的深度值；最后，在算法优化帧中，去除相同的方差值，并在计算上阈值时，将去重后的方差值按照从小到大的顺序进行排列，表示为［ＮＰｍｉｎ，ＮＰｍａｘ］，而在计算下阈值时，将去重后的方差值按照从大到小的顺序进行排列，表示为［ＮＰｍａｘ，ＮＰｍｉｎ］。

获取上阈值的方法是首先遍历［ＮＰｍｉｎ，ＮＰｍａｘ］，以当前ＮＰ作为上阈值，统计满足所有ＣＴＵ的方差值大于等于当前ＣＴＵ的方差值且当前ＣＴＵ内的ＣＵ深度大于２的ＣＵ个数，以及不满足的ＣＵ个数，从而计算当前ＮＰ的划分准确率Ａ。Ａ的计算如式（６）所示。式中：Ｒ为正确划分数，指满足条件的ＣＵ个数；Ｅ为错误划分数，指不满足条件的ＣＵ个数。Ｒ和Ｅ的初始值均为０，在原始算法帧编码结束后，根据式（７）和式（８）计算上阈值的Ｒ和Ｅ。

获取下阈值的方法和上阈值的相类似。不同之处是遍历［ＮＰｍａｘ，ＮＰｍｉｎ］，以当前ＮＰ作为下阈值，统计满足所有ＣＴＵ的方差值小于等于当前ＣＴＵ的方差值且当前ＣＴＵ内的ＣＵ深度小于５的ＣＵ个数，以及不满足的ＣＵ个数。

当Ａ首次满足准确率的条件时，终止遍历，并选取当前的ＮＰ的值为新的阈值，直到下一原始算法帧，重新计算ＮＰ。为了权衡编码时间和视频质量，在产生尽可能少的失真的同时，可以最大程度地节省编码时间，本文通过大量实验总结得出不同ＱＰ下的划分准确率的条件，如表１所示。

将简单ＣＴＵ的编码深度设置为Ｄ４＝［０，４］，复杂ＣＴＵ的编码深度设置为Ｄ５＝［３，６］，不更改一般ＣＴＵ的编码深度区间，则此时各个ＣＴＵ的编码深度区间可以通过式（９）确定。

式中：Ｄ４、Ｄ５为前文所定义的区间，ＤＮ２为当前ＣＴＵ的编码深度区间，ＳＩＭＰＬＥ、ＧＥＮＥＲＡＬ和ＣＯＭＰＬＥＸ分别为简单ＣＴＵ、一般ＣＴＵ和复杂ＣＴＵ。

２．３基于空间相关性的ＣＴＵ深度决策方法

由于同一帧中的空间相邻ＣＵ通常具有相同或相似的纹理，故编码深度具有较强的空间相关性。在ＶＶＣ标准中，帧内预测按照Ｚ字形顺序对ＣＵ进行编码，在对当前ＣＴＵ进行编码时，其左侧相邻的ＣＴＵ与上方相邻的ＣＴＵ已经完成编码，因此可以利用这２个相邻ＣＴＵ的深度信息预测当前ＣＴＵ的编码深度范围，以进一步缩小当前ＣＴＵ的编码深度范围，从而实现减少ＲＤｃｏｓｔ的计算次数，缩短编码时间。

当左侧相邻的ＣＴＵ与上方相邻的ＣＴＵ的最大编码深度均小于等于５，且当前ＣＴＵ的最大编码深度大于４时，将当前ＣＴＵ的最大编码深度减１，最小编码深度不变；而当左侧相邻的ＣＴＵ与上方相邻的ＣＴＵ的最小编码深度均大于等于３，且当前ＣＴＵ的最小编码深度小于４时，将当前ＣＴＵ的最小编码深度加１，最大编码深度不变。此时各个ＣＴＵ的编码深度区间表示方法如下：

式中：ＤＮ３为当前ＣＴＵ的编码深度区间，Ｄｌ＿ｍａｘ和Ｄａ＿ｍａｘ分别为左侧和上方相邻ＣＴＵ的最大编码深度，Ｄｌ＿ｍｉｎ和Ｄａ＿ｍｉｎ分别为左侧和上方相邻ＣＴＵ的最小编码深度，ｏｔｈｅｒ为除上述条件外的其他情况。

２．４基于梯度的ＣＵ划分模式决策方法

鉴于最大二叉树尺寸和最大三叉树尺寸都是３２，且小ＣＵ不会占用太多编码时间，因此针对大小为３２×３２的ＣＵ做进一步优化。利用Ｓｏｂｅｌ梯度算子提取出的边缘特征决定是否跳过垂直或水平划分模式。

Ｓｏｂｅｌ算子使用２个３×３的卷积核，分别对图像进行水平和垂直方向的卷积运算。值得注意的是Ｓｏｂｅｌ算子在卷积运算时，无法对最外一圈的像素值做运算，因此，在计算梯度前先对原始视频图像的最外圈进行像素值的填充。填充方法是对最顶行、最底行、最左列和最右列中的像素采用最近原则进行填充，即在需要填充像素值的位置使用距离最近的像素值进行填充，如图３所示，其中，Ｗ和Ｈ为原始视频大小的宽和高，阴影部分表示原始视频，白色部分为填充部分，每个小方块均代表一个像素。

由Ｓｏｂｅｌ算子提取边缘特征，得到边缘图后，将在边缘图中坐标为（ｘ，ｙ）的像素值记录为ｓｏｂｅｌ（ｘ，ｙ）。如果ｓｏｂｅｌ（ｘ，ｙ）不等于０，则将ｓｏｂｅｌ（ｘ，ｙ）设为１，否则设为０；然后，使用ＶＥ和ＨＥ的比值来表示纹理方向的趋势是水平或垂直。

ＶＥ和ＨＥ的计算如下：

式中：ｖｅｉ和ｈｅｉ分别为ｙ＝ｉ和ｘ＝ｉ时ｓｏｂｅｌ（ｘ，ｙ）不为０的边缘点的数量，ＶＥ为垂直方向上的边缘长度，ＨＥ为水平方向上的边缘长度。

当ＶＥ／ＨＥ＞１时，说明该ＣＵ内更多存在的是垂直方向上的纹理，更有可能采用垂直划分模式进行划分该ＣＵ，因而，提前跳过水平划分模式，即跳过ＢＨ和ＴＨ的划分方式；当ＨＥ／ＶＥ＞１时，说明该ＣＵ的水平方向的纹理趋势较强于垂直方向的纹理趋势，提前跳过垂直划分模式，即跳过ＢＶ和ＴＶ的划分方式。

综上所述，本文所提算法的流程如图４所示。判断３６０°全景视频的ＥＲＰ格式视频序列的当前帧是否为算法优化帧。若当前帧不是算法优化帧，即为原始算法帧，采用ＶＶＣ标准的原始算法。若当前帧为算法优化帧，则首先根据当前ＣＴＵ的权重值ωｉ判断出当前ＣＴＵ所处区域，初步确定当前ＣＴＵ的深度范围为ＤＮ１；其次判断ＣＴＵ的方差ｖａｒ与下阈值（Ｔｌ）和上阈值（Ｔｔ）的关系，从而判定出当前ＣＴＵ的纹理复杂度，得到当前ＣＴＵ的深度范围为ＤＮ２；然后结合左侧相邻的ＣＴＵ、上方相邻的ＣＴＵ和当前ＣＴＵ的编码深度，进一步判断出当前ＣＴＵ的深度范围为ＤＮ３；最后判断当前ＣＵ尺寸是否为３２×３２，若是，则继续判断ＶＥ和ＨＥ之间的比值关系，并据此抉择出是否跳过垂直或水平划分模式，若否，则本文算法至此结束。

３实验结果

为验证本文方法的性能，将本文提出的算法在ＪＶＥＴ提供的集成了３６０Ｌｉｂ的官方参考软件３６０Ｌｉｂ１２．０-ＶＴＭ１１．０上进行测试。在全帧内模式和通用测试条件［１７］下对ＪＶＥＴ推荐的３６０°全景视频序列进行测试。编码配置的量化参数ＱＰｓ指定为｛２２，２７，３２，３７｝。采用被广泛认可的客观评价指标ＢＤＰＳＮＲ和ＢＤＢＲ来评价本文提出的算法的编码性能，同时，采用ＴｉｍｅＲｅｄｕｃｔｉｏｎ（ＴＲ）来表示编码器复杂度的降低［１８］，计算如下：

式中：ＴＶＴＭ１１．０表示原始算法的ＶＶＣ编码器所耗费的编码时间，ＴＰ表示所提算法的ＶＶＣ编码器所耗费的编码时间。

所提算法和原始算法的对比结果如表２所示。可以看出，相对于原始算法，所提算法在ＢＤＢＲ平均增加１．６６５％和ＢＤＰＳＮＲ平均损失０．０７６ｄＢ的前提下，编码时间平均缩减了３４．３３％。在编码效率损失方面，所提算法的编码效率损失最低为０．９２４％，最高为２．２５６％；在时间节省方面，所提算法的时间节省最低为２５．２１％，最高为４４．５０％，平均为３４．３３％，说明所提算法针对不同类型的视频序列均可以有效降低编码的计算复杂度，提升编码速度，并保证图像质量几乎不变。

为了更直观地表示编码器性能的损失，将所提算法与ＶＶＣ原始算法的率失真曲线进行比较，如图５所示。与ＶＴＭ１１．０标准算法相比，所提算法的率失真曲线和原始算法的率失真曲线非常接近。这表明对于不同分辨率大小且视频内容完全不同的测试序列，该算法对编码时间均有不同程度的缩减，都降低了编码复杂度，且视频质量损失可忽略不计。

人眼是视频信号的最终接收方，因此，除客观质量评价指标外，视频的主观质量评价也较为重要。由于ＱＰ越大，视频质量越低，使得通过主观判断原始算法和本文所提算法之间的差异越困难，本文截取了ＰｏｌｅＶａｕｌｔ＿ｌｅ测试序列在ＱＰ为２２时的解码帧图像，如图６所示。从图６中的原始算法和本文所提算法的解码帧的对比图以及相对应的细节放大图中，可以看出天空、房屋、树木、人物及车辆等部分几乎完全一样。说明使用本文所提算法进行编解码的视频序列在视频质量方面所造成的影响微乎其微。

４结束语

为解决３６０°全景视频编码时间过长的问题，本文在ＶＶＣ标准的基础上结合３６０°全景视频在ＥＲＰ格式映射过程中采样不均匀的特点，提出了一种面向３６０°全景视频的帧内预测编码的快速算法。该算法首先将视频划分为３个区域，根据ＣＴＵ所处区域初步判定当前ＣＴＵ的编码深度范围；然后，根据各个ＣＴＵ的方差值和自适应更新的双阈值对每个ＣＴＵ按照纹理复杂度进行分类，以进一步限制当前ＣＴＵ的编码深度范围；最后，利用编码深度信息的空间相关性，将相邻ＣＴＵ的深度范围作为参考，完成对当前ＣＴＵ编码深度范围的最终决策。同时，针对大小为３２ ×３２的ＣＵ，利用纹理信息跳过垂直或水平划分模式，以优化ＣＵ划分模式的选择过程。实验结果表明，与原始算法相比，在全帧内模式下，该算法有效简化了３６０°全景视频的帧内编码ＣＵ划分决策过程，平均可以节省３４．３３％的时间复杂度，同时带来的ＢＤＢＲ平均增量仅为１．６６５％，ＢＤＰＳＮＲ的平均降低量仅为０．０７６ｄＢ。在几乎不损失视频质量的情况下，所提算法降低了３６０°全景视频的编码复杂度，有效缩短了编码时间。

参考文献

［１］帅鑫，卿粼波，何小海，等．一种基于卷积神经网络的ＶＶＣ去压缩伪影半盲方法［Ｊ］．无线电工程，２０２２，５２（１０）：１７０２－１７０９．

［２］ＺＨＡＮＧＨＣ，ＹＵＬ，ＬＩＴＳ，ｅｔａｌ．ＦａｓｔＧＬＣＭｂａｓｅｄＩｎｔｒａＢｌｏｃｋＰａｒｔｉｔｉｏｎｆｏｒＶＶＣ［Ｃ］∥ ２０２１ＤａｔａＣｏｍｐｒｅｓｓｉｏｎＣｏｎｆｅｒｅｎｃｅ（ＤＣＣ）．Ｓｎｏｗｂｉｒｄ：ＩＥＥＥ，２０２１：３８２．

［３］万帅，霍俊彦，马彦卓，等．新一代通用视频编码Ｈ．２６６／ＶＶＣ：原理，标准与实现［Ｍ］．北京：电子工业出版社，２０２２．

［４］ＴＳＡＮＧＳＨ，ＣＨＡＮＹＬ．３６０ｄｅｇｒｅｅＩｎｔｒａＣｏｄｉｎｇＭｏｄｅｆｏｒＥｑｕｉｒｅｃｔａｎｇｕｌａｒＰｒｏｊｅｃｔｉｏｎＦｏｒｍａｔＶｉｄｅｏｓ［Ｃ］∥２０２０ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ（ＩＳＣＡＳ）．Ｓｅｖｉｌｌｅ：ＩＥＥＥ，２０２０：１－５．

［５］吴志强，郁梅，姜浩，等．基于感兴趣区域的３６０° 全景视频编码［Ｊ］．激光与光电子学进展，２０１８，５５（６）：１９１－１９７．

［６］ＨＥＹ，ＶＩＳＨＷＡＮＡＴＨＢ．ＡＨＧ８：ＡｌｇｏｒｉｔｈｍＤｅｓｃｒｉｐｔｉｏｎｏｆＩｎｔｅｒｄｉｇｉｔａｌ’ｓＰｒｏｊｅｃｔｉｏｎＦｏｒｍａｔＣｏｎｖｅｒｓｉｏｎＴｏｏｌ（ＰＣＴ３６０）［Ｃ］∥ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ（ＪＶＥＴ）ｏｆＩＴＵＴＳＧ１６ＷＰ３ａｎｄＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１．Ｃｈｅｎｇｄｕ：［ｓ．ｎ．］，２０１６：５６０－５６９．

［７］ＷＡＮＧＹＢ，ＬＩＹＭ，ＹＡＮＧＤＱ，ｅｔａｌ．ＡＦａｓｔＩｎｔｒａＰｒｅｄｉｃｔｉｏｎＡｌｇｏｒｉｔｈｍｆｏｒ３６０ｄｅｇｒｅｅＥｑｕｉｒｅｃｔａｎｇｕｌａｒＰａｎｏｒａｍｉｃＶｉｄｅｏ［Ｃ］∥２０１７ＩＥＥＥＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ（ＶＣＩＰ）．Ｓｔ．Ｐｅｔｅｒｓｂｕｒｇ：ＩＥＥＥ，２０１８：１－４．

［８］ＷＡＮＧＹＢ，ＣＨＥＮＺＺ，ＬＩＵＳ．ＥｑｕｉｒｅｃｔａｎｇｕｌａｒＰｒｏｊｅｃｔｉｏｎＯｒｉｅｎｔｅｄＩｎｔｒａＰｒｅｄｉｃｔｉｏｎｆｏｒ３６０ｄｅｇｒｅｅＶｉｄｅｏＣｏｄｉｎｇ［Ｃ］∥２０２０ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ（ＶＣＩＰ）．Ｍａｃａｕ：ＩＥＥＥ，２０２０：４８３－４８６．

［９］ＬＩＵＺ，ＸＵＣ，ＺＨＡＮＧＭＭ，ｅｔａｌ．ＦａｓｔＩｎｔｒａＰｒｅｄｉｃｔｉｏｎＡｌｇｏｒｉｔｈｍｆｏｒＶｉｒｔｕａｌＲｅａｌｉｔｙ３６０ＤｅｇｒｅｅＶｉｄｅｏＢａｓｅｄｏｎＩｍｐｒｏｖｅｄＲＭＤ［Ｃ］∥２０１９ＤａｔａＣｏｍｐｒｅｓｓｉｏｎＣｏｎｆｅｒｅｎｃｅ（ＤＣＣ）．Ｓｎｏｗｂｉｒｄ：ＩＥＥＥ，２０１９：５９３．

［１０］ＬＩＮＪＬ，ＬＩＮＬＱ，ＬＩＷＭ，ｅｔａｌ．ＬａｔｉｔｕｄｅｂａｓｅｄＦｌｅｘｉｂｌｅＣｏｍｐｌｅｘｉｔｙＡｌｌｏｃａｔｉｏｎｆｏｒ３６０ｄｅｇｒｅｅＶｉｄｅｏＣｏｄｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＢｒｏａｄｃａｓｔｉｎｇ，２０２２，６８（３）：５７２－５８１．

［１１］ＢＥＬＩＮＧＢ，ＳＴＯＲＣＨＩ，ＡＧＯＳＴＩＮＩＬ，ｅｔａｌ．ＥＲＰｂａｓｅｄＣＴＵＳｐｌｉｔｔｉｎｇＥａｒｌｙＴｅｒｍｉｎａｔｉｏｎｆｏｒＩｎｔｒａＰｒｅｄｉｃｔｉｏｎｏｆ３６０Ｖｉｄｅｏｓ［Ｃ］∥２０２０ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ（ＶＣＩＰ）．Ｍａｃａｕ：ＩＥＥＥ，２０２０：３５９－３６２．

［１２］ＺＨＡＮＧＭＭ，ＺＨＡＮＧＪ，ＬＩＵＺ，ｅｔａｌ．ＡｎＥｆｆｉｃｉｅｎｔＣｏｄｉｎｇＡｌｇｏｒｉｔｈｍＦｏｒ３６０ｄｅｇｒｅｅＶｉｄｅｏＢａｓｅｄｏｎＩｍｐｒｏｖｅｄＡｄａｐｔｉｖｅＱＰＣｏｍｐｅｎｓａｔｉｏｎａｎｄＥａｒｌｙＣＵＰａｒｔｉｔｉｏｎＴｅｒｍｉｎａｔｉｏｎ［Ｊ］．ＭｕｌｔｉｍｅｄｉａＴｏｏｌｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０１９，７８（１）：１０８１－１１０１．

［１３］ＳＴＯＲＣＨＩ，ＺＡＴＴＢ，ＡＧＯＳＴＩＮＩＬ，ｅｔａｌ．ＳｐａｔｉａｌｌｙＡｄａｐｔｉｖｅＩｎｔｒａＭｏｄｅＰｒｅｓｅｌｅｃｔｉｏｎｆｏｒＥＲＰ３６０ＶｉｄｅｏＣｏｄｉｎｇ［Ｃ］∥ ２０２０ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｂａｒｃｅｌｏｎａ：ＩＥＥＥ，２０２０：２１７８－２１８２．

［１４］ＬＩＷ，ＦＡＮＣＸ，ＲＥＮＰ．ＦａｓｔＩｎｔｒａｐｉｃｔｕｒｅＰａｒｔｉｔｉｏｎｉｎｇｆｏｒＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ［Ｃ］∥２０２０ＩＥＥＥ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｉｇｎａｌａｎｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＣＳＩＰ）．Ｎａｎｊｉｎｇ：ＩＥＥＥ，２０２０：１０８－１１１．

［１５］ＢＯＳＳＥＮＦ，ＳＵＨＲＩＮＧＫ，ＷＩＥＣＫＯＷＳＫＩＡ，ｅｔａｌ．ＶＶＣＣｏｍｐｌｅｘｉｔｙａｎｄＳｏｆｔｗａｒｅＩｍｐｌｅｍｅｎｔａｔｉｏｎＡｎａｌｙｓｉｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ，２０２１，３１（１０）：３７６５－３７７８．

［１６］ＹＥＹ，ＢＯＹＣＥＪＭ，ＨＡＮＨＡＲＴＰ．Ｏｍｎｉｄｉｒｅｃｔｉｏｎａｌ３６０°ＶｉｄｅｏＣｏｄｉｎｇＴｅｃｈｎｏｌｏｇｙｉｎＲｅｓｐｏｎｓｅｓｔｏｔｈｅＪｏｉｎｔＣａｌｌｆｏｒＰｒｏｐｏｓａｌｓｏｎＶｉｄｅｏＣｏｍｐｒｅｓｓｉｏｎｗｉｔｈＣａｐａｂｉｌｉｔｙＢｅｙｏｎｄＨＥＶＣ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓｆｏｒＶｉｄｅｏＴｅｃｈｎｏｌｏｇｙ，２０１９，３０（５）：１２４１－１２５２

［１７］ＢＯＹＣＥＪＭ，ＡＬＳＨＩＮＡＥ，ＡＢＢＡＳＡ，ｅｔａｌ．ＪＶＥＴＤ１０３０：ＪＶＥＴＣｏｍｍｏｎＴｅｓｔＣｏｎｄｉｔｉｏｎｓａｎｄＥｖａｌｕａｔｉｏｎＰｒｏｃｅｄｕｒｅｓｆｏｒ３６０° Ｖｉｄｅｏ［Ｃ］∥ＩＴＵＴＳＧ１６ＷＰ３ａｎｄＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１７ｔｈＭｅｅｔｉｎｇ．Ｔｏｒｉｎｏ：［ｓ．ｎ．］，２０１６：１２０５－１２１３．

［１８］ＺＨＡＮＧＭＬ，ＣＨＥＮＹＳ，ＬＵＸ，ｅｔａｌ．ＦａｓｔＣｏｄｉｎｇＵｎｉｔＰａｒｔｉｔｉｏｎＤｅｃｉｓｉｏｎｆｏｒＩｎｔｒａＰｒｅｄｉｃｔｉｏｎｉｎＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ［Ｃ］∥Ｔｈｅ１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｍａｇｅａｎｄＧｒａｐｈｉｃｓ（ＩＣＩＧ２０２１）．Ｈａｉｋｏｕ：ＡＣＭ，２０２１：７００－７１１．

作者简介

金雪松男，（１９７５—），博士，教授。主要研究方向：图像处理与模式识别、深度学习。

王田田女，（１９９７—），硕士研究生。主要研究方向：视频编码。

基金项目：黑龙江省自然科学基金（Ｆ２０１８０２０）

无线电工程2024年5期

无线电工程的其它文章: 低轨星座网络的空天地一体化无线光通信资源调度方法; 基于稀疏码多址接入技术的可见光通信系统性能研究; 格上身份基简短关联环签名及其电子投票应用; 基于改进ResNet的PMSM退磁与偏心故障诊断方法; 基于组合赋权TOPSIS的海上目标威胁评估; 基于融合注意力Bi-LSTM的V2X通信阻塞预测方法