视频主观观测实验启发的HEVC 感知帧内码率控制

2021-08-28 10:08公衍超王玲刘颖杨楷芳林庆帆王富平

通信学报 2021年8期

公衍超，王玲，刘颖，杨楷芳，林庆帆,4，王富平

（1.西安邮电大学通信与信息工程学院，陕西西安 710121；2.无线通信与信息处理技术国际联合研究中心，陕西西安 710121；3.陕西师范大学计算机科学学院，陕西西安 710119；4.新加坡Maschine Technology 有限公司，新加坡 787820）

1 引言

视频作为重要的信息传输载体，已经被广泛应用于人们的日常生活。在实时的视频通信系统中，传输信道的带宽通常是有限且时变的，如何在满足信道带宽限制的条件下尽可能提高视频的质量，是一个被广泛关注的研究问题。为了解决这一问题，码率控制技术[1]应运而生。码率控制技术的基本原理是综合考虑编码视频内容特性、信道带宽大小、缓存器状态等因素，给编码视频选择一组最优的量化参数（QP,quantization parameter）。使用这组QP编码视频后所产生的码率最接近信道带宽大小的同时，其对应的重建视频的质量最高。

随着硬件技术、信息处理技术等的飞速发展，在各类视频系统中，高清视频及其设备已经被普及。为了提高高清视频的编码效率，高效视频编码标准（HEVC,high efficiency video coding）被广泛应用[2]。在HEVC 标准化过程中，研究者先后提出了基于码率与QP 二次模型的码率控制算法、基于ρ域的码率控制算法和基于λ域的码率控制算法[3-4]，其中，ρ表示预测变换量化后取值为0 的系数的百分比，λ表示拉格朗日因子。由于基于λ域的码率控制算法具有更加高效的码率控制性能，因此其被HEVC 采用[5]。

文献[1,5]从拉格朗日率失真优化角度分析指出，相比于传统使用的QP，λ与码率的关系更加密切，通过调整λ可以获得更加精确的码率值。基于此，文献[1,5]提出了基于λ域的码率控制算法，其算法过程主要包括目标比特分配及QP 确定两大部分，即由分配的目标码率获得λ，再由λ得到最终编码的QP。文献[6-8]针对文献[1,5]中的一些算法细节进行了进一步的改进。针对帧内图像，文献[6]提出了一种基于绝对变换误差和（SATD,sum of absolute transformed difference）[9]的最大编码单元（LCU,largest coding unit）级码率控制算法。该算法将哈达玛变换后的SATD 作为复杂度衡量测度，根据LCU 的SATD 占剩余未编码LCU 的SATD 的比重为每个LCU 分配合适的目标比特。文献[7]考虑图像所处的时间层和视频内容特性的影响，提出了一种在编码过程中自适应更新计算图像目标比特分配权重的方法。为了在码率控制过程中获得更好的编码率失真性能，文献[7]构建了失真与λ的关系模型，并进一步结合已有的码率与λ的关系模型，从率失真优化的角度出发针对LCU 级的码率控制提出了考虑视频内容特性的最优比特分配方法。目前，文献[1,5-8]提出的算法由于高效的编码性能已经被HEVC 采用并集成到最新的测试模型HM[10]中。

但是上述算法[1,5-8]都是在优化编码视频的客观率失真性能，没有考虑人类视觉系统（HVS,human visual system）感知特性对于编码重建视频质量的影响。在视频通信系统中，重建视频的最终接收端通常是人眼。所以理论上，考虑HVS 相关感知特性，以优化重建视频感知率失真性能为目标的感知码率控制算法可以获得更好的编码性能及用户感知体验。因此，针对HEVC 标准，一些考虑HVS 感知特性的感知码率控制算法被相继提出[11-18]。

文献[11]把LCU 分成背景LCU 和前景LCU，并根据分类信息调整编码QP 以提高重建视频的感知质量，但是，在性能测试时还是以峰值信噪比（PSNR,peak signal to noise ratio）为质量测度。面向感兴趣区域（RoI,region of interest）视频编码应用，文献[12]提出了一种基于离散傅里叶变换系数模型和径向基函数神经网络的码率控制算法，使用均方误差（MSE,mean square error）作为质量测度用于率失真优化过程指导λ与QP 的选择。文献[13]采用梯度衡量图像中不同编码树单元（CTU,coding tree unit）的复杂度，并在帧内图像CTU 码率分配及QP 确定中考虑CTU 的梯度信息，最终为不同复杂度的CTU 分配优化的QP，但是在性能测试时也是以PSNR 为测度衡量人眼的感知质量。目前，大量研究已经表明，PSNR 或MSE 等不考虑HVS 感知特性的质量测度与人眼的感知质量一致性较差[14-16]。所以文献[11-13]中报道的感知率失真性能的提升还有待商榷。

文献[14-18]使用了一些考虑HVS 相关感知特性的质量测度以提高码率控制的感知率失真性能。针对帧内图像，文献[14]以结构相似度（SSIM,structural similarity）为质量测度，提出了一种CTU级的目标比特分配方法。同样以SSIM 为失真测度，文献[15]首先提出了LCU目标比特分配权重计算方法，并创建了与SSIM 匹配的新的码率与λ的关系模型用于指导λ与QP 的计算。面向帧内图像，文献[16]采用感知加权均方误差（PWMSE,perceptually weighted mean squared error）代替MSE，建立了码率与感知加权失真的关系模型，然后基于此率失真模型应用拉格朗日率失真优化理论推导得到感知加权因子，并最终利用感知加权因子指导CTU 级的目标比特分配。文献[17]提出了一种基于感知敏感测度（PSM,perceptual sensitivity measurement）的面向HEVC 帧间图像的感知码率控制方法，图像中的每个CTU 都对应一个PSM，PSM的取值与CTU 的空时复杂度及其对应的MSE 线性相关，PSM 的大小反映了人眼对于当前CTU 的感知敏感程度，将PSM 应用于目标比特分配中以提高码率控制的感知率失真性能。文献[18]采用一种经典的面向图像的考虑亮度掩盖与纹理掩盖的像素域恰可感知失真（JND,just noticeable distortion）模型[19]作为失真的基本衡量，然后基于此JND 模型构建了相应的率失真模型，并将其应用于HEVC码率控制中，以提高编码视频的感知率失真性能。但是由于包含了像素域JND 的计算过程及基于KKT（Karush-Kuhn-Tucker）条件的最优λ集合搜索方法等步骤，文献[18]提出方法的复杂度比较高。

相比于PSNR、MSE 等测度，SSIM、PWMSE、PSM、JND 考虑了部分HVS 感知特性，所以其与人眼感知质量的一致性相对较好。PSNR 与MSE 是以像素为基本单元进行计算的。但人眼在实际观测视频质量时，不可能精确地观测到像素点的差异，而是以图像中的区域或者物体为基本单元感知视频的质量。SSIM 是以图像区域为基本单元进行计算的。PWMSE、PSM、JND 在创建时考虑了HVS 的部分感知特性，例如掩盖效应。但是HVS 的质量感知是一个高度复杂的过程，目前对其运行机理、感知特性等方面的生理心理学研究还处于初始阶段[20]。所以仅模型化部分HVS 感知特性的SSIM、PWMSE、PSM、JND等测度与人眼实际感知质量还是有一定的差距[20-23]。另外，目前对于JND 的研究主要集中在对第一个JND等级（JND1）的研究[19-20,24-25]。JND1 只能反映感知有损对应的失真阈值，要进一步衡量感知有损以上的失真等级，得到一个完整的失真衡量测度，则需要创建多JND 等级模型[20-23]。多JND 等级是目前理论上最接近人眼感知的失真测度。但是受限于HVS 的相关基础研究，目前对多JND 等级的研究进展缓慢。综上，虽然相比于HEVC 原始码率控制算法，采用SSIM、PWMSE、PSM、JND 等作为失真测度基于拉格朗日率失真优化理论思路提出的码率控制算法[14-18]在一定程度上提升了码率控制的感知率失真性能，但其提升的空间有限。

在设计感知视频编码算法时，除了上述提到的采用某一具体感知失真测度基于拉格朗日率失真优化的思路外，还有一种切实可行的思路是设计视频主观观测实验[20]，即针对具体感知问题，设计匹配的主观观测实验，然后在主观观测结果的指导下设计相关的感知算法。此思路需要设计合适的视频主观观测实验，在获得人眼感知准确结果的同时有效规避了质量测度问题。本文采用设计视频主观观测实验的思路，考虑视频内容特性及其对应的感知特性，提出了一种面向HEVC 帧内图像的LCU 级感知码率控制算法。

2 所提算法

本节对所提算法进行详细说明。首先描述衡量视频空时域复杂度的测度，然后结合此测度说明视频主观观测实验的设计及视频内容空时域感知敏感因子的构建，最后说明空时域感知敏感因子在帧内图像码率控制中的应用，并引出所提算法的详细流程。

2.1 视频内容空时域复杂度衡量

作为一个多维的数字信号，数字视频的内容特性通常可以从空域和时域2 个角度进行分析。空域复杂度和时域复杂度通常又被分别称为纹理复杂度和运动复杂度。

使用像素亮度分量的梯度衡量视频图像的纹理复杂度。梯度越大表明视频图像纹理越复杂。图像的梯度T为

其中，w和h分别表示图像的宽度和高度；x(i,j) 表示当前图像中坐标为(i,j) 的像素的亮度分量值，图像最左上角的像素为起始像素，其坐标为(1,1)。

采用帧差衡量视频的运动复杂度，帧差越大表明视频内容运动越快。图像的帧差D为

其中，x′(i,j)表示前一幅图像中坐标为(i,j)的像素的亮度分量值。

2.2 纹理感知敏感因子

2.2.1 视频主观观测实验设计

目前常见的视频应用包括广播电视、视频监控、视频会议、视频网络点播等。按照人眼对于视频内容的感兴趣程度，视频中的内容通常被划分为人、车、物三类[26-27]。所以本文在设计主观观测实验时，选择的测试图像也覆盖这三类内容，并且其空时域复杂度也对应一个比较广泛的范围。如图1 所示，选择的测试图像都是从标准视频中裁剪出的包含单一内容的图像，每幅图像的梯度值在图像下方给出。测试图像共分三组，图1(a)～图1(g)为第一组，图1(h)～图1(n)为第二组，图1(o)～图1(u)为第三组，每组图像都包括人、车、物三类内容，且都包含纹理简单到复杂的内容。

图1 测试图像

对于每一组图像，将该组的7 幅图像随机地按照从上到下的顺序等间隔排列到显示器的最左端。然后让这些图像以相同的运动速度水平向右匀速运动。显示器的分辨率为3 840 像素×2 160 像素。同时，为了尽可能地消除显示器背景色彩对人类视觉注意力的影响，将显示器的背景色设置为中灰色[28]。其他的实验室环境严格按照文献[28]中的规定设置。

根据标准规定[28]，选择30 位对视频图像处理领域不熟悉的非专家类型人员作为测试者，包括18 名男性和12 名女性。这些测试者都通过了必要的视觉感知能力测试，包括采用Snellen 氏E 字视力表的视敏度检测、采用石原氏色盲检测图的彩色视觉检测。采用单激励重复播放（SSMR,single stimulus with multiple repetitions）方法播放每组图像。测试者观看图像的距离大约是图像高度的4 倍[29]。第一次播放某组图像时，测试者只需观测，播放完毕后显示器屏幕上内容全部消失，保持3 s 后第二次播放该组图像。在第二次播放图像时，要求测试者按照约定的规则对该组所有图像按照其感兴趣程度进行评级打分。

本文实验中使用的评级打分准则如图2 所示。定义感兴趣程度得分（SoI,score of interest）衡量人眼对于图像内容的感兴趣程度，一共分为5 个等级，对每组图像的评级打分按照下面步骤顺序执行。步骤1，选出7 幅图像中最感兴趣（对应SoI=5）和最不感兴趣（对应SoI=1）的图像；步骤2，在剩余的图像中选出中等感兴趣（对应SoI=3）的图像；步骤3，将剩余图像与中等感兴趣图像进行比较，感兴趣程度较高的为SoI=4 的图像，其他图像为SoI=2 的图像。

图2 SoI 测度

考虑测试者个体先验知识的差异性及个体观测认真程度的差异性对于评级打分的影响，为了得到更加准确的实验数据，首先采用95%置信区间的方法对观测者评价打分数据进行筛选处理。具体处理过程如下。

计算所有测试者对第g幅图像评级打分的均值为

其中，L是测试者人数，本文实验中L=30；vr,g是第r个测试者对第g幅图像的评级打分值，即SoI 值。

所有测试者对第g幅图像评级打分的标准差Sg为

按照式(5)重新计算第g幅图像对应的筛选后所有评级打分值的平均值为

2.2.2 实验数据分析与建模

采用式(5)计算的评级打分平均值衡量人眼对不同纹理复杂度图像内容的感兴趣程度。为了后续内容描述一致性，这里重新定义一个变量，即纹理感知敏感因子PT。对于一幅测试图像，其对应的PT值等于式(5)计算的评级打分平均值，即用PT衡量人眼对不同纹理复杂度图像内容的感兴趣程度。图3给出了所有测试图像的梯度T与纹理感知敏感因子PT的关系。

图3 T与PT的关系

对图3 中的数据采用最小二乘法进行拟合，拟合精度用相关系数的平方R2衡量[3,29]。拟合曲线模型如式(6)所示。

其中，a1～a5是模型参数，取值分别为-1.618 9×10-5、0.001 8、-0.072 6、1.008 4、0.0115。

由图3 可以看出，相比于纹理简单和纹理复杂的图像内容，人眼对中等纹理复杂度的图像内容具有更高的感知敏感度，这一实验结果与HVS 的相关感知特性是相符的[30-31]。纹理简单的图像内容包含的信息量较少，由于HVS 选择注意力机制的作用，这类区域很难吸引人眼的关注。纹理复杂的图像内容虽然包含较多的信息量，但由于纹理掩盖效应的影响，人眼很难分辨其细节信息，因此感知敏感度会降低。相比于前两类图像内容，中等纹理复杂度的图像内容包含了较丰富的信息量，易引起人眼的关注，同时其对应的纹理掩盖效应作用微弱，人眼易分辨图像内容细节，因此其对应的感知敏感程度最高。

2.3 运动感知敏感因子

2.3.1 视频主观观测实验设计

选择图1(f)、图1(i)、图1(r)所示的3 幅纹理复杂度具有显著差别的图像作为测试图像。对每一幅测试图像执行以下操作：首先复制当前测试图像，生成另外6 幅内容完全相同的图像，并将这7 幅图像按照从上到下的顺序等间隔排列到显示器的最左端；然后让这7 幅图像以随机确定的运动速度水平向右匀速运动。本节实验中共设定了由慢到快7 个运动速度等级，对应于7 幅图像，其运动速度快慢由帧差D衡量。

主观观测实验涉及的其他内容，如硬件环境、测试者选择、视频播放方法、评级打分规则、测试者评价打分数据筛选处理等与2.2.1 节描述相同。最后，定义运动感知敏感因子PD衡量人眼对于不同运动等级图像内容的感兴趣程度。图像的DP值等于图像对应的经过筛选后所有评级打分值的平均值。

2.3.2 实验数据分析与建模

所有测试图像的帧差D与运动感知敏感因子DP的关系如图4 所示。其关系可以用式(7)所示的多项式关系准确拟合。

图4 D与PD的关系

其中，b1～b5是模型参数，取值分别为-1.464×10-8、8.901 3×10-6、-0.002、0.155 6、0.867 3。

由图4 可以看出，人眼对不同纹理复杂度的图像具有相似的运动感知敏感特性，即相比于运动慢和运动快的图像内容，人眼对于运动速度中等的图像内容更加敏感。这一现象也与HVS 的相关感知特性一致[32-33]。受HVS 选择注意力机制的影响，人眼容易首先关注视频中运动速度中等或快的图像内容，而易忽略运动速度慢或静止的图像内容。另外，运动快的图像内容虽然易吸引人眼的关注，但是受运动掩盖效应的影响，人眼很难观察到图像内容的细节信息，因此其对应的感知敏感程度会显著降低。而运动速度中等的图像内容不仅易吸引人眼关注，并且运动掩盖效应的作用微弱，所以其对应的感知敏感程度最高。

2.4 空时域感知敏感因子

人眼在实际观测视频时，会同时对视频区域的纹理及运动特性进行观察感知，所以在这一过程中，视频区域的纹理特性和运动特性并不是孤立地作用于人眼的感知，而是相互融合地影响人眼的感知。这就决定了人眼对于视频区域的感知敏感程度不是纹理感知敏感因子PT和运动感知敏感因子PD的简单累加，而应考虑这2 个因素在融合影响过程中所产生的重叠效应[31]。

文献[31]在研究多种掩盖效应对视频感知质量影响时通过建立非线性加法模型来消除多影响因素间的重叠效应。借鉴这一研究，本文使用如式(8)所示的非线性加法模型构建视频内容空时域感知敏感因子P。

其中，min()表示取最小值函数；μ表示重叠效应系数，0＜μ＜1，μ值越大，表示重叠效应越显著。所提算法中，μ设置为0.2。

式(8)构建的空时域感知敏感因子具有普适性，适用于监控视频、会议视频及其他自然视频。第3 节的实验结果也验证了空时域感知敏感因子的有效性和普适性。

2.5 所提算法的框架

与传统的基于λ域的码率控制算法[3]相同，所提算法也主要分为目标比特分配和QP 确定两部分。所提算法具体步骤如图5 所示。

图5 所提算法具体步骤

1) GoP 级目标比特分配

视频在编码前，首先根据图像在视频中的显示顺序将其划分到不同的图像组（GoP,group of picture）。GoP 是码率控制目标比特分配过程中最大的处理单元。所提算法按照式(9)进行GoP 级的目标比特分配。

其中，Rc表示视频中第c个GoP 分配的目标比特，round ()表示四舍五入取整函数，Nc表示GoP 的大小，Rc,left表示编码视频剩余的目标比特数，Nc,left表示视频中剩余未编码的图像数，SGoP表示GoP 级滑动窗口的大小，用于保证重建视频质量的平滑性，SGoP取固定值40[1]，RPicAvg表示视频每幅图像对应的平均目标比特数，计算式为

其中，Rtar表示目标码率，F表示视频的帧率。

2) 图像级目标比特分配

针对帧内图像提出的码率控制算法通常采用全帧内结构进行算法性能测试，对于全帧内编码结构，其GoP 默认为1。所以，第c个GoP 第m帧的目标比特数Rc,m为

其中，Cc,m为第c个GoP 第m帧经过哈达玛变换后的 SATD；m=1；α、β为模型参数，当40Rc,m,left＜wh时，α=0.25，否则，α=0.3，β=0.558 2；Rc,m,left为视频中未编码的每帧平均剩余比特数，计算式为

3) LCU 级目标比特分配

在编码第c个GoP 第m帧的所有LCU 之前，对其所有的LCU 先分配一个基础目标比特。第c个GoP 第m帧第n个LCU 的基础目标比特Rc,m,n为

其中，Pc,m,n为第c个GoP 第m帧中第n个LCU 的感知敏感因子，其计算模型如式(8)所示；Cc,m,n为第c个GoP 第m帧第n个LCU 经过哈达玛变换后的SATD；NLCU为一幅图像中LCU 的总数。

对第c个GoP 第m帧第n个LCU 进行编码时，根据当前帧实际已经编码的数据，对该LCU 按照式(14)分配其对应的实际目标比特。

其中，Rc,m,left为第c个GoP 第m帧剩余的目标比特数；Rc,m,k和Ac,m,k分别为第c个GoP 第m帧第k个LCU 分配的基础目标比特和实际编码的比特，其中1≤k≤n-1；Nc,m,left为第c个GoP 第m帧剩余未编码的LCU 数目；SLCU为LCU 级滑动窗口大小，其取固定值4[6]。

根据式(13)和式(14)可以看出，对当前LCU 分配目标比特时考虑了当前LCU 感知敏感因子和其他LCU 感知敏感因子的影响。相比于当前帧其他LCU 的感知敏感因子，如果当前LCU 的感知敏感因子较大的话，则认为人眼对其感知较敏感，其对于整帧图像质量的影响较大，则对其分配更多的实际目标比特，优先保证其编码质量。

4) QP 确定

图像级QP 按照文献[6]中的策略确定。第c个GoP 第m帧第n个LCU 的拉格朗日因子λc,m,n为[6]

其中，χ和φ为模型参数，其初始值分别为6.754 2和 1.786 0，其后取值随视频内容特性更新；φ=1.251 7[6]；Nc,m,n为第c个GoP 第m帧第n个LCU 的像素数。

第c个GoP 第m帧第n个LCU 的量化参数Qc,m,n为[34]

为了减少重建视频中的质量波动，根据式(17)和式(18)对Qc,m,n的取值进一步调整。

其中，Qc,m是第c个GoP 第m帧的QP。

特别说明，文献[6]提出的如式(15)所示的计算帧内LCU 拉格朗日因子的模型和文献[34]提出的如式(16)所示的QP 与λ的关系模型，由于高效的编码性能被HM 原始码率控制算法及一些其他的码率控制算法[1,3,5]所采用。本文所提算法仍然默认采用式(15)和式(16)所示的模型计算QP。采用其他的模型计算QP 理论上也是可行的，但需要重新设计及调整码率分配部分与QP 确定部分涉及的模型或者参数，使其匹配，从而获得高效的编码性能。

2.6 所提算法的流程

所提算法的完整流程描述如下。

步骤1对于待编码的视频图像，根据式(1)和式(2)分别计算图像中每个LCU 对应的梯度值和帧差值。

步骤2根据式(6)～式(8)，计算得到每个LCU对应的空时域感知敏感因子Pc,m,n。

步骤3根据式(9)～式(14)完成GoP 级、图像级及LCU 级的目标比特分配过程。

步骤4采用文献[6]的策略计算图像级量化参数Qc,m，然后根据式(15)～式(18)得到每个LCU 对应的拉格朗日因子λc,m,n和量化参数Qc,m,n。

步骤5使用Qc,m,n编码当前LCU。循环执行步骤1～步骤5，直到整个视频编码完成。

3 实验结果

3.1 实验设置

目前文献[6]提出的码率控制算法已经被HEVC 采用，并被集成到测试模型HM16.0 中（简称HM16.0 算法）。针对帧内图像，文献[3-4,13]分别从不同角度提出了优化的码率控制算法。本节将详细比较所提算法和HM16.0 算法、文献[3]算法、文献[4]算法、文献[13]算法的编码性能。

选择如表1 所示的13 个包含不同分辨率和内容特性的视频作为测试视频。首先，将HM16.0 中的码率控制功能关闭，将全帧内编码结构配置文件encoder_intra_main.cfg[35]中的参数QP 分别设定为34、37、40、42 的情况下编码每一个测试视频，从而获得每一个测试视频对应的4 个目标码率。然后在已经获得的4 个目标码率下，分别用不同的算法编码每一个测试视频，获得最终的编码结果。

对于码率控制算法来说，比特估计准确度及率失真性能是2 个核心指标[1,3,36]。同时，算法的复杂度也是需要关注的指标。所以下面依次从比特估计准确度、率失真性能、算法复杂度3 个方面分析所提算法的性能。

3.2 比特估计准确度

采用被广泛使用的如式(19)所示的比特误差（BE,bit error）[1,3]衡量码率控制算法的比特估计准确度。

其中，Ract为视频实际编码码率，单位为kbit/s。

BE 计算结果如表1 所示，其中每个视频的BE为其对应的4 个目标码率下获得的4 个BE 的平均值。由表1 的数据易看出，对于大部分视频，所提算法都可以获得较小的BE 值。另外，对于所有的视频，HM16.0 算法、文献[3]算法、文献[4]算法、文献[13]算法及所提算法的BE 平均值分别为0.005 9%、0.005 5%、0.002 1%、0.002 7%和0.002 0%。由此可见，所提算法的比特估计更加准确。

表1 不同码率控制算法的BE

3.3 率失真性能

本文采用被广泛使用的Bjøntegaard 德尔塔码率（BD-rate）[37]衡量码率控制算法的率失真性能。在计算不同算法的BD-rate 时，将HM16.0 算法设定为基准算法，失真测度使用平均主观得分（MOS,mean opinion score）五级失真测度[28]。将原始视频作为基准视频，分别获得HM16.0 算法、文献[3]算法、文献[4]算法、文献[13]算法和所提算法对应的重建视频的MOS 值。

表2 给出了不同码率控制算法的BD-rate。对于所有测试视频，文献[3]算法、文献[4]算法、文献[13]算法和所提算法对应的BD-rate 平均值分别为-3.764 8%、-0.279 6%、-7.045 3%、-16.133 6%。即相比于HM16.0 算法，文献[3]算法、文献[4]算法、文献[13]算法和所提算法可以在获得同等质量的重建视频前提下，码率分别平均减少3.764 8%、0.279 6%、7.045 3%、16.133 6%。所以，所提算法的率失真性能更好。这里特别说明，由于在计算BD-rate 时，HM16.0 算法被选为基准算法，因此对于每个测试视频，HM16.0 算法对应的BD-rate 值都为0。考虑表2 的空间有限，HM16.0 算法对应的BD-rate 值不在表2 中呈现。

表2 不同码率控制算法的BD-rate

另外，相比于其他视频，所提算法对于背景内容几乎不动而前景内容运动的视频更加有效。这类视频中最典型的为监控视频和会议视频。对于这类视频，大部分人在观看时容易被前景运动的内容所吸引。相应地，在主观测试时大部分测试者的测试结果都比较一致，即他们会更加关注前景运动区域的质量，前景运动区域的质量提升对整个视频编码的率失真性能影响很大。所提算法能够有效提高前景区域的感知质量。但是，对于其他类型的视频，例如整幅图像内容都在运动的视频，不同测试者在观看这类视频时观测的结果（例如感兴趣的区域）容易产生分歧。所以对于这类视频，比较难以提出为大部分测试者都认可的感知模型或者算法。

图6～图8 分别给出了Johnny、Intersection、Corridor2 这3 个序列的率失真性能曲线，以直观地说明不同码率控制算法的率失真性能。

由图6～图8 可以得到以下2 个结论。首先，所提算法的率失真性能曲线始终位于其他算法率失真曲线的上方，即在同等码率下，所提算法可以获得更高感知质量的重建视频，所提算法的率失真性能更高。其次，在不同码率段下，所提算法的感知质量提升有较大差异。在中等码率下，所提算法对应的感知质量提升较明显，相应地，在高码率和低码率下感知质量提升相对较小。

图6 Johnny 序列率失真曲线

图7 Intersection 序列率失真曲线

图8 Corridor2 序列率失真曲线

在高目标码率下，HM16.0 算法对应的重建视频感知质量较好，其与原始视频之间的质量差距较小，感知质量可提升的空间很小。同时，韦伯-费希纳定律[38]也决定了此时只有所提算法重建视频比HM16.0 算法重建视频有较大的质量提升，人眼才能够感知到质量的变化。上述原因共同决定了在高码率下很难提升重建视频的感知质量。在低目标码率下，由于目标比特资源很有限，这时从感知敏感度较低区域给感知敏感度高的区域搬移的少量码率不足以使感知敏感度高的区域产生明显的感知质量提升。

图9～图11 分别给出了KristenAndSara 序列第172 帧、Intersection 序列第144 帧和BQMall 序列第36 帧，来直观展示不同算法的重建图像质量。图9 中可以明显看出，相比于其他算法的重建图像，所提算法对应重建图像中右边女士的面部区域，例如牙齿、鼻子、眼睛、嘴唇等区域，更加清晰，更加接近于原始图像中的相关内容。图10(b)～图10(e)中重建图像右下角轿车的车牌信息已经模糊不清甚至完全丢失，而图10(f)中所提算法重建图像对应的车牌区域仍然可以看清楚部分车牌字符，例如第4 个字符“2”和第5 个字符“6”。由图11 也可以明显看出，相比于其他算法的重建图像，图11(f)中所提算法重建图像中右下角坐着的女士的面部区域细节更清晰。

图9 KristenAndSara 序列第172 帧图像及其局部区域放大图

图10 Intersection 序列第144 帧图像及局部区域放大图

图11 BQMall 序列第36 帧图像及局部区域放大图

3.4 算法复杂度

采用编码时间衡量算法的复杂度[3]。算法运行的主要软硬件环境为Windows 10 操作系统，处理器为Intel(R) Core(TM) i7-6700 CPU（3.40 GHz），内存8.0 GB。具体地，采用式(20)所示的ΔT衡量各码率控制方法的复杂度。

其中，Tori表示HM16.0 算法对应的编码时间，Tpro表示文献[3-4,13]算法或所提算法对应的编码时间。

表3 给出了不同码率控制算法的ΔT。对于所有的测试视频，文献[3]算法、文献[4]算法、文献[13]算法以及所提算法对应的ΔT平均值分别为-4.777%、0.004%、0.055%和0.078%。由此可见，与HM16.0 算法相比，所提算法的编码复杂度增加是非常小的。特别说明，由于在计算ΔT时，HM16.0 算法被选为基准算法，因此对于每个测试视频，HM16.0 算法对应的ΔT值都为0。

表3 不同码率控制算法的ΔT

4 结束语

本文提出了一种有效提高码率控制准确度及感知率失真性能的HEVC 感知帧内码率控制算法。所提算法通过设计匹配的视频主观观测实验，在主观观测实验结果的指导下，构建了准确反映人眼对于视频纹理及运动感知敏感程度的空时域感知敏感因子，并将空时域感知敏感因子应用于LCU 级比特分配过程中，完成整个码率控制过程。算法为中等纹理复杂度及中等运动速度等人眼感知敏感的区域分配更多比特，从而提升了整个视频的感知质量。实验结果证明，在码率控制准确度及感知率失真性能方面，所提算法优于HM16.0 算法。本文的研究进一步证明了基于设计视频主观观测实验的思路研究感知码率控制算法的有效性。本文的研究思路可被进一步拓展到针对HEVC 帧间图像和针对其他视频应用或其他视频类型的码率控制算法研究中。