新一代视频编码主客观评价结果一致性探究

2021-07-01 08:53:52孟昭旭朱宏宣

现代电影技术 2021年6期

孟昭旭朱宏宣

（1.北京电影学院中国电影高新技术研究院，北京 100088）（2.北京电影学院影视技术系，北京 100088）

1 引言

近年来，电影、电视、互联网视频尤其是用户生产内容快速增长，视频技术指标不断提升，网络流媒体平台开始支持4K、8 K、HDR片源，视频数据量呈指数式上升，而存储技术的发展和存储媒介容量的增长却远远滞后，因此，更高的压缩率成为了存储海量视频内容的必然选择。在这种情况下，新一代视频编码VVC、AV1和AVS3应运而生，其压缩效率相较于目前广泛使用的视频编码AVC和HEVC有较大的提升。

为了量化新一代视频编码的压缩效果，需要对画面质量进行评价，其方法可以分为主观评价和客观指标评价两种方式。主观评价是衡量视频质量最准确的方法，因为人对视频质量的感知是主观的。客观指标评价快速便捷，只要确定了客观指标的计算公式，即可自动化批量评价视频，但是客观指标评价结果与主观评价结果并不完全相符，存在一定的差异。近年来，出现了一些更符合人类视觉特征的客观评价指标，例如VMAF，其评价结果更接近主观结果。

针对主客观评价结果差异的问题，本文在应用新一代视频编码进行压缩测试的基础上，对各视频编码在不同码率下的压缩画面进行主客观评价结果的对比实验，探究客观指标评价结果的准确性。本次测试共涉及五种视频编码:AVC（H.264）、HEVC（H.265）、VVC（H.266）、AV1、AVS3。其中，AVC仍是目前使用最广泛的视频编码，HEVC是当下性能表现优异，已经得到成熟应用的视频编码。因此，选取AVC和HEVC作为对照组，新一代视频编码VVC、AV1和AVS3作为实验组。

2 测试使用的五种视频编码简介

2.1 应用最广泛的视频编码系列——H.26x系列

AVC，即Advanced Video Coding，高级视频编码，也被称作ITU－T H.264或MPEG－4 Part 10，由联合视频组（JVT）在2003年确立第一版标准。AVC编码与之前的编码相比，压缩率大大提升，同时编解码复杂度控制得较好，编解码速度较快，这使得AVC编码迅速普及。由于其广泛的平台支持性，截至2020年，AVC编码依然是视频行业中使用率最高的编码。

HEVC，即High Efficiency Video Coding，高效视频编码，也被称作ITU－T H.265或MPEGH Part 2，由视频编码联合协作组（JCT－VC）于2013年标准化。HEVC在同等视频质量下的压缩率比AVC提高25～50%，是当前性能较强的视频编码。但是，与AVC相比，HEVC的授权费不仅更贵，而且混乱，与HEVC相关的专利由多个专利池负责收费，这也导致HEVC至今为止都没能像AVC编码一样普及。

VVC，即Versatile Video Codec，多功能视频编码，也被称为ITU－T H.266或MPEG－I Part 3，由联合视频专家组（JVET）于2020年7月发布了第一版标准。VVC在相同的视频感知质量下可以比HEVC提高50%的压缩率。VVC在制定的过程中充分地考虑了视频的高技术指标趋势并进行了针对性的优化，如8 K高分辨率、12bit高位深、PQ和HLG高动态范围曲线、Rec.2020宽色域、全景视频、3D视频等。因此对于高技术指标的视频，VVC能表现出更优异的压缩性能。

2.2 开源免费的编码——AV1

AV1视频编码是由开放媒体联盟（Alliance for Open Media）开发的开源、免费的视频编码，于2018年发布了第一版标准。开放媒体联盟是一个非盈利组织，成员包括谷歌、微软、苹果、英伟达等互联网和芯片企业，旨在开发无版权的音视频编码标准，以满足网络视频压缩和传输的开放标准需求。AV1编码继承于谷歌的开源免费编码VP8和VP9，与它们相比，AV1具有更高的压缩率。由于其开源免费，性能优良，AV1正在取得越来越广泛的应用。

2.3 我国自主研发的音视频编码标准——AVS3

AVS，即Audio Video coding Standard，音视频编码标准，由我国的数字音视频编解码技术标准工作组负责开发制定。工作组制定的AVS1、AVS2两代编码，已分别于2006年和2016年被颁布为国家标准。目前AVS标准广泛应用于我国的广播电视领域，正在进军互联网视频领域和监控领域。2019年3月，数字音视频编解码技术标准工作组完成了AVS3基准档草案，性能超过AVS2编码30%左右。目前，由北京大学深圳研究生院团队开发的AVS3编解码器“天枢”u AVS3e和“天璇”u AVS3d已经开源发布。其中，“天枢”编码速度与AVS3标准参考软件相比有数十倍的提升。

3 视频质量评价方法

3.1 主观评价——MOS

MOS，即Mean Opinion Score，平均意见分，其分数范围一般是1～5分。由于MOS评判的环境不一，比如显示器大小、观看距离、环境亮度等不同，所以每个MOS测量结果都需要标注测试时的具体环境参数，同时不建议直接使用不同测试环境下得到的MOS分进行横向对比。由于需要人工参与并标准化测试场景，所以进行MOS评价费时费力，不方便大规模部署，应用范围受限。

3.2 基础客观评价指标——PSNR

PSNR，即Peak Signal-to-Noise Ratio，峰值信噪比，指的是信号的最大可能功率与噪声功率之比。PSNR公式如（1）所示，单位是dB:

式（1）中:MAX＝2－1，n为图像的位深度。MSE为均方误差，即原始图像与压缩图像每个像素误差的平方和的平均值。

PSNR是用来评估有损压缩质量的最常用的指标之一。一般情况下，PSNR的值越高，压缩画面的质量越好。如果对8bit位深的图像进行压缩，PSNR的值一般在30dB至50dB之间；如果是无损压缩，那么MSE为0，PSNR的值为无限大。PSNR的局限性在于只考虑了每个像素之间的绝对差别，但人眼并不是逐个像素去观看画面的，因此并不符合人眼的视觉感知特点，这意味着即使是相同PSNR的两段压缩视频，也有可能呈现出不同的主观质量。

3.3 考虑人类视觉特点的客观评价指标——SSIM

SSIM，即Structural Similarity Index Measure，结构相似性指数。它由德州奥斯汀大学的Zhou Wang等人于2004年开发。SSIM指标设计的初衷是提升对图像主观质量预测的准确度。SSIM主要评价人类可感知到的图像差别。给定图像x和图像y，SSIM的公式如下:

SSIM的值在0和1之间，一般情况下，其值越高，压缩画面的质量越好。由于考虑到了画面中亮度、对比度和结构特征，SSIM在一定程度上更符合人类的主观感知。

3.4 基于机器学习的客观评价指标——VMAF

VMAF，即Video Multimethod Assessment Fusion，视频多方法评估融合，是由Netflix公司开发的一种基于机器学习的视频客观评价指标。Netflix为了解决海量流媒体的质量控制问题，开发了VMAF指标，其预测视频主观质量的准确度高于PSNR和SSIM等传统指标。

VMAF的原理是提取视频的空域和时域特征，特征提取过程中会考虑到人类视觉特点如对比度掩蔽效应和亮度掩蔽效应。然后召集测试者在特定测试环境下对视频质量进行主观评价得到MOS分。最后通过支持向量机（SVM）将这些特征值和MOS分数拟合得到VMAF模型。VMAF分值范围在0到100之间，分值越高，代表压缩画面的质量越好，一般来说，75分以上有较好的观感。

VMAF依然存在局限性。对于不同观看媒介上的同一段视频，比如手机和电视，其主观感受是不同的，所以针对不同的观看媒介需要训练不同的VMAF模型，比较繁琐。另外，VMAF和PSNR、SSIM一样，是一种完全参考评价指标（Full-reference），VMAF分数是相对于原始参考视频而言的，不代表绝对质量，即VMAF分数只适用于对比同一视频源所产生的压缩视频的质量，而不适用于横向对比不同视频源所产生的压缩视频的质量。

4 主客观评价结果一致性测试实验

实验主要分为客观测试和主观测试两部分。5种视频编码均参与PSNR、SSIM、VMAF客观指标测试，但是由于AVC编码在实验所要求的低码率下必然存在明显瑕疵和画面崩坏，不具备主观测试意义，因此AVC编码不参与主观测试。

4.1 测试参考序列的准备

表1 五段测试参考序列的信息

图1 测试序列截图:依次为风景、特写、肖像、运动物体、运动人物

测试参考序列来自于各品牌摄影机官网示例素材和网络无版权素材，均为摄影机RA W格式文件。选取有代表性的片段导入达芬奇软件中进行剪辑和处理，将内容相似的若干个镜头组合为一段测试参考序列，最终组合成5段测试参考序列:风景、特写、肖像、运动物体、运动人物，以求尽可能模拟视频中可能出现的各种内容。最终，将这5段参考序列输出为25帧率、1920×1080分辨率、8bit位深、ST1886 EOTF和Rec.709色域的I420像素格式的无压缩YUV文件，作为最高质量源参考文件。

4.2 测试参考序列的编解码

将5段参考序列的YUV源文件分别使用5种编码压缩至0.1、0.2、0.5、1、2、5 Mbps 6档码率，得到150个压缩视频文件。接着用相应的解码器解码这些文件，得到150个解码重建后的YUV文件。

上述过程中使用符合对应编码标准的开源编解码器进行编解码。AVC、HEVC、VVC、AV1、AVS3使用的编解码器分别为x264、x265、VVen C/VVde C、ao m-av1、u AVS3e/u AVS3d。其中x264、x265编解码器可直接通过FFmpeg调用，新一代视频编码的编解码器VVen C/VVdeC、ao mav1、u AVS3e/u AVS3d可下载源码并编译后使用。

表2 编码测试片段使用的命令示例

4.3 客观评价过程

客观指标的计算是通过逐一对比测试参考序列的源YUV文件和各个码率解码重建后的YUV文件完成的。其中，PSNR和SSIM指标的计算可以通过调用FFmpeg中的Co mplex Filter模块进行，VMAF评价指标已开源，可下载并编译后使用，本次测试中使用的VMAF模型版本为0.6.1。

图2 客观测试数据（局部）

4.4 主观评价过程

主观测试使用的显示设备为OLED电视，电视机对角线约127厘米，分辨率3840×2160，亮度100尼特，EOTF设置为ST1886，色域设置为Rec709。待测试画面分辨率为1920×1080，恰好能在电视机上以像素点一一对应的方式显示4组画面。将AV1、AVS3、VVC、HEVC编码压缩重建的视频随机分配到画面左上、右上、左下、右下4个不同位置，对5段测试序列分别使用5种不同的分配顺序，并将分配顺序记录下来。

邀请10位测试者，每位测试者单独进行测试。测试者采用坐姿，距离电视机1.5米，水平视角约47度。每位测试者需观看风景、特写、肖像、运动物体、运动人物5段测试序列，每段测试序列有6种码率，共30段视频，每段视频的左上、右上、左下、右下4个位置分别对应某一种编码。测试者每观看完某一测试序列的某一码率后，立刻对4个不同位置的画面进行主观质量分（1～5）评价，并将结果记录在表格中，记录完成后再观看下一段视频，这一过程重复进行直至观看完30段视频。测试者在测试时并不清楚不同画面位置所对应的编码，因此更能保证测试结果的准确性。

测试结束后收集10张主观质量评分表。根据事先记录的画面分配顺序，将表格中左上、右上、左下、右下四个画面位置还原为对应的视频编码，然后计算每种编码在每段测试序列的每种码率下的得分，最后将得分归一化至0～100。

图3 主观测试环境和主观评测表（局部）

4.5 实验结果和分析

由于篇幅所限，不再单独展示每段测试序列的结果，而是取5段测试序列结果的平均值作为最终的客观指标测试结果和主观质量评价结果。

从图4可以看出，主观和客观评测均显示在任何压缩码率下，新一代视频编码的画面质量都优于HEVC，更明显优于AVC，而且码率越低这种优势越明显。在小于0.2 Mbps的超低码率下，AV1、AVS3、VVC编码的客观得分虽然稍有差距，但主观感受上三种编码画面均有可分辨的瑕疵，只是瑕疵具有不同的特点；当码率升至1 Mbps以上时，AV1、AVS3、VVC压缩编码之间的差距就变得极小，在主观上几乎无法区分，此时只能分辨出HEVC编码的画质更差一些；如果画面中运动内容较少，比如在观看肖像、风景测试序列时，就更难分出差别。值得一提的是，当画面中存在剧烈运动且在0.1 Mbps的极低码率下，HEVC出现了画面崩坏的现象，AV1、AVS3、VVC虽然也会观察到明显的块状效应和模糊，但至少保证了画面质量在“可观看”的范围内，这也更加体现了新一代压缩编码的优势，在超低码率下能保证更好的观感。

图4 五段测试序列测试结果平均值

图5 PSNR、SSIM、VMAF与主观评价分的关系

对PSNR、SSIM测试结果进行归一化处理，得到3种客观指标测试结果与主观评价结果关系的散点图。如果客观指标测试结果与主观评价结果完全一致，那么所有的点都会落在直线y＝x上。在此规定指标D，其值为散点图中的每个点到直线y＝x的距离的平方和。D值越小，说明客观评价与主观评价的一致性越高。经计算，PSNR、SSIM、VMAF的D值分别为725.8、616.1、195.6。由此得出在本次实验中VMAF指标的评测结果与主观评价结果的一致性程度更高，优于PSNR和SSIM，能够在一定程度上更好地预测视频的主观质量。

5 结语

本文应用新一代视频编码进行视频压缩，并在此基础上对压缩画面进行主客观评价，探究评价结果的一致性。本次实验过程中也有可改进之处，例如在主观实验中如何布局主观评分表才能更方便测试者快速进行打分，如何设置测试序列时长和镜头切换速度才能使测试者既有时间充分记忆对比画面内容又能保证其注意力不会下降。在今后的实验中，将会基于测试者的反馈进行改进。

新一代视频编码与现有视频编码相比，压缩效率和质量得到了明显提升，主观和客观评测都印证了这一点。相信在不久的将来，新一代视频编码会在电影、电视、互联网视频中得到广泛的应用，届时我们就能以更小的存储代价和更窄的带宽需求观看到质量更高的画面内容。另外，随着VMAF等基于人类视觉特征和机器学习的新型客观指标的完善和推广，在批量控制视频质量、权衡码率和画质的关系时，客观评价指标将成为越来越有力的工具。