李 宁
(河南大学 欧亚国际学院,河南 开封 475000)
2020 年,新冠肺炎疫情爆发,改变了人们的日常生活方式和工作模式,许多线下社会活动变成了线上进行。随着远程办公、在线教育、短视频等应用的使用,用户和在线时长都在急速扩展,超高清视频需求猛增[1]。
视频是由一张张图片和音频组成在时间线上排列的动态序列,基于人眼的视觉暂留效应,当被称为一帧的一幅图像按照帧序列以一定速率播放时,对于人眼就呈现为动作连续的视频[2]。若将这图像序列中每一个像素点的信息都数字化,数字化后的视频数据、音频数据等多媒体信息在视频流传输中所占用的带宽很高,一般在20 MB·s-1以上,数据量和所占用的存储空间非常庞大。序列图像和语音数据有很强的相关性,即存在大量冗余,主要有时间冗余、空间冗余、结构冗余、知识冗余、信息熵冗余、视觉冗余等[3]。采用压缩编码算法对最初的视频进行编码压缩后,数据带宽正常情况下可降到10 MB·s-1以下,避免了传输空间、时间维度的冗余信息造成的资源浪费,提高了通信线路视频的压缩比。在同等画质下,将节省比特率和数据流量,提高视频的清晰度,满足了未来高速的多媒体通信系统需求。
常见的视频可分为低质量视频、中等质量视频、高质量视频。针对这三类视频,为了使视频行业的不同产品间互联互通,国际上制定了相应的音频视频编码标准。1984 年,国际电话与电报顾问委员会(International Telephone and Telegraph Consultative Committee,CCITT)颁布了H.261 标准,它是ITU-T 标准中的第一个视频压缩编码标准。目前,音频视频编码标准不断被颁布,有很多标准已为人们所熟知。2020 年6 月6 日,Fraunhofer HHI 宣布了历时三年开发的H.266/VVC 视频编解码标准,是新一代音视频编码标准。
H.266/VVC 是ITU-T 制定的新的视频压缩编码标准。实验结果表明,H.266 标准具有优越的性能,其性能已经达到和部分超过当初设立的目标。其主要特点如下:H.266 算法不但可以传输 4K 的超高清视频,还支持未来的8K 甚至16K 的高清、超高清视频、360°全景视频;H.266 算法具有高压缩性能,在图像的峰值信噪比不变的情况下,对源视频进行压缩编码,H.266 比H.265 降低37.3%的码率;对比其他视频压缩编码标准,H.266 色度信号分辨率提高到支持YCbCr 4 ∶4 ∶4;H.266标准应用范围基本上实现对目前视频行业的全部覆盖,不仅包括日常生活所常用的视频,如微信/QQ 视频通话、计算机屏幕视频、Panoramic video 等,并且广泛适用于多种移动设备;H.266 比H.265 要多近40 种新的编码算法工具。
从标准技术演进来看,H.266/VVC 视频编码标准沿用了H.265/HEVC 中的基于混合视频编码(Hybrid Video Coding)框架,即同时采用了多种编码方法进行编码。这种编码框架大致把VVC 视频编码流程划分为几个模块,分别是基于运动补偿的预测技术以及对预测残差的变换、划分模块、反量化、反变换、环路滤波ALF/SAO/DBF、熵编码等编解码模块[4]。VVC 视频编码框架流程如图1 所示。
首先输入原始视频信号,将每一帧图像划分为不同大小的编码单元,不仅能够实现矩形模块划分,甚至能够实现非矩形模块的形状划分;其次,对每个编码单元进行帧内预测或帧间预测[5],将预测得到的信息与原始视频信息相减得到残差信息;最后,将残差进行变换、量化,得到量化后的变换系数,量化后的变换系数需要进行熵编码传到比特流中。由于预测模块需要用到先前的视频信息,而解码端是不知道原始视频信息的,为保证编解码一致,编码端同样需要对量化后的变换系数进行反量化、反变换的操作,再将反变换得到的残差与预测模块的输出相加[6],得到相当于解码端输出的视频信息。将该信息输入到帧内预测模块,同时帧间预测也需要用到之前已编码帧的信息,再对刚刚得到的相当于解码端输出的视频信息进行环路滤波,提高重建帧质量。将滤波后得到的重建帧缓存信息输入到帧间预测模块,此处编码端也会输出重建视频信号,并且应该与解码端解码得到的视频信号一致。图1 中输入到熵编码模块的信息除残差信息外,划分模式、预测模式、变换模式等都需要进行熵编码。
图1 VVC 视频编码框架图
虽然编码环节一样,但H.266 在每一步都进行了优化改进,使最终整体的编码效率大大提高,码率减半。
在图像划分方面,H.265 进行条和片的划分,H.266 新增了子图像划分,一个子图像可以包含一个或多个条,每一个子图像的边界总是条的边界;在H.265 中,对于每一个编码树单元(CTU),可以划分为若干个编码单元(CU),CU 又可划分为预测单元(PU)和变换单元(TU),但在H.266 中不做区分,统一为CU[4];H.265 的CTU 采用四叉树划分,而H.266 在此基础上还采用多类型树划分。在帧内预测方面,H.266 相较于H.265 更为细致灵活,H.265 有Planar 模式、垂直模式、水平模式、DC 模式和导出模式5 种帧内预测模式[7],H.266 在此基础上还增加了一种跨分量线性模型。在变化与量化方面,H.265 最大变换块尺寸为32×32,H.266则扩展为64×64,并且采用了子块变换技术;H.265与H.266 均采用标量量化方式,但二者的最大量化参数分别为51 和63。在熵编码方面,H.266 相对于H.265 能够平均节省37.3%的码率[2]。在帧间预测方面,H.265 采用了跳过模式、合并模式和普通帧间模式三种模式,H.266 对这些模式进行了扩展、改进和精细化处理。在环路滤波方面,H.265 采用去方块滤波和样值自适应偏移,H.266 还采用了自适应环路滤波。
现在流行的视频标准主要是国际电信联盟电信标准分局ITU 旗下的VCEG 以及国际标准化组织ISO 和IEC 旗下的MPEG[8]。主要的标准有H.261、H.263、H.264、H.265、H.266、MPEG-1、MPEG-2、MPEG-4 等,其中H.261 主要用于ISDN 视频会议,支持的分辨率很小;H.263 应用场合为各种视频电话和多方视频会议;H.264/AVC 成功推动了数字广播电视、卫星电视、互联网视频、蓝光碟以及移动端视频的普及;H.265/HEVC 使得流媒体、移动端视频、高清1 080P、4K超高清以及HDR的普及;H.266/VVC主要提供更好的支持于AR/VR、流媒体、360 度全景视频、超高清8K 以及高动态范围视频等新的应用类型;MPEG-1 应用于ADSL、VCD、Internet 以及数字电话网络上的视频传输等;H.262/MPEG-2 特别适用于广播质量的数字电视的编码和传送,推动了模拟电视到数字电视的转型、无线数字电视、数字视频广播(Digital Video Broadcasting,DVB)、DVD 碟等技术。
伴随4K、360 度全景视频的激增,互联网世界确实需要一个更为高效的视频编解码标准。由国际标准化组织及国际电工委员会ISO/IEC 旗下的动态图像专家组MPEG 和国际电联电信标准化部门ITU-T 旗下的视频编码专家组VCEG 联合制定的最新的视频编解码标准H.266/VVC 应运而生。VCC可以让视频在同等视频质量下比H.265/HEVC 标准体积减小一半。比如,现在一个45 min 的高清在线视频大概需要5 GB 存储空间,在保持画质一样和视频传输清晰度不变的情况下,将比特率和数据流量降低到50%,即下载只需要2.5 GB 的流量就足够了。Fraunhofer HHI 发布的H.266 标准获得腾讯、苹果、华为、高通、Intel、三星、索尼、诺基亚等在音视频领域具有极大影响力的企业的支持。这项耗时3 年的标准的制定进一步优化了压缩,节约大量的带宽,主要面向未来传输4K/8K 的视频服务。在此基础上,在线教育、远程医疗、远程办公等与超高清视频密切相关的广电视频行业将迎来全面爆发。有业内视频专家指出,H.266/VVC 预计在2027 年左右开始被广泛接受和使用。
关于新算法的研究一直在进行,更高质量、更高压缩比、更易于实现的编码方法始终是图像领域研究的热点。毫无疑问,音视频编码技术的改进以及多媒体通信新标准H.266 的推出必将进一步促进多媒体通信业的发展。