AVS视频编码标准的帧间预测算法研究

2009-02-11 10:02张淑娥靳晓鹏
新媒体研究 2009年1期

张淑娥 靳晓鹏

[摘要]介绍AVS视频编码标准的帧间预测技术特点,对帧间预测算法进行分析和研究,为视频帧间编码提供理论依据。

[关键词]AVS 帧间编码 帧间预测算法

中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2009)0110031-01

2002年,国家信息产业部科学技术司批准成立数字音视频编解码技术标准工作组,制定具有自主知识产权的AVS系列信源编码标准,AVS标准为《信息技术先进音视频编码》系列标准的简称,它包括了系统、视频、音频、版权管理、文件格式、网络传输等从视频压缩技术到系统规范的一整套标准,AVS标准的制定和推广对减轻国内的音视频相关产业的专利费负担以及提升核心竞争力具有极其重要的意义。

与MPEG-4 AVC/H.264的baseline profile相比,AVS视频增加了B帧interlace等技术,因此其压缩效率明显提高,而与MPEG-4 AVC/H.264的main profile相比,又减少了CABAC等实现难度大的技术,从而增强了可实现性。基于AVS标准的上述优点,本文选择对该标准进行研究。

AVS视频当中具有特征性的核心技术包括:8×8整数变换、量化、帧内预测、四分之一精度像素插值、特殊的帧间预测运动补偿、以及熵编码、去块效应环内滤波等。

一、帧间预测算法研究

AVS标准采用了16×16、16×8、8×16和8×8的块模式进行运动补偿,较少的块模式(相比于MPEG-4 AVC/H.264),能降低运动矢量和块模式编码传输的开销,从而提高压缩效率、降低编解码实现的复杂度。而AVS采用不同的4抽头滤波器进行半像素插值和四分之一像素插值,在不降低性能的情况下减少了插值所需要的参考像素点,降低了数据存取带宽需求。AVS中的P帧预测可以利用至多2帧的前向参考帧,而B帧采用前后各1个参考帧,P帧与B帧(包括后向参考帧)的参考帧数相同,其参考帧存储空间与数据存取的开销均不多于传统视频编码。另外,AVS中B帧的双向预测的多种模式的设定,也有效的节省了运动矢量的编码开销。

视觉特性表明,人眼对活动图像中的静止部分和运动部分有着不同的分辨率要求,即对静止部分有较高的空间分辨力和较低的时间分辨力,而对运动部分有着较低的空间分辨力和较高的时间分辨力。因此可以将图像分割成静止部分和运动部分分别进行处理。对于静止部分可以重复上一帧的数据,对于运动部分则需设法测定其位移量,以位移量来预测其运动,并将运动信息发送给接收端,以压缩运动部分的数据量,构成完整的图像,称为图像帧间编码中的运动补偿预测。

运动补偿的方法是跟踪画面内的运动情况对其加以预测以后再加以补偿。这项技术的关键是运动矢量计算。通常的方法是采用块匹配法。运动估计和补偿是活动图像编码和计算机视觉领域的一项关键技术。

能够对视频序列进行帧间编码主要有两个方面的依据:首先,从信源的角度看,自然景物大多处于相对不变或缓变状态,且其运动状态必然是连续的,这是帧间相关性存在的前提条件。其次,在用摄像机摄取图像时,根据不同场合的需要有不同的取景方式,这样帧间相关性表现的形式也不相同。目前视频编码中考虑的主要是一些简单形式。

帧间预测考虑的典型情况是头肩序列,例如可视电话图像,图像的内容通常是在一个细节不十分复杂的背景前,一个活动量不大的单人图像。假定人的位置在第K帧与第K-1帧相比有一定的位移,可以将画面分成3个各具特点的区域:

1.背景区:这部分图像一般是静止的,前后两帧的绝大部分数据相同,有着极强的相关性,且只是对人物起陪衬作用。

2.运动物体区:如将物体看作简单的平面位移,则第K帧和第K-1帧的该部分数据也是几乎相同的,只是位置发生了改变,相关性还是极强的。这部分数据需要运动估计和运动补偿。

3.暴露区:这是指运动后所暴露出来的原来被物体盖住的区域。如果有存储器将这些暴露区的数据暂时存储,则再次经遮盖再暴露出来的数据与原来存储的数据也是相同的,还是有强相关性。

虽然以上三类区域的相关性是比较理想的划分结果,实际中并无如此严格的划分,但是它们为帧间编码算法提供了重要依据。如果存在场景切换则谈不上帧间相关性。

二、结论

研究表明,人类视觉对图像中的静止部分有较高的分辨率,必须给予充分的空间(spatial)分辨率,即在传输静止图像或序列图像的静止部分时,要保证较高的水平和垂直分辨率;但与此同时,却可以减少传输帧数,在接收端,依靠帧存储器把未传输的帧补充出来,而按照一定周期传输的数据对帧存储器刷新。因此对传输序列图像而言,可恰当降低时间(temporal)分辨率。另一方面,人的视觉对于序列图像中的运动物体的空间分辨率将随着物体的运动速度的增加而显著降低,摄像器材的灵敏度也会造成运动部分的灵敏度下降。此外,电视监视器的显示器件也有一定的积分模糊效应。这样在传输序列图像中的运动物体时,可以降低这部分图像的清晰度,且这部分图像的运动速度愈高,就可以用更低的图像清晰度进行传输。

综上所述,根据图像的内容在清晰度和活动性(帧频)之间进行调整,可使重建图像在视觉上保持一致主观效果,这种方法就叫做空间分辨率和时间分辨率的交换。

以上两点的分析为视频帧间编码提供了理论依据,帧间编码作为视频压缩的有效技术,被各种视频压缩标准所采用。

参考文献:

[1]IA-32 Intel Architecture Software Developer's Manual Volume 1:Basic Architecture,Order Number:245470-012.

[2]IA-32 Intel Architecture Software Developer's Manual Volume 1:Instruction Set Reference,Order Number:245471-012.

[3]丁嵘、苏光大、林行刚,特征脸和弹性匹配人脸识别算法的比较,计算机工程与应用,Vol.38,2002.7,1-2,19.

[4]苏光大,图像并行处理技术,北京:清华大学出版社,2002.

[5]黎洪松,数字视频技术及其应用,北京:清华大学出版社,1997.

[6]谢深泉、朱珍民、叶施仁,多媒体基础与应用,北京:北京大学出版社,1997.

[7]马华东,多媒体计算机技术原理,北京:清华大学出版社,1999.

[8]吴乐南,数据压缩,北京:东南大学出版社,2000.

[9]朱秀昌、刘峰、胡栋,数字图像处理与图像通信,北京:北京邮电大学出版社,2002.

作者简介:

张淑娥,女,华北电力大学电子与通信工程系,副教授;靳晓鹏,男,华北电力大学电子与通信工程系,通信与信息系统硕士。