吴 云,曹志民,冯亚丽
(1.东北石油大学 电子科学学院,黑龙江 大庆 163318;2.东北石油大学 计算机与信息工程学院,黑龙江 大庆 163318)
近十几年来,随着网络技术和多媒体技术的飞速发展,使得互联网上多媒体业务的需求越来越丰富多样。但是,随之而来的是网络结构和网络带宽多样化以及多媒体接收终端(台式个人电脑、笔记本、PDA、手机等)显示及存储能力的多样化等问题的出现[1]。虽然,MPEG-4和H.263等视频编解码标准提供了一定程度的分层可伸缩性视频编码技术,对网络带宽的变化有了一定适应能力,MPEG-4标准还在其增补的视频流应用框架中提出了精细可伸缩的视频编码算法,可以在编码速率、空间分辨力、编码内容及编解码复杂度等方面提供较灵活的自适应性,但是仍存在编码效率低以及重构视频质量不高等不足[2]。SVC编解码技术就是为了解决以上问题提出的。目前,SVC编解码技术已经于2003年由ITU-T视频编码专家组(VCEG)和ISO/IEC运动视频专家组(MPEG)组成的联合视频专家组JVT提出,成为新一代视频编解码标准 H.264/AVC的扩展部分[3-4]。
为了进一步提高SVC编解码系统的编码效率,国内外研究学者分别针对ME算法、MCTF结构等提出了各种改进算法。在快速运动估计算法方面[5-6],以MVFAST、PMVFAST及其改进算法等预测式运动估计算法为主,通过对编码视频本质信息的学习,采用精准的起始点预测技术和有效的提前推出准则,以及高效的模板搜索技术,在算法计算速度及最终视频重构质量方面都有很大提高。在MCTF结构方面,通过利用各种信息,可以根据视频内容自适应地调节MCTF编码结构,进而提高整个编解码器的性能[7]。
在赵志杰等人[3]提出的基于马尔科夫链的快速运动估计方法的基础上进行改进,结合快速运动估计和AGS技术,给出了一种提高可伸缩性视频编解码效率的有效方法。
SVC编码器结构采用的是一种t+2D的编码结构,如图1所示。
由图1可知,视频序列准备好以后,首先对输入的视频信号进行分组并分别进行相应的运动估计,将得到的运动矢量阵列和原视频信号一起送入MCTF模块,用以生成时域低通帧和时域高通帧;然后,对MCTF模块生成的所有低通帧和最底层高通帧进行帧内的二维离散小波变换;最后,对二维离散小波变换生成的一系列低频子带和高频子带的小波系数分别进行峰值信噪比(peak signal to noise ratio,PSNR)伸缩性编码以实现质量可伸缩性。另一方面,为了回复原始视频序列,还需要保存相应的运动矢量,运动矢量编码模块对运动矢量进行游程编码。最后的数据流组织模块用于将数据流中的可伸缩性分层次进行存储,为实现可伸缩提取解码做准备。
在这个编码系统中,ME模块是最耗时的部分,大概占到60%~70%,同时运动估计算法的准确性也是影响编码质量的一个重要环节;另外,MCTF部分的结构组织也是影响编码系统编码效率的一个重要因素。而且编码过程中,二者是紧密相连的,因此,有必要综合考虑二者的优化问题,合理构造视频分组结构及采用有效运动估计方法。
图1 SVC系统的编码器结构Fig.1 Encoder structure of the SVC coding system
在SVC系统中,MCTF模块在编码端结合ME模块实现了对视频序列中存在的时间冗余信息的去除,并且为实现帧速率控制(时间可伸缩性)提供了准备。然而,目前普遍采用基于Haar小波的固定GOP大小的MCTF结构,如图2所示。
为了进一步实现编码性能的提高,增强编码系统对不同运动性质视频序列(片段)的适应能力,有必要采用AGS技术对现有MCTF结构加以改进。AGS技术实现的关键是如何有效地判断当前编码片段的运动性质,对运动剧烈的视频采用小尺寸的视频组结构,对运动平缓的视频采用大尺寸的视频组结构。由于运动估计过程中能够完全体现视频序列的运动信息,因此可以用运动估计算法得到的运动信息指导MCTF的结构安排,实现AGS技术。
文献[3]提出的基于马尔科夫链模型的运动估计方法不但能够充分利用(提取)视频序列的时间相关信息,而且是一种十分高效的运动估计算法。为此,利用该运动估计算法进行改进,实现对MCTF结构的预测,即实现AGS技术,提高SVC系统的编码效率。
上述快速运动估计算法中,首先进行运动矢量的预测,采用了三种不同的预测模式构成一个状态空间:
式(1)中,S1表示预测运动矢量为前一矢量场同位置宏块对应运动矢量(称为参考矢量)的状态;S2表示预测运动矢量为(0,0)的状态;S3表示预测运动矢量为空间相邻矢量中值的状态。
图2 基于Haar小波的固定GOP大小(16)的MCTF结构Fig.2 MCTF structure based on Haar wavelet basis with fixed GOP size(16)
当前宏块的具体状态判定由如下准则实现:
即三种预测矢量对应的SAD准则函数值最小的状态为当前状态。
这样,前后连续的运动矢量场就构成了一个马尔科夫链,从而利用状态转移矩阵可以精确地实现对初始运动矢量的预测,增加算法提前退出的几率,提高算法运算速度。
但是,该文献并未给出转移概率矩阵的计算方法。为此,在文中所提出的SVC系统中,通过MCTF结构中运动估计的连续性,构成一个利用上述基于马尔科夫链的运动估计方法,并在MCTF结构中,通过统计的方法得到转移概率矩阵。需要说明的是,这里得到的转移概率矩阵不仅可以实现运动估计算法的改进,而且可以用来实现MCTF结构的预测,即AGS技术。为此,以G表示GOP的组数,文中采用G=16和G=8两种结构的AGS技术,如图3所示,其中虚线框中为G=8的结构。
由图3可知,每一个GOP组的前三次运动估计算法采用了全搜索算法(full search,FS)。在第一次FS过程中,只记录运动矢量及对应的SAD值就可以了。第二次FS过程中,除了记录运动矢量和对应的SAD值外,还要根据式(2)记 录 每 个 宏 块 的 预 测 状 态 M1(r,c)(M1(r,c)∈{1,2,3}),其中(r,c)表示宏块的位置。第三次FS过程中,除了记录第二次FS过程中需要记录的内容外,还需记录每个宏块对应的状态转移关系 TF(r,c),其 中,TF(r,c)∈ {T11,T12,T13,T21,T22,T23,T31,T32,T33},Tij:i,j∈{1,2,3}表示从状态i转移到状态j。因此在第三次FS算法结束前就可算出状态转移概率:
图3 SVC系统中ME-MCTF结构(AGS)Fig.3 ME-MCTF structure in the SVC system(AGS)
式(3)中,NTij表示由状态i转移到状态j的宏块的数目,NMB表示每帧图像的宏块总数。
显然,如果视频序列的运动性质比较平缓,则会出现大范围的参考预测模式,反之亦然。而转移概率P11为参考预测模式到参考预测模式的转换,也就是P11的大小能够较客观地体现视频序列的运动性质。为此,可以利用P11的大小来实现视频序列MCTF结构G的预测:
式(4)中,τ为概率阈值,通常可设为0.5。
为了验证文中方法的有效性,对大量具有不同运动性质的视频序列进行了测试。测试结果表明,通过采用文中方法,SVC系统在时间、空间、质量等多方面的可伸缩性能上都有了明显提高,系统的编码时间平均提高30%左右,Y分量重构PSNR值平均提高1.6dB左右,U,V分量重构PSNR值平均提高3dB左右。图4给出了6级EZW编码条件下Foreman.qcif和Bus.qcif序列的完全重构测试结果图。
图4 完全重构结果比较(EZW=6)Fig.4 The comparison of full reconstruction results(EZW=6)
通过分析SVC系统编码器结构,利用统计方法实现了一种基于马尔科夫链模型的快速运动估计方法。并通过对运动估计模型中转移概率矩阵,简便有效地实现了视频序列运动性质的判断,进而完成对视频序列编码MCTF结构的有效预测,最终成功实现AGS技术并有效提高SVC系统的编码效率。
[1]孙晓艳,高 文,吴 枫,等.基于宏块的渐进、精细可伸缩的视频编码[J].软件学报,2002,13(11):2134-2141.
[2]ZHAO Z J,CAO Z M,LIN M L,et al.A motion estimation algorithm based on Markov chain model[C]∥Acoustics Speech and Signal Processing,Dallas:IEEE,2010:1174-1177.
[3]HOSUR P I,MA K K.Report on perfermance of fast motion estimation using motion vector field adaptive search technique[R].Maui:ISO/IEC JTC1/SC29/WG11M5453,2000:1-40.
[4]TOURAPIS A M,AU O C,LIOU M L.Fast block-matching motion estimaiton using prediction motion vector field adaptive search technique[R].Noordwijkerhout:ISO/IEC JTC1/SC29/WG11M5866,2000:1-38.
[5]WONG H M,AU O C,HO C W,et al.Enhanced predictive motion vector field adaptive search technique based on future MV prediction[C]∥International Conference on Multimedia and Expo,Amsterdam:ICME,2005:6-8.
[6]王员根,梁 凡,张秀丽,等.一种新的自适应图像组机构算法[J].中山大学学报(自然科学版),2007,46(2):20-22.
[7]CAO Z M,LI W G,ZHAO Z J.A fast adaptive GOP structure based on motion information[C]∥8th International Symposium on Test and Measurement,Beijing:International Academic Publishers,2009:738-741.