金雪松,赵志杰,林茂六
(1.哈尔滨工业大学电子与信息工程学院,哈尔滨 150001;2.哈尔滨商业大学计算机与信息工程学院,哈尔滨 150028)
近年来,多视角视频编解码已经成为现代视频通信的研究热点。多视角视频是一种新型的具有立体感和交互操作功能的视频。多视角视频的场景通过一定数量的摄像机同时获取,构成所谓的多视角视频数据源,这些数据转换成相同的数据表示形式,允许用户交互式浏览场景。多视角的视频引用已经超过立体视频,包括 3-D 电视[1]和自由视角电视[2-3]。多视角视频系统一般包括多视角视频采集、多视角视频编码、网络传输、解码和显示等部分。与单视角视频相比,多视角视频的数据量随着摄像机的数目增加而线性增加,必须找到合适的编码方法才能使得多视角视频获得广泛的应用。最简单和可靠的编码是使用现有的单视角编码方法和技术分别编码多视角视频的每一个视角视频[4]。但是,这种方法没有利用视角间视频可相关性,所以它并不是最优的。视角间存在的相关性必定会影响编码效率,编码器要给予足够考虑[5]。
由于多视角视频压缩需求增加,发展针对多视角视频的编码技术和标准刻不容缓。国际标准化组织发出征求多视角视频编码技术的倡议书。从此,越来越多的多视角编码方案被提出。多视角视频编码(Mutli-view Video Coding, MVC)标准是在非常成熟且已颁布的H.264/ AVC的基础上,主要增加了视角间的预测框架,提高编码效率[6-7];由于视频信号传输通道和显示设备的多样化,可伸缩性就成为多视角视频非常重要的特性。MVC并不支持完全可伸缩——时间、空间、视角和质量可伸缩。文献[8]提出将可伸缩视频编码(Scalable Video Coding, SVC)改进并引入到多视角编码中,提出基于 SVC技术的可伸缩多视角编码(Scalable Multi-view Video Coding,SMVC)。但是,这种编码系统由于采用混合编码结构,并不能实现完全可伸缩的编码框架。基于小波变换的SMVC最早是由文献[9]提出的,由于小波变换的多分辨率特性和能量集中性质,小波变换非常符合视频编码中对可伸缩性的需求。完全基于小波变换的视频编码框架不仅能高效地压缩视频,而且能够保持码流的可伸缩性。多视角视频可以分为3个分解步骤:单视角时间分解、视角间分解和空间分解。分解后获得小波系数通过小波编码器编码,如 SPIHT[10]和 3DESCOT[11]。文献[12]在其基础上进行改进,同时提出基于小波包变换的编码方案。本文实现了一种完全基于小波变换的多视角视频编码系统。
与单视角编码框架类似,多视角框架采用基于提升小波的分解方式,按照分解先后顺序,分别包括单视角运动补偿时域滤波(Motion Compensated Temporal Filtering, MCTF)、针对MCTF生成的时间低通帧视差补偿视角滤波(Disparity View Compensated Filtering, DVCF),然后是 2D-DWT和熵编码,产生的比特流按目标码率优化截断组合成最终的码流,如图1所示。
图1 多视角视频编码系统
将多视角视频的每一个视角看作是单视角视频进行时间分解:视频信号通过二通道分解滤波器滤波( H0(z) 和 H1(z)),再下采样,分别获得高通子带Hk和低通子带Lk−1,其示意图如图2(a)所示。在重建端,子带信号分别上采样(补零插值),并由合成滤波器滤波( F0(z)和 F1( z)),将生成的信号相加,生成重建信号,如图2(b)所示。如果不考虑其他因素, H0(z)、H1(z) 、 F0(z)和 F1( z)满足完全重构条件的话,原始信号与重建信号完全一致。
图2 二通道分解/合成滤波器组
在工程实现时,考虑时间复杂度和空间复杂度,双正交小波滤波器组 5/3 Le Gall比较适合用作视频时间分解,因为其滤波器不是太长,便于实现,同时能够较好地利用相邻信号的相关性,更加准确地预测信号,基本上已被主流的小波编码方案采用。高通和低通滤波器Z变换可由式(1)、式(2)给出。
一般采用提升方式实现信号分解和合成。由于提升小波的构造方法的提出[13],如图3所示,极大地推广小波的应用,在基于小波的视频框架中,采用小波提升方法使得分解视频信号变得简便。所以,5/3小波能够变成预测和更新滤波器对:
图3 双正交滤波器的提升结构
如果不考虑视频内容随时间的变化,基于5/3小波提升的分解表达式可以使用下式表示:
由图4可见,每5个连续视频帧组成一个基本单元,如F2k、F2k+1、F2k+2、F2k+3、F2k+4即可组成一个分解基本单元,可以生成对应的低通帧和高通帧。可见在这种 MCTF结构中,高通帧利用前后2帧的信息生成,而低通帧利用前后4帧的相关信息生成,相比于Haar小波用相邻2帧产生低通帧和高通帧能更加充分地利用视频序列的连续性。
图4 基于5/3双正交滤波器提升的单层分解结构
为了更好地适应视频内容随时间的变化,考虑沿着运动轨迹的分解是合理地并能更好地去除时间域的冗余。运动补偿时域滤波技术是通过对视频序列进行时域一维小波变换以去除视频序列中大量的时间冗余信息,达到视频压缩并为实现时间可伸缩作必要的准备。由5/3提升小波分解式可得基于5/3提升小波的MCTF基本结构,如图3所示。
图5 运动估计变宏块形式
从理论上讲,视频中的每一个像素都是处于随着时间变化某一运动轨迹上的,沿着每一个轨迹进行小波分解可获得最优的结果。但是,这种处理方法的缺点也很明显:针对每个像素的运动估计的计算量太多,不利于实时的编码系统。
考虑到编码效率和计算量之间进行折中,最终分解是基于不同的编码块。为了充分适应视频内容的多样性,运动估计和补偿中采用不同形式的编码块(变宏块),如图5所示。
每个视角的图像组(Group of Picture, GOP)经过MCTF后生成一帧低通帧和一系列不同频率的高通帧,由于不同视角的低通帧之间相关性非常强,去除它们之间的冗余就是多视角编码器必须考虑的。将同一时间段所有视角分解后生成的低通帧组合新的“序列”,首先进行颜色校正,然后进行视差补偿小波分解变换。变换方法中可以采用与 MCTF中相同的技术。
每个视角选取一定数量的帧作为一个小波分解单元,称为 GOP,GOP中包含的帧的数目与 MCTF的分解层数相关;而视频序列的视角决定DVCF的分解层数,所有视角的 GOP组成 GOP组(Groups of Groups of Pictures, GoGoP)。如图6所示,假设GOP包含8帧:(1)每个视角GOP单独执行MCTF,分解后,帧序按频率从高到底重新排列分别为4帧T-H、2帧 T-LH、1帧 T-LLH和 1帧 T-LLL。(2)利用上述颜色校正算法校正8个视角生成的T-LLL之间颜色差异,然后执行DVCF。DCVF将这8帧分解成4帧V-H、2帧V-LH、1帧V-LLH和1帧V-LLL。(3)利用二维离散小波变换分解每一时间-视角子带,生成最终的编码子带。
图6 GoGoP的4维小波分解结构
根据时间、视角和空间的分解顺序,可以将这种结构称为T+V+2D,即四维分解。当然,分解顺序并不固定这一种,也可以是视角、时间和空间,或者空间、时间和视角,MCTF和DVCF也可以在小波域执行。在图6中,用灰度的深浅表示子带所属的频带,越偏黑表示对应的频率越低。图中视频帧和视角的排列顺序重新排列,使得分解后信号能量沿着时间轴、视角轴递增排列。
利用双正交 9/7滤波器组进一步去除每个时间-视角的空间相关性,其分解方法与JPEG2000标准一样[14]。四维小波分解后,利用编码器编码获得小波子带系数。小波编码器较成熟的有 EZW、SPIHT和EBCOT,以及为视频信号设计的3D-ESCOT,这些编码器可以分为2类:利用子带间和子带内相关性实现编码。二维小波变换能构造出分辨率可伸缩比特流,二进制位平面编码可实现嵌入式可伸缩的比特流,然而EZW和SPIHT采用零树编码结构,在分辨率级之间引入相关性,破坏了分辨率可伸缩性。为了实现最佳的可伸缩性,应尽量使系数比特层编码具备一定的独立性。
3D-ESCOT编码器是 JPEG2000标准采用的EBCOT在三维上的扩展,其编码思想是一致的,利用逐步量化和比特平面编码小波系数,完成小波系数的可伸缩表示。编码器将子带分成小块,同时将同一频带的时间子带处于相同位置的小块拼成三维的立方体编码块,单独对每一个编码块进行编码,这样编码引入的相关性只限制在一个块内。
每一个编码块被编码器生成带一系列截断点的连续码流,对应截断点的码率和失真在编码过程中可以估计,为随后的码率优化截断提供基础。
率失真优化截断技术用来重新组合不同子带独立编码,获得不同比特的码流,使得最终的解码视频全局最优。考虑目标码率RT,将它分配给N个不同特性的子带,使得解码后视频质量最优。Ri表示子带优化分配后获得码率,Di(R)表示子带的率失真函数。
构成率子带失真函数的码率是由编码器在不同扫描层所使用的码率,失真则是根据当前扫描后已编码比特平面估计的,只是不同子带失真权重不一样,这是与实际的分解结构有关系的,包括采用的小波基和MCTF与DCVF的先后顺序。在MCTF和DCVF中,一般比较常用的小波基有Haar和5/3小波。对于5/3小波的一层 MCTF,分解后低通时间子带和高通时间子带的失真权重分别为:WL= 1.5和 WH= 0.719;多层MCTF分解后子带可由单层子带权重递推获得,如 T-LLLH子带的权重 WT-LLLH= WT-L× WT-L× WT-L×WT-H。DCVF是针对帧T-LLLL进行进一步分解的,其分解后获得的子带权重与 MCTF的权重计算法方法一样,只是它们是在低通帧T-LLLL的基础上。Haar小波的分析与上面完全类似。如果采用4T+3V结构,率失真优化截断失真权重如表1所示,括号中的数据表示MCTF采用5/3小波而DCVF采用Haar小波时推导获得的。
表1 率失真优化截断失真权重
由式(12)可以看出,在一定码率限制条件下,优化码率分配的结果是使得所有子带率失真曲线切线斜率完全一样时对应的码率,保证分配给所有子带码率之和等于目标码率。
为了考察基于小波多视角编码系统框架的性能,分别对不同特性的视频做编解码实验,将实验结果与最新的小波多视角编码系统比较[14]。选择了3种标准的多视角视频序列:race1, ballroom和exit作为测试序列。所有的序列都是 8个视角、分辨率为 VGA(640×480像素),由水平平行规则排列的摄像机拍摄。Race1的帧率为 30 f/s,ballroom 和 exit的帧率为25 f/s。在时间分解过程中,GOP选为 16帧,进行4层分解;而在视角分解中,GOP选为 8帧,进行3层分解。
图7~图 9分别为编解码器针对 race1、ballroom和exit序列的性能图。Y-PSNR为序列所有帧所有视角Y分量PSNR的平均值,码率为所有视角码率的平均值。
图7 Race1序列
图8 Ballroom序列
图9 Exit序列
从实验结果可以看出,在小波的编码器中,基于5/3小波的DCVF优于基于Haar小波的DCVF。也就是说,即便是MCTF生成的低通帧,虽然它们之间没有严格意义上的前后关系,其内在相关性还是较强的。
本文选择的3个测试序列race1、ballroom和exit,其视频内容变化快慢是不一样的。race1序列表示的内容变化非常剧烈,不仅视频中主要物体运动速度快,而且背景随着摄像机的转动也发生较大的变化;而ballroom序列内容变化较为温和;exit序列内容变化比较缓慢,只有视频中的主要物体运动,而背景部分基本没有任何变化。与文献[14]提出的编码系统比较可知,不同的视频测试序列结果是不一样的。与文献[14]相比,本文提出的方案测试 race1序列的实验结果更优,测试ballroom序列相当,而exit序列较差。
本文建立了一个基于小波变换的多视角编码框架。利用小波的多分辨率特性,完成多视角视频时间、空间和时间的可伸缩编码,同时,结合嵌入式熵编码技术,实现质量可伸缩。根据子带的率失真函数,优化截断码流,使得视频解码的质量最优。实验结果表明,多视角编码器取得了较好的编码效率,相比于其他小波视频编码系统,本文系统更适合运动比较剧烈的视频序列。
[1]Vetro A, Matusik W, Pfister H, et al.Coding Approaches for End-to-end 3-D TV Systems[C]//Proc.of Picture Coding Symposium.San Francisco, USA: [s.n.], 2004.
[2]Theobalt C, Ziegler G, Magnor M, et al.Model-based Free-viewpoint Video: Acquisition, Rendering, and Encoding[C]//Proc.of Picture Coding Symposium.San Francisco, USA: [s.n.], 2004.
[3]Tanimoto M.Free Viewpoint Television: FTV[C]//Proc.of Picture Coding Symposium.San Francisco, USA: [s.n.],2004.
[4]Sullivan G J, Topiwala P, Luthra A.The H.264/AVC Advanced Video Coding Standard: Overview and Introduction to the Fidelity Range Extension[C]//Proc.of International Society for Optical Engineering.[S.l.]: SPIE Press, 2004.
[5]Fecker U, Kaup A.Statistical Analysis of Multi-reference Block Matching for Dynamic Light Field Coding[C]//Proc.of the 10th International Fall Workshop on Vision,Modeling, and Visualization.[S.l.]: Springer, 2005.
[6]Merkle P, Muller K, Smolic A, et al.Efficient Compression of Multi-view Video Exploiting Interview Dependencies Based on H.264/MPEG-AVC[C]//Proc.of IEEE International Conference on Multimedia and Expo.[S.l.]:IEEE Press, 2006.
[7]Merkle P, Smolic A, Muller K, et al.Efficient Prediction Structures for Multi-view Video Coding[J].IEEE Trans.on Circuits and Systems for Video Technology, 2007, 17(11):1461-1473.
[8]Droese M, Clements C, Sikora T.Extending Single-view Scalable Video Coding to Multi-view Based on H.264/AVC[C]//Proc.of IEEE International Conference on Image Processing.[S.l.]: IEEE Press, 2006.
[9]Yang Wenxian, Wu Feng, Lu Yan, et al.4-D Wavelet-based Multiview Video Coding[J].IEEE Trans.on Circuits and Systems for Video Technology, 2006, 16(11): 1385-1396.
[10]Said A, Pearlman W A.A New Fast and Efficient Image Codec Based on Set Partitioning in Hierarchical Trees[J].IEEE Trans.on Circuits and Systems for Video Technology, 1996, 6(3): 243-250.
[11]Xu Jizheng, Xiong Zixiang, Li Shipeng, et al.Threedimensional Embedded Subband Coding with Optimized Truncation(3-D ESCOT)[J].Applied and Computational Harmonic Analysis, 2001, 10: 290-315.
[12]Garbas J U, Popescu B P, Kaup A.Methods and Tools for Wavelet-based Scalable Multi-view Video Coding[J].IEEE Trans.on Circuits and Systems for Video Technology, 2011, 21(2): 113-126.
[13]Sweldens W.The Lifting Scheme: A New Philosophy in Biorthogonal Wavelet Constructions[C]//Proc.of Wavelet Application Signal Image Process Conference.San Diego,USA: [s.n.], 1995.
[14]Taubman D.High Performance Scalable Image Compression with EBCOT[J].IEEE Trans.on Image Processing, 2000, 9(7): 1158-1170.