王凌杰,周 军
(上海交通大学图像通信与信息处理研究所,上海 200240)
立体视频正在世界范围流行,其格式也多种多样。Side-by-Side(SbS)是常见的立体视频格式[1],它将适于左眼观看和适于右眼观看的两幅图像分别进行水平亚采样,使两幅图像的水平分辨力降为原来的一半,然后拼成一幅图像,如图1所示。3D电视机接收到SbS格式的视频后,将每幅图像从中间一分为二,并对分割后的两幅图像分别进行上采样,恢复其水平方向尺寸。经过恢复的图像其质量理论上会有所降低,但并不影响实际观看效果。由于传输SbS格式的视频所需的带宽与普通的高清传输带宽相同,也与 HDMI 1.4标准兼容[2],因此大部分有线电视供应商采用SbS格式来传输立体视频。
图1 SbS合成原理图【1】
H.264是国际电信联盟ITU-T和国际标准化组织ISO联合开发的视频编码标准,因其优异的压缩性能和良好的网络亲和性,已经成为国际上广泛使用的新一代视频压缩编码标准。H.264将视频预测编码分为帧内预测和帧间预测两种方式,按不同的预测编码方式将图像分为I,P,B 3 种类型[3]。相对普通视频而言,SbS 立体视频图像的左视角和右视角有很强的相关性。针对这一相关性,笔者提出了加入视间预测的预测编码结构,以进一步在H.264标准基础上提高SbS立体视频的压缩率。
H.264标准的附录H多视视频编码(Annex H-Multiview video coding)规定了多视视频编码的视间预测方式[4]。在多视视频中,每个视角都是一个独立的视频序列,视间预测是在两个独立的视频序列之间进行的。而SbS视频只包含一个序列,左视角和右视角合成在一幅图像中,因此视间预测是在每一幅图像之内进行的。
SbS视间预测指的是一幅图像中的右图以左图为参考图像进行预测编码,是两个视角间的预测关系。以IBPBP结构为例,加入视间预测后SbS视频序列的编码预测结构如图2所示。
图2 加入视间预测后IBPBP预测结构
在编码一幅SbS图像时,先按H.264标准预测模式(帧内预测或帧间预测)编码左图,而编码右图时,在采用标准预测模式的同时利用左图进行视间预测编码。视间预测使用与帧间预测相同的宏块分割模式(Inter_16x16,Inter_16x8,Inter_8x16,Inter_8x8,Inter_8x4,Inter_4x8,Inter_4x4以及Pskip等[2])。由于视间预测充分利用了左图和右图之间的相关性,编码的压缩效率可以得到进一步提高。
为了实现视间预测,需要把SbS图像的左图和右图划分开来,划分的方法是使用H.264的灵活宏块次序(Flexible Macroblock Ordering,FMO)功能[3]。利用 FMO可以将左图的宏块和右图的宏块分别划分到不同的片组(slice group)当中,编码时左图和右图被当作两个独立的区域。在实际操作时令每个片组只包含一个片(slice),即左图宏块划分到slice0,右图宏块划分到slice1,slice0作为slice1的视间预测参考图像,从而在slice层实现视间预测。
笔者采用多参考帧编码方式来实现视间预测。多参考帧编码方式指的是在现有的若干参考图像基础上,将重建的slice0作为额外的参考图像加入其中。编码slice1时参考slice0重建值的过程即为视间预测。
加入视间预测的方法是:编码slice0;将slice0的重建值放入参考帧列表;将重建的slice0作为参考图像,结合帧内、帧间预测来编码slice1。由于参考帧列表中存放的是完整的图像,不能将slice0的重建值直接放入其中,需要通过一幅临时图像temp间接完成操作,其过程如图3所示。将重建后的slice0按像素赋值给temp的slice1而不是slice0,是为了防止编码slice1时进行运动搜索的运动矢量过大,导致编码代价过大,使得视间预测模式不会被选中。
图3 视间预测实现方法
JM[5](joint-model)作为 H.264 官方测试代码,实现了H.264的所有特性。本文在JM基础上实现了SbS视频的视间预测。加入视间预测后每幅图像的预测编码流程如图4所示。
图4 加入视间预测后的编码流程
实现视间预测的过程中有以下4个关键点:
1)将空图像temp存入解码图像缓存(Decoded Picture Buffer,DPB)的目的是用于参考帧列表初始化[3],参考帧列表初始化后DPB中的图像(包括temp)被加入到参考帧列表中,使得temp可以作为视间预测参考图像。还有一点需要注意,H.264标准规定不为I图像分配参考帧列表,因此需要修改JM代码,为I图像分配参考帧列表,以便temp能够被用作视间预测。
2)将slice0的重建像素值赋给temp的slice1后,在编码slice1时就可以利用其进行视间预测。slice1的宏块(块)是否使用视间预测方式进行编码取决于编码器率失真优化[3]的结果。temp的slice0一直为空,不需对其赋值。
3)如果当前图像是I图像,要将I图像slice1的片头语义(slice_type)改为 P_SLICE[3],否则只能使用帧内预测对其进行编码。改为P_SLICE后,I图像的slice1可以像P,B图像的slice1一样利用参考帧列表中的temp进行视间预测。
4)整个图像编码完成后,后续待编码图像不需要当前的temp作为参考图像,要将temp从DPB中删除,否则会造成参考帧列表管理的混乱。
解码加入视间预测后的编码视频序列,需要对标准解码器做相应的修改。解码过程与编码过程对应:解码slice0;将slice0的解码值放入参考帧列表;JM根据slice1的编码模式(帧内预测、帧间预测或基于多参考帧的视间预测)选择相应的解码模式,解码slice1。具体操作时与编码过程一样,需要使用空图像完成参考帧列表初始化以及临时存储slice0的像素值。
实验使用了4个SbS格式的YUV序列:samsung.yuv,gforce.yuv,wedding.yuv,football.yuv,其图像尺寸均为1280 ×720,采样格式为4∶2∶0,GoP 大小为8,编码结构为IBPBP,量化参数(QP)取值为28,32,36和40。表1为实验结果的数据及比较,表2为各序列slice1采用多参考帧进行视间预测的宏块(块)数百分比统计。
4个序列中包含最多运动区域的wedding.yuv序列压缩率提高最大,包含最少运动区域的samsung.yuv序列压缩率提高最小,其原因是运动区域较多时序列的前后帧相关性较少,此时使用视间预测就可以充分利用左图和右图之间的相关性,使压缩率明显提高;而运动区域较少时序列的前后帧相关性较大,此时使用帧间预测就可以获得较大的压缩率,视间预测对压缩率影响相对较小。
表2的统计结果与表1的数据基本一致:随着QP值增大,采用多参考帧进行视间预测的宏块(块)数增多;相同的QP值下,wedding.yuv序列的视间预测宏块(块)数较多,samsung.yuv序列的视间预测宏块(块)数较少。
本文基于H.264标准,针对SbS格式的立体视频提出了视间预测编码结构,并在JM测试代码的基础上实现了视间预测。实验结果表明,加入视间预测后,在PSNR损失很小的情况下,能够使SbS格式的立体视频得到更好的压缩率。
表1 加入视间预测前后压缩效率比较
表2 slice1采用多参考帧进行视间预测的宏块(块)数百分比
[1]黎之乐,王兴东,周军,等.双视立体视频同步合成系统设计与实现[J].电视技术,2011,35(12):84-86.
[2]EBU/ETSI JTC Broadcast.Digital video broadcasting(DVB);frame compatible plano-stereoscopic 3DTV(DVB-3DTV):A154[S].2011.
[3]毕厚杰,王健.新一代视频压缩编码标准——H.264/AVC[M].2版.北京:人民邮电出版社,2009.
[4]ITU.Advanced video coding for generic audiovisual services:H.264[S].2009.
[5]H.264/AVC Reference Software[EB/OL].[2010-06-01].http://iphome.hhi.de/suehring/html.