柳伟,邓凯文,陈小平
(1.深圳信息职业技术学院信息技术研究所,广东 深圳 518172;2.深圳大学,广东 深圳 518060;3.深圳深讯和科技有限公司,广东 深圳 518000)
多视点视频编码预测结构的研究
柳伟1,邓凯文2,陈小平3
(1.深圳信息职业技术学院信息技术研究所,广东 深圳 518172;2.深圳大学,广东 深圳 518060;3.深圳深讯和科技有限公司,广东 深圳 518000)
不同的多视点视频序列具有不同的时空相关性,MVC采用的分层B帧预测结构无法充分利用视频序列的属性。本文提出了一种能适应不同视频序列编码的方法,通过研究多视点视频图像中的时空相关性和视点间的相关性,适当地取消部分时间层的视点间预测并且对所有P视点的非关键帧均采用视点间预测和调整了I视点的位置。实验结果表明,本文方法在提高编码效率的同时使得预测结构具有更好的随机访问性能、更低的编码复杂度。
多视点视频编码;预测结构;编码效率;时空相关性
随着图像技术和视频显示技术的发展,传统的二维视频已不能满足人们对视频的质量和内容多样性的要求。作为对传统视频的扩展,多视点视频是由多个摄像机对同一场景从不同的角度捕获到的一组视频序列,能更加生动的提供立体感、深度感。但是因为摄像机数量的增加,多视点视频的数据量也线性的增加,存储和传输限制了它的应用。因此,具有更好的压缩效率、交互式体验的多视点视频编码成为了当前研究热点之一[1-2]。
在多视点视频编码中,预测结构的设计是提高编码效率的重要技术之一。具有代表性的预测结构有GoGOP(group of GOP)、Simulcast预测结构、棋盘分解法、基于最小生成树预测结构、M帧图像预测结构和基于分层B帧的预测结构等等。MVC标准于2009年3月作为H.264/AVC的附件H发布,其中被JVT采纳的预测结构是德国HHI研究院提出的基于分等级B帧预测结构,该预测结构具有高效的编码性能,如图1所示。
分层B帧预测结构具有很高的编码效率,但同时它的随机访问性能却很差,编码复杂度也很高[3]。很多研究人员为了能更好的平衡编码效率和随机访问性、编码复杂度之间的关系,从不同角度提出了改进的预测结构。文献[4]设计了一种基于最小生成树的预测结构,与HBP结构相比,PSNR虽然有提高,但仅仅提高约0.1dB。文献[5]提出一种通过调整I视点的位置来提高编码效率的预测结构。文献[6]取消了非关键帧的视点间预测来提高随机访问性,但是编码效率有所下降,文献[7]则提出一种可伸缩视频编码。目前很需要一种在保证编码效率基本不变的情况下,又能提高随机访问性能、降低编码复杂度的编码预测结构。
本文通过分析多视点视频序列的相关性,提出一种改进的预测结构编码方法。
图1 分层B帧预测结构Fig.1 Prediction structure of Hierarchical B frame
本文采用块匹配法分析不同时间层图像的时间相关性和视点间相关性的关系[8]。在HBP预测结构中的B视点的图像帧最少有4个参考帧,除了关键帧。用于相关分析的公式如(1)所示,RT表示时间相关性,RV表示视点间相关性。其中设编码当前帧时最佳匹配块来自时间参考帧和来自视点间参考帧的宏块数分别为NT和NV,显然RT+RV=1。
表1给出了在不同时间层的时间相关性和视点间相关性的比例,TLID表示时间层,关键帧的时间层TLID=0,以此类推。结果表明,不同的视频序列随着时间层的增加,视点间的相关性逐渐减弱而时间相关性逐渐增强。所以在高的时间层上采用的时间预测编码宏块在增加,而采用的视点间预测编码的宏块在减少。当时间层达到最高时,某些视频序列的视点间预测编码对编码效率的贡献微乎其微,甚至可以忽略不计。
关键帧被编码为I、P、B帧的视点分别叫做I视点、P视点和B视点。I视点是所有视点的基本视点,调整好其位置能提高编码效率和随机访问性能[9]。本文通过计算平均全局视差来选择I视点的位置,计算公式如(2)所示。平均全局视差最小的视点
表1 不同时间层的相关性分析Tab.1 Analysis of correlation between different time layer
表明其与其它所有视点的相关性最强。其中,g(Si,Sj)表示Si视点和Sj视点间的全局视差值,MAGD(Si)的值为视点si和其他的视点的全局视差值和的平均值。N代表视点数目,本文使用的视点数为8,所以N=8。
计算全局视差使用的是平均绝对误差最小准则MAD(mean absolute difference),计算公式如(3)所示,w和h分别表示图像的宽度和高度,当MAD最小时i的值就是视点V1和V2之间的全局视差。因为同一时刻的不同视点间的图像帧在垂直方向上的视差值相同,所以本文只求水平方向上的全局视差值。 两个视点的全局视差越小表明它们的相关性越强。
表2是不同视频序列的视点平均全局视差,本文根据最小平均全局视差来选择I视点的位置,例如Ballroom视频序列中视点S3的平均全局视差最小,所以Ballroom视频序列的I视点为S3。
表2 不同视频序列的平均全局视差值Tab.2 The average global parallax value of different video sequence
同的视频序列的属性是不一样的,如果都采用同一种预测结构来编码,那样是不能充分利用视频属性来编码。对于稀疏相机阵列,各视点相隔比较远,在高时间层(TLID=4)的时候视点间的预测对编码效率的贡献很小;而对于相对稠密的相机阵列,视点间的预测则发挥了很重要的作用。针对这种情况,本文设计了三种不同的预测结构。候选预测结构如图(2)所示,MVC_SP1取消了TLID=4时间层的视点间的预测关系以提高随机访问性,并对P视点的非关键帧采用视点间的预测以提高编码效率;MVC_SP2同时取消了TLID=4和TLID=4时间层的视点间预测关系,并对P视点的非关键帧采用了视点间的预测;MVC_PS3则采用HBP预测结构。
图2 候选的预测结构Fig.2 The candidate prediction structure
表1列出了各个视频序列的不同时间层中的时间和视点间相关性的关系比例,本文设置一个阀值R=10%(经过测试阀值为10%时能取到最佳预测结构),当时间层中的RV小于R值就取消该时间层的视点间的预测关系。例如Flamenco2视频序列,当TLID=4的时候RV=3.2%小于R,它的预测结构采用MVC_PS1预测结构;Exit视频序列,当TLID=4和TLID=3的时候RV分别为8.5%和8.2%均小于R,采用预测结构MVC_PS2;Ballroom视频序列的RV均大于R,所以采用预测结构MVC_PS3。
为了进一步减低因为取消了部分视点间预测关系对编码效率的影响,再通过调整预测结构的I视点的位置来提高编码效率。由表2中的最小的平均全局视差来决定I视点的位置,Ballroom视频序列的I视点的位置是S3,Exit视频序列的I视点位置为S4,Flamenco2视频序列的I视点位置为S2。
本文提出的编码方法如图3所示。
图3 本文方法Fig.3 Proposed in this paper
为了验证本文方法的编码效率和随机访问性能等,实验中使用的测试序列为Ballroom,Exit,Race1,Flamenco2,使用的测试平台是JVT分布的MVC性能评价公共测试平台JMVC,版本为8.5。每个视点的编码帧数为100帧,编码QP值分别取28,32,36,40,帧率为25或30。根据表1和表2的分析结果,不同视频序列采用本文方法所使用的预测结构表3所示。
表3 四种候选预测结构Tab.3 Four Candidate prediction Structures
4.1 编码效率的比较
图4 率失真曲线图Fig.4 The rate distortion curve
表4 编码效率比较Tab.4 Coding efficiency comparison
实验结果如图4和表4所示。通过图5.1可以看出,使用本文方法在编码效率上要比JMVC传统的HBP方法要好,同时分析表4可以得出在总体的编码效率上本文方法有一定的优势。如表4所示,Race1视频序列和Flamenco2视频序列在相同的图像PSNR值下,编码的码率都有所下降,证明编码效率都有所提高。虽然Exit视频序列编码效率略有下降,但整个编码方法平均下来后还是在编码效率方面有所提高。
4.2 随机访问性的比较
随机访问性能是评价预测结构的一个重要指标。多视点视频编码系统的随机访问性能通常用解码一帧图像在一个GOP内部所需要预先解码的图像帧个数Nij 来衡量。公式如(4)所示,Level表示该图像帧在编码时所处的层次,number_of_views表示需要访问该图像需要使用到的视点个数。
本文评价预测结构采用的是两个参数:随机访问一帧所需要解码的平均参考帧数和最大参考帧数[10]。对于每一个视频序列来讲使用JMVC预测结构所需解码的帧数平均值和最大值分别为10和18;使用本文方法后,Ballroom视频序列平均值和最大值分别为7.5和16,Exit视频序列平均值和最大值分别为7.75和15,Flamenco2视频序列的平均值和最大值分别为6.48和12等。因此,本文方法相比传统的JMVC预测结构具有更好的提高随机访问性能。
多视点视频编码标准MVC采用的HBP预测结构具有很好的编码效率但随机访问性能比较差。本文在分析HBP预测结构的基础上提出了一种改进的预测结构方法,针对不同的视频属性设计了三种不同的预测结构,并在确定预测结构后通过调整I视点的位置提高编码效率。实验结果表明,本文方法可以根据不同属性的视频序列自适应的选择不同的预测结构,在提高编码效率的同时可以提高随机访问性能。
(References)
[1]HE Y,OSTERMANN J,TANIMOTO M.Introduction to the special section on multiview video coding[J].IEEE Trans Circuits and Systems for Video Technology,2007,17(11):1433-1435.
[2]Smolic A,Mueller K,Stefanoski N,et al,“Coding algorithms for 3DTV-A survey,” IEEE Transactions on Circuits and Systems for Video Technology,vol.17,no.11,pp.1606-1621,2007.
[3]Merkle P,Smolic A,et al.Efficient prediction structures for multiview video coding[J].IEEE Trans.Circuits and Systems for Video Technology,2007,17(11) :1461-1473.
[4]LI D X,ZHENG W,XIE X H.Optimizing inter-view prediction structure for multiview video coding with minimum spanning tree[J].Electronics Letters,2007,43(23):1269-1271.
[5]严涛,安平,沈礼权,张兆扬.一种新的视点间的预测结构[J].电子与信息学报,2009,31(7):1610-1614.Yan Tao,An ping,Shen Li-quan,Zhang Zhao-yang.A New Inter-view Prediction Structure[J].JOURNAL OF ELECTRONICS &INFORMATION TECHNOLOGY,2009,43(23):1269-1271.(in Chinese)
[6]Junyan Huo,Yilin Chang,Yanzhuo Ma.Efficient Prediction Structure for Key Pictures in multiview video coding[J].Photonics and Optoelectroi- cs(SOPO),2011:1-4.
[7]Liu Hai,Ma Lini,Lv Huayi.Inter-view Scalability and Prediction Multi-view Video Coding Scheme.Information Techn-ology and Applications (IFITA),2010 International Forum:129-133.
[8]Fecher U,Kaup A.Statistical analyses of multi-reference block matching for dynamic light field coding[C]// Proceedings of the 10th International Fall Workshop Vision,Modeling,And Visualization.Erlangen,Germany:Springer.2005:445-452.
[9]Park P K,Oh K J,Ho Y S.Efficient view-temporal prediction structures for multi-view video coding[J].Electronics Letters,2008,44(2):102.103.
[10]U.Fecker and A.Kaup.Complexity evaluation of random access to coded Multi-view video data[C].Proc.15th European Signal Processing Conferen- ce,Poznan,Poland,Sep.2007.
Research on structure prediction of multiview video coding
LIU Wei1,DENG Kaiwen2,CHEN Xiaoping3
(1.Shenzhen Institute of Information of Technology,Shenzhen 518172,P.R.China;2.Shenzhen University Guangdong,Shenzhen 518060,P.R.China;3.Shenzhen Shenxunhe Company LTD.Shenzhen 518000,P.R.China)
Multiview video sequences with different temporal and spatial correlation,the hierarchical B pictures coding structure used by MVC is Unable to take advantage of the properties of video sequences.A method adapting to different video sequence coding method is proposed based on research of temporal and inter-view correlation of mulitview video picture,Cancel inter-view prediction of some temporal level and select the appropriate position of I-view,and inter-view predicion is used in non-anchor frames of P-view.Experimental results show that the proposed method while improving coding efficiency and random access ability ,simultaneously reducing computation complexity.
Multiview video coding;prediction structure;coding efficiency;temporal and inter-view correlation
TN919.81
:A
1672-6332(2014)03-0035-05
【责任编辑:高潮】
2014-08-29
广东省自然科学基金(项目编号:SZ011010000697)
柳伟(1973-),男(壮),湖南长沙人,博士,教授。主要研究领域为信号处理、多媒体通信。E-mail:liuw@sziit.com.cn