邓凯文,任仙怡,柳 伟,梁永生
(1.深圳大学 信息工程学院,广东 深圳 518060;2.深圳信息职业技术学院 信息技术研究所,广东 深圳 518029;3.深圳市可视媒体处理与传输重点实验室,广东 深圳 518029)
一种新的多视点视频编码预测结构
邓凯文1,任仙怡2,3,柳 伟2,3,梁永生2,3
(1.深圳大学 信息工程学院,广东 深圳 518060;2.深圳信息职业技术学院 信息技术研究所,广东 深圳 518029;3.深圳市可视媒体处理与传输重点实验室,广东 深圳 518029)
多视点视频编码的参考预测结构虽然具有高效的压缩效率,但是随机访问性能较差。在综合考虑了编码效率和随机访问等因素的基础上,提出了一种改进的多视点视频预测结构编码方法。首先,分析视点与视点间的相关性来调整I视点的位置,然后在此基础上有效地增加B视点的数目,以获得较好的综合性能。实验结果表明,该方法与传统的参考预测结构编码方法相比,提高了编码效率,并且具有较好的随机访问性能。
多视点视频编码;预测结构;随机访问
随着不断增长的需求和显示技术的发展,三维视频已经成为二维视频的合理扩展。越来越多的应用在使用三维视频技术,比如3D电视[1]、自由视点视频[2]等,这种技术能够为用户提供同一视频场景的不同观看视角。这些应用的关键技术是多视点视频编码技术,是一种利用多路摄像机拍摄同一场景得到一组视频序列的技术。因此,具有更好的压缩效率以及交互式体验的多视点视频编码成为了当前研究热点之一[3-5]。
多视点视频的数据量随着摄像机的增加而增大,大量的冗余信息给存储和网络传输带来了巨大的挑战。为此,ITU.T和MPEG的联合视频组(Joint Video Team,JVT)提出了多视点视频编码(Multiview Video Coding,MVC)的概念。多视点视频编码的需求包括较高的编码效率、向后兼容、随机访问和视点可分级等[6]。
预测结构是多视点视频编码中最重要的技术,预测结构的设计得到了广泛的关注。日本名古屋最早提出了基于多方向(Multi-direction,M)帧预测结构,但其计算复杂度大且不利于随机访问[7]。文献[8]针对平行摄像机采集的多视点视频序列,提出了一种能够充分利用相邻视点间相关性和多参考帧模式的预测结构。文献[9]提出的GoGoP(Group of GoP)结构是二维视频编码图像组结构的扩展,它将视频序列分成不同的图像组,图像组的组内和组外分别采用不同的预测结构。文献[10]提出的基于分层B帧(Hierarchical-B Picture)的预测结构具有高效的编码效率,被采用为MVC(Multiview Video Coding)标准的参考预测结构,如图1所示。但是基于分层B帧预测结构的随机访问性能差、编码复杂度高等缺点。
图1 基于B帧分层预测结构
本文根据实际应用对编码效率、随机访问性能和编解码复杂度等的需求,提出一种改进的预测结构。实验结果表明,本文方法在提高编码效率的同时能够提高随机访问性能。
关键帧被编码为I,P,B帧的视点分别称为I视点、P视点和B视点。I视点是所有视点的基本参考视点,调整好其位置能提高编码效率和随机访问性能[11]。全局视差估计的计算如式(1)所示,当MAD值最小时i的值就是视点V1和V2之间的全局视差。
(1)
式中:w和h分别表示图像的宽度和高度;MAD(i)表示平均绝对差值。
计算平均全局视差如式(2)所示,全局视差的平均值越小表明该视点与其他视点的相关性越强。
(2)
式中:g(Si,Sj)表示视点Si与Sj之间的全局视差;MAGD(Si)表示视点Si与其他视点全局视差的平均值;N表示视点数。
当视点数较多时,这种方法计算量太大,Sohn等人研究得出I视点是接近中间位置的视点[12]。因此,本文只对视频序列的中间4个视点进行相关性分析,表1给出了不同视频序列的视点平均全局视差,表中*标记的为I视点的位置。
表1 不同视频序列的平均全局视差
相对于I帧和P帧,B帧有较高的编码效率,为了提高编码效率,应该尽可能增加B视点的数目。但是,随着B视点数目的增加,编码复杂度也会相应增加,所以,本文提出一种通过I视点的位置增加B视点数目的方法,如式(3)所示
(3)
式中:MOD表示取模;SI表示I视点位置的值;I,B,P分别代表I视点、B视点和P视点。
当SIMOD3为0的时候,8个视点的编码顺序为“P,B,B,I,B,P,B,P”,当SIMOD3为1时编码顺序为“P,B,P,B,I,B,B,P”,当SIMOD3为2是编码顺序为“P,B,P,B,B,I,B,P”或“P,B,P,B,B,I,B,P”。如图2所示,根据本文方法得出当SI分别为S3,S4,S5和S2时的预测结构图,S0~S7表示编码的视点。因此,MVC参考预测结构的编码顺序中B视点的数目为3、P视点的数目为4,而本文所提方法B视点数目为4、P视点数目为3。
图2 改进的预测结构图
为了验证本文方法的编码效率和随机访问性能等,实验中使用的测试序列为Ballroom,Exit,Breakdacers和Rena,测试序列可以网上免费下载。使用的测试平台是JVT公布的MVC性能评价公共测试平台(Joint Mutliview Video Coding,JMVC8.5)。每个视点的编码帧数为100帧,GoP取值12,帧率为30 f/s(帧/秒)。
随机访问性能是评价预测结构的一个重要指标。多视点视频编码系统的随机访问性能通常用访问任一帧图像所需要预先解码的图像帧个数来衡量,如式(4)所示
Nij=3*level+2*⎣(number_of_views-1)/2」
(4)
式中:Nij表示对第i个视点第j帧进行访问前需要解码的帧数;Level表示该图像帧在编码时所处的层次;number_of_views表示需要访问该图像需要使用到的视点个数。
本文使用Fmax值和Fmean值来评价随机访问性能,如式(5)所示
(5)
式中:Fmax和Fmean分别表示访问任一图像帧所需解码帧数的最大值和平均值。
本文使用峰值信噪比PSNR(Peak Signal to Noise Ratio)和码率来评价编码效率,PSNR值越高的同时码率越低,说明编码效率越好。实验结果如表2所示,编码效率平均提高2.6 dB,随机访问性能提高了22%,其中“+”表示增加,“-”表示减少。实验结果表明,本文方法提高编码效率的同时,随机访问性能也有所提高。
表2 实验结果
多视点视频编码预测结构是决定其编码效率、随机访问性能、编码复杂度等多项性能的关键因素。本文提出了一种改进的预测方法,在分析了视点间相关性的基础上,通过调整I视点位置且增加B视点的数目来改进预测结构的性能。实验结果表明,本文方法提高了多视点视频的编码效率并且提高了预测结构的随机访问性能。
[1]刘峰,董明江,丁瑾庆,等.多视点视频编码框架及关键技术[J].南京邮电大学学报:自然科学版,2013,33(3):26-34.
[2]邓智纰,贾克斌,陈锐霖,等.三维视频编码技术的发展与挑战[J].计算机应用,2011,31(9):2453-2464.
[3]JACOB C,ECOLE P.Adaptive multiview video strieaming:challenges and opportunities[J].IEEE Communications Magazine,2013,51(5):94-100.
[4]VETRO A, WIEGAND T, SULLIVAN G J.Overview of the stereo and multiview video coding extensions of H.264/MPEG4 AVC standard[J].Proceedings of the IEEE,2011,99(4):626-642.
[5]霍俊彦,常义林,李明,等.多视点视频编码的研究现状及其展望[J].通信学报, 2010,31(5):113-121.
[6]王强,郭晓强,解伟.多视点视频编码标准[J].广播与电视技术,2010,37(10):84-91.
[7]OKA S,FUJII T,TANIMOTO M.Dynamic ray-space coding using inter-view prediction[C]//Proc. International Workshop on Advanced Image Technology 2005(IWAIT 2005).Jeju,Korea:IEEE Press,2005:19-24.
[8]雷海军,杨辉,何业军.高效率的多视点视频编码预测结构[J].电视技术,2012,36(18):32-35.
[9]IMATA H K.Multiview video coding using reference picture selection for free-viewpoint video communication[J].Picture Coding Symposium,2004,99(4):15-17.
[10]MERKLE P,MULLER K,WIEGAND T.Efficient prediction structures for multi-view video coding[J].IEEE Trans.Circuits and Systems Video Technology,2007,17(11):1461-1673.
[11]PARK P K,OH K J,HO Y S.Efficient view-temporal prediction structures for multiview video coding[J].Electronics Letters,2008,44(2):102-103.
[12]严涛,安平,沈礼权,等.一种新的视点间预测结构[J].电子与信息学报,2009,31(7):1610-1614.
邓凯文(1987— ),硕士生,研究方向为视频编码;
任仙怡(1973— ),女,博士后,副教授,研究方向为数字图像融合;
柳 伟(1972— ),博士,教授,研究方向为图像处理、视频编码;
梁永生(1971— ),博士,教授,硕士生导师,研究方向为计算机网络与数据通信。
责任编辑:时 雯
New Multiview Video Coding Prediction Structure
DENG Kaiwen1,REN Xianyi2,3,LIU Wei2,3,LIANG Yongsheng2,3
(1.CollegeofInformationEngineering,ShenzhenUniversity,GuangdongShenzhen518060,China;2.InstitudeofInformationTechnique,ShenzhenInstituteofInformationTechnology,GuangdongShenzhen518029,China;3.ShenzhenKeyLabofVisualMediaProcessingandTransmission,GuangdongShenzhen518029,China)
The reference prediction structure of Multiview video coding has a highly efficient compression as well as a poor random access.An improved prediction structure is proposed in this paper by considering coding efficiency and random access.Firstly,the location of I-view is selected by calculating relevance between each of the views,then the number of B-view based on I-veiw is increased.Experimental results show that the proposed prediction structure provides better coding efficiency and improves view random access at the same time.
multiview video coding; prediction structure; random access
国家自然科学基金项目(61172165);广东省自然科学基金项目(S2011010000697;S2011010006117;S2012010008997;S2013010012669);深圳市科技计划项目(JC201105190829A)
TN919.81
A
10.16280/j.videoe.2015.07.002
2014-05-15
【本文献信息】邓凯文,任仙怡,柳伟,等.一种新的多视点视频编码预测结构[J].电视技术,2015,39(7).