基于码流融合技术的全景视频自适应传输算法①

2022-11-22 10:50
关键词:全景解码编码

于 娟

(仰恩大学工程技术学院,福建 泉州 362014)

0 引 言

全景视频属于新兴的一种视频类型,随着科技的不断进步,全景视频在逐渐被人们所认识[1-2]。全景视频能够让用户完全沉浸其中,具有独特的舒适性享受体验,在未来视频的服务中占据着重要的地位[3]。但是全景视频的传输要求非常高,在实际应用中也存在一定的困难。如今,基于码流融合技术的全景视频自适应传输技术的研究已成为视频研究工作主要的方向。该技术将全景视频划分成了若干个Tile,并通过当前视域来传输数据,从而改进了数据传输过程中的诸多问题[4]。然而设备往往会受到许多限制,如用户无法在同一时刻对多个Tile码流进行解码,这给当前的研究工作带来较大的挑战。因此班次研究旨在探讨全景视频自适应传输技术研究。

1 基于码流融合的全景视频自适应传输技术

1.1 Tile自适应传输系统

全景视频的传输要求非常高,其超高码率和分辨率使得人们在应该全景视频时,会遇到诸多不可控因素造成的影响,而应用交互式传输系统是传输ROI视频的有效工具,该系统对硬件以及网络宽带的要求也偏低[5]。该传输方式在数据传输的过程中,其并不是对完整视频的传输,而只是传输了部分视频[6]。用户在客户端会对自己想看的内容接收一组对应的Tile,实现与系统的实时交互。在服务器端,为了能满足应用需求,视频图像会被编码器将分割为不同的Tile,并应用MPEG-DASH的自适应传输技术,将实时动态ROI分配给Tile流对应的用户,防止由于码率过高引起的重新缓冲或卡顿问题,使用户体验得到提升。此外,还可以由MPEG-DASH的SRD功能对各个Tile在视频中的坐标进行描述,从而达到Tile索引的效果,识别不同位置的信息,进而使用户在不同网络、客服端条件下能够有较好的视频观看体验。研究设计了一种基于码流融合技术的全景视频传输系统,如图1所示。

基于Tile的全景视频传输系统主要由两部分组成,分别为客户端与服务器。服务器应用了ERP技术来映射全景视频源,并由编码器将视频进行Tile划分,再分别进行编码,生成各类码流,这些高质量码流可以叫做增强层(EL)。客户端会自动对网络状况进行判断,并进一步自适应地选择播放或者下载网络能够承受最大比特率。在网络状况较差时,为了能使用户能够及时看到视频图像,服务器会给用户传输一个低码率的视频版本,这种版本叫做基础层(BL)。对于系统的预下载方式,主要采用了带宽和ROI两种方式,根据用户视频观看的历史轨迹对用户未来的ROI进行预测,通过下载吞吐量进行带宽的估量。同时,客户端的下载过程会先在服务器进行MPD的下载,并将MPD发送给服务器,以请求下载基础层和增强层。最后根据用户需求来下载适合的内容。

1.2 基于码流融合的自适应传输算法研究

为了使编码运行能力得到增强,将Tile引入H.265/HEVC中,其内部为Z编码方式排序,并相互依赖。所以在H.265/HEVC中需要对某个Tile图像进行解码时,则需要对整个图像进行解码。MCTS对视频的Tile进行整体上的划分,并限制Tile的编码过程和编码条件,以去除相邻Tile间的相互依赖性,能够进行独立解码。MCTS技术主要在H.265/HEVC中帧间预测模块中实现,对帧间预测运动范围进行限制。其中,主要的模块包括了环路滤波边界限制、运动估计限制和MV限制。

帧间预测模块的有运动估计和MV预测构成,高级运动矢量技术(AMVP)术和运动合并技术(Merge)共同构成了MV预测方法。其中,Merge运动合并技术主要通过时空域中相邻已编码PU中创建候选列表,通过率失真代价计算并筛选出符合要求的最优MV。高级运动矢量技术方式与运动合并技术相似,但列表长度取2。在实际的应用中,编码运动估计精度大多数都在亚像素级别以上,在限制预测MV时,要更多的去考虑可能遇到的情况。

设PU的高为pu_height,宽为pu_width,坐标为(x,y);Slice的边界表示为slice_lift,slice_right,slice_top,slice_bottom;MV的范围为(mv_x,mv_y)。在本研究中,设定MV边界为1/4像素,有:

(1)

NTAPS为亚像素滤波器抽头系数的数量,可由MV预测结果得出各情况下的限制范围,如式(2)所示。

(2)

通过Merge得到MV是在未进行搜索的状态下编码的,所以由MV大小计算出对应的NTAPS,再应用NATPS确定各向边界。若MV越界,记为false。AMVP的运动搜索起点为获取的预测MV,若MV未满足MCTS的要求,则需要进行对其进行修正,如式(3)、式(4)所示。

mv_x=

(3)

mv_y=

(4)

对于Slice/Tile的最右侧的PU,PU用到相邻Slice预测信息的概率较大,就会导致Slice无法独立完成解码。若对Slice进行编码时,可对相邻编码图像中同为PU进行参考,然后如果采用MCTS进行独立解码时,可能会造成解码器和编码器的不一致而报错。相邻Slice边界的MV预测。

应用标准解码器时,不能在AMVP与Merge进行时间更改。提出在AMVP与Merge中,采用限制方式避免Slice中的最右侧时域候选MV成为最优候选MV。为了使系统能够降低对客户端的硬件要求,并可以支持具有独立硬件的解码器,能够提升系统的能力,实现在解码之前进行码流融合,并进行独立解码。视频流传输系统的框架如图2所示。

码流融合方式还可以拼凑各种分辨率的码流,但需要选中子图像码流需要由视频、序列、图像参数集和视频内容信息、附加增强信息构成,全部视频均被压缩为单个的网络适配单元(NALU),载荷和头为NALU的组成部分。完整图像码流组成方式如图3所示。

在进行码流融合时,子图像的每一帧都被只含有1个SS,被看作是单个的Slice/Tile,通常单个图像码流中PPS,SPS,VPS可以由多个SS公用。进行子图像码流融合前,要对相应的自图形头信息进行更新,并对初始化原始数据进行重新生成;整副图像码流组成就不同于子图像码流的组成,AU表示在一帧中全部的SS,并且全部SS共用一个PPS,并且各个AU引用各不相同。

解码头信息是找到头信息中的语法元素。在这里引入了SODB的概念,其表示压缩数据输出的比特流片段,能将数据存储入最高位。当SODB被导入原始字节序列载荷后,得到多参数的RBSP。参数间的关联性,如式(5)-式(7)所示。

SODB+RBSPtrailingbits=RBSP

(5)

NALU_header(2bits)+RBSP=NALU

(6)

StartCodePrefix+NALU+StartCodePrefix+

NALU+…=H.265BitsStream

(7)

最后是进行编码,主要是在码流中写入编辑修改后并进行了重新编码的头信息。由于没有必要进行视频信息的修改,所以都只需对各个SS的长度进行记录,并将初始SS码流复制到重新生成的SS头信息中即可。

2 码流融合技术的性能及测试

研究的主要应用了MCTS优化技术,其主要目的是为了能够使客户端要求能够有效的降低,并有效降低整个系统的传输流量,提升系统在复杂环境下的稳定性。MCTS优化技术的应用使得码流的压缩率下降和冗余度增加,编码能力下降。见表1。

表1 不同划分方案下加入MCTS的性能结果

由表1可以看出,对MCTS进行优化后,在一定程度上影响了不同分辨率的序列,4K视频的BD-rate的提升区间为[11.45~32.98]%,与8K视频相比,4K视频上升的范围较大,而8K提升区间为[1.82~7.61]%。在不同的Tile划分方案下,同一序列对不同的Tile也具有不同程度的影响。不同配置下的率失真区线,如图4所示。

由图4可知,系统划分Tile的数量越多,损失的性能也就越多,从全局上看,编码性能受到优化后MCTS的影响是可以接受的。对于视频的主观质量而言,损失较小,4K视频与8K视频的ΔSSIM平均减少量分别在[0.03401,0.03510]与[0.00009,0.00022]以内,并且ΔSSIM受到Tile划分的影响也较小。为了使全景视频传输能够持续保持低时延性,码流融合速度应较快,研究也测试码流融合的速度。系统码流融合速度受到了Tile内容、个数以及大小的影响。为了能够对Tile大小进行测试,将视频序列划分为4K(320x320)与8K(640x640)划分,以测试Tile的大小。首先将全景视频序列按照Tile划分的方式,划分成各个子序列,通过编码条件编码各个Tile序列,得到各类码流,再采用HMD的FOV大小融合Tile流,其中6x3融合方式的覆盖范围为垂直90水平180°,4x3融合方式的覆盖范围为垂直90水平120°。研究随机选取了Tile流,并测试了Tile流的时间消耗情况,包括各个头信息融合、P帧、I帧。测试结果如图5所示。

图5中分别对8K视频640x640和4K视频320x320不同QP下的时间消耗。从图中可知,融合P帧的时间消耗远小于I帧,特别是在Tile分辨率较高的情况下。然而在进行实际传输和编码时,I帧所占比例远远小于P帧。因此从测试全局看,还是能够接受较快的码流融合对系统造成的传输时延。

3 结 语

对基于码流融合的自适应传输算法进行了研究,并对码流融合技术的性能进行了测试。研究结果表明,对MCTS进行优化后,在一定程度上影响了不同分辨率的序列,4K视频的BD-rate的提升区间为[11.45~32.98]%,与8K视频相比,4K视频上升的范围较大,而8K提升区间为[1.82~7.61]%。系统划分Tile的数量越多,损失的性能也就越多,从全局上看,编码性能受到优化后MCTS的影响是可以接受的。4K视频与8K视频的ΔSSIM平均减少量分别在[0.03401,0.03510]与[0.00009,0.00022]以内,并且ΔSSIM受到Tile划分的影响也较小。融合P帧的时间消耗远小于I帧,特别是在Tile分辨率较高的情况下。然而在进行实际传输和编码时,I帧所占比例远远小于P帧。因此从测试全局看,还是能够接受较快的码流融合对系统造成的传输时延。

猜你喜欢
全景解码编码
生活中的编码
定制化全景声耳机系统 JVC EXOFIELD XP-EXT1正在热销中
戴上耳机,享受全景声 JVC EXOFIELD XP-EXT1
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
文化解码
解码eUCP2.0
文化 解码
文明 解码
Genome and healthcare