许宇彤
基于人眼视觉系统的虚拟现实视频传输策略研究
许宇彤
(武汉理工大学 信息工程学院,湖北 武汉 430070)
近年来,随着移动通信网络速度和容量的提升,基于互联网的视频应用的数量和种类不断上升。随着网络容量的迅速发展和广泛的高特异化,越来越多的消费者使用实时流虚拟现实(VR)视频设备。然而,VR视频的高带宽要求给视频服务带来了新的挑战,从编码和传输两方面出发,提出适应VR特性的自适应流媒体传输优化方法是当下研究的热门方向。为了研究适应VR的自适应流媒体传输方法,合理的评价机制和数学模型是必不可少的。从人类视觉系统HVS出发,使用人类视觉模型,针对划分分辨率区域的VR流媒体传输策略,选择一种适合该策略的QoE评价方法并提出一种分辨率划分标准。
虚拟现实;流媒体传输;人类视觉系统;用户体验质量
本文从STEFANO[1]提出的自适应VR流媒体传输方法入手,该方法的目的是减少数据流所需的带宽,提高视频流畅度,降低时延。视频的每帧画面采用了平铺结构,其视频流不仅在时间段中被分割,而且还在空间上被分割成不同的质量区域。一个VR视频可以用一组个区域={1,…,k}划分,使得∩∀kk=∅。同一视频在时间上被分割成一个离散的段={1,…,m} ,并且∪∀mm=。每个区域k由一组区域∈k组成。区域被时间分割成块={t1,…,tm},并且可以在上设定不同的比特率(质量)。传输策略如图1所示,图中划分图像为={1,2,3},其中1为视线中心区域,包含28、29、36、37;2为视线中心的边缘区域,包含19、20、21、22、27、30、35、38、43、44、45、46;3为剩余区域。
图1 传输策略示意图
该传输方法的工作流程如下:在获得当前网络带宽后,在视线集中范围1中优先加载最高可能比特率的画面,并尝试增加该区域的比特率,始终保证在视线集中区域视频分辨率最高,同时在带宽允许范围内,在保证视频流畅度条件下,在视线外围区域2、3中尽可能保证分辨率,如有带宽的限制,则适当降低2、3的分辨率,因为其不在视线集中范围,从而保证视频的流畅度和低时延。但此方法对于两区域分辨率允许的差值没有做出规定,如果两区域分辨率相差过大,易造成人眼的晕眩以及视频质量的下降,使得降低。为了解决这一问题,本文在之后提出一种基于人眼视觉系统模型的区域分辨率的优化标准。
流媒体VR视频不同于传统的2D视频使用传统的多媒体业务评价方法——服务质量(Quality of Service,QoS),而是围绕时延、丢包、抖动等传输指标业务的质量来评价业务的质量。QoS只关注网络层与传输层的客观参数,而无法反馈用户的主管观看感受。为了进一步评估用户在多媒体业务中的主观体验,ITU-T在Rec P.10/G100 标准中提出了体验质量(Quality of Experience,QoE)的概念,定义为“终端用户主观感受到的应用或服务的整体可接受程度”。对于视频流媒体业务而言,QoE是对端到端视频编码、传输和播放过程的总体评价,能准确反映当前传输方案下的用户观看体验,并能作为视频传输的反馈指标。
但是,为得到视频QoE,常常需要进行主观人群测试,受测人员观看后再按主观印象打分,最终对所有打分进行综合,得出QoE,这种方法需耗费大量人力和时间,且结果带有较大的主观性,不适用于实时的流媒体传输过程。为了避免主观测试,又要得出较为可靠的QoE预测,提出客观质量模型,利用视频相关特性建立与视频之间的联系,得到客观参数到主观质量的映射模型,其成本会大大降低,同时也有更好的指导价值。目前,研究人员已经提出了一些客观质量模型。针对上文的传输方法,如何在当前带宽预算下选择最高的可用质量,是需考虑的重要因素,因此本文针对划分区域的VR传输策略采用PIAMRAT等人[2]提出的QoE模型,其中给出了比特率()、延迟时间stall、转换质量switch和启动时间startup的不同系数,以平衡它们对整个VR视频QoE的影响,以及考虑三个分辨率区域的QoE表达式,该QoE模型表示为:
=()-·stall-·switch-·startup(1)
=1·zone1+2·zone2+3·zone3(2)
人眼类似于一个光学系统,但不是普通意义上的光学系统,还受到神经系统的调节。探究人类视觉系统(Human Visual System,HVS)的感知特性并模拟其感知过程成为图像处理领域研究的热点。本文基于HVS对于人眼的研究,根据其对人眼视觉特性的建模和分析来对本文研究的QoE评价方法及分辨率划分标准。HVS主要研究以下几点因素。
对比灵敏度。人眼对亮度光强变化的响应是非线性的,在本文研究的QoE评价方法以及分辨率优化标准中,VR显示器的亮度默认为保持不变,所以该特性不作为主要的考虑因素。
分辨率。当空间平面上两个黑点相互靠拢到一定程度时,离开黑点一定距离的观察者就无法区别它们,这意味着人眼分辨景物细节的能力是有限的,这个极限值就是人眼分辨率。当照度太强或太弱、视觉目标运动速度加快时,人眼分辨率降低。本文主要研究两分辨率不同区域交界处的人眼分辨能力,通过光学中爱里斑的相关理论来研究人眼对于两个分辨率不同的像素区域的分辨能力,在下面章节会详细介绍。
马赫效应。当亮度发生跃变时,会有一种边缘增强的感觉,视觉上会感到亮侧更亮,暗侧更暗,从而导致局部阈值效应,本文主要研究的是分辨率因素,亮度因素作为无关变量,与上文的对比灵敏度一起不作为考虑的因素。
综合上述因素,人眼的分辨能力是研究分辨率允许差值的主要影响因素。
基于HVS模型的数字影像质量评价,针对人眼分辨率这一指标,根据光学基本原理,将爱里斑和瑞利判据的概念引入本文介绍的VR流媒体传输策略评价中,通过分析人眼分辨能力来给出划分不同分辨率区域而不明显影响区域边缘图像质量以及用户质量体验的分辨率划分标准,即若网络带宽不允许,使得两区域分辨率存在差值,则差值不大于多少时,不会造成用户体验明显降低或被人眼明显察觉到从而造成晕眩。
在实际应用中,光学系统都存在一个入射光瞳作为光孔的限制,因而会造成衍射效应,造成人眼分辨能力降低,进而影响到人眼对数字影像的观察质量。如果两个衍射图样中间相距过近,且爱里斑半径较大,人眼将无法将其区分,在视觉上造成模糊的感觉[3]。
瑞利判据指出,满足两个衍射图样恰好分开的临界条件是,第二个光强度曲线恰好落在第一个光强度曲线的第一最小值上,这里假定一个视力正常的人眼虹膜直径=5 mm,光波平均波长=550 nm,人眼的最小角分辨度为:
本文涉及的分区块分辨率的传输策略,其分辨率的改变集中于区域边缘,这也是本文研究的主要问题。为了简化模型,对于VR显示器,我们研究平面显示屏,假设显示屏尺寸为,屏幕分辨率为、(像素),显示屏长宽为、,一般显示屏的长宽有一定的比例,如16∶9、4∶3等,可以根据实际情况代入运算。此时可以计算出屏幕的每英寸像素数(Pixels Per Inch)为:
根据公式(3),用最小分辨角乘以人眼距显示器的距离即可得到人眼可分辨的最大距离,根据公式(4)可得到人眼对数字影像的最小分辨距离min,数学关系如下:
此时可以通过屏幕的长宽数据与分辨率计算出屏幕单个像素点的物理尺寸,如图2所示像素点模型中右侧小矩形的长宽所示,这些屏幕像素点位于上文不同分辨率区域1、2交界处,右侧小矩形位于1,为屏幕最小的像素点。左侧大矩形位于2,是为了保证画面流畅度而降低流畅度后画面的像素点,由若干个屏幕像素点组成为一个图像像素,尺寸大于屏幕能显示的最小像素点。
图2 像素点模型
考虑到VR视频播放器从Web服务器(Apache2,2.4.18-2)请求和处理基于分辨率区域的VR视频。网络条件由Linux流量控制(TC)机制根据真实的网络性能输入执 行。实验建立在Linux Ubuntu14.04操作系统的基础上,每个服务器由一个四核E3-1220v3(3.1 GHz)处理器组成,具有16 GB的RAM和2个10千兆网络接口。使用MobaXterm进行外部操控以及仿真数据的读取,代入公式(1)(2)中计算QoE。
[1]STEFANO P,VISWANATHAN S,MOHAMMAD H,et al.An HTTP/2-Based adaptive streaming framework for 360 virtual reality videos[C]//In Proceedings of the 2017 ACM on Multimedia Conference(MM’17), 2017:306-314.
[2]PIAMRAT K,VIHO C,BONNIN J M,et al.Quality of experience measurements for video streaming over wireless networks[C]//In International Conference on Information Technology:New Generations,2009:1184-1189.
[3]何凯.基于人眼视觉分辨力的数字影像质量评价方法研究[C]//2005年信息与通信领域博士后学术会议论文集,2005:131-135.
TP391.41
A
10.15913/j.cnki.kjycx.2020.14.019
2095-6835(2020)14-0055-02
许宇彤(1999—),男,通信工程专业本科在读,主要从事数字通信以及自动控制学习与研究。
〔编辑:王霞〕