张新有 王元勋 邢焕来 王红刚
基于对比敏感度的DASH客户端码率选择算法研究
张新有*①王元勋①邢焕来①王红刚②
①(西南交通大学信息科学与技术学院 成都 611756)②(ECE Department, University of Massachusetts, Dartmouth, MA 02747, USA)
基于带宽估算的码率选择算法具有带宽利用率高的优点,但是同时也存在容易受网络波动影响造成计算出的目标码率出现瞬时峰值而造成带宽浪费的问题。针对于此,该文提出一种基于人眼对比敏感度特征的码率选择算法,在客户端利用人眼对比敏感度模型计算当前观看条件下人眼截止空间频率,选择服务器中和截止空间频率差的绝对值最小视频分片对应的码率作为目标码率。和基于带宽估算选择目标码率的方法进行对比实验,测试二者在不同视角内计算的目标码率,得到两者的码率计算结果阶梯图。实验结果表明,在视角为5º到15º情况下,所提方法较带宽估计方法在确保视频效果前提下能够有效节约带宽。
对比敏感度;截止空间频率;DASH(Dynamic Adaptive Streaming over Http);码率选择
采用HTTP作为视频流传输协议的DASH (Dynamic Adaptive Streaming over Http)系统具有部署方便、容易穿越NAT的特点[1]。典型的DASH系统由服务器和客户端组成。服务器提供不同码率的视频分片以及媒体信息描述文件(Media Presentation Description, MPD),客户端通过MPD文件向服务器申请相应码率的视频分片播放。码率选择是DASH系统的核心。怎样在不降低用户体验的前提下选择低码率视频分片,从而减少网络带宽占用一直是研究的热点。
本篇文章组织如下:第2节给出了本文研究的相关概念;第3节提出使用CSF进行计算的理论依据和本文提出的具体方法,并进行相关公式的推导;第4节给出了实验条件和结果。论文的结论部分对本文方法进行了总结,给出了一般结论,分析了存在的问题。
2.1 视觉空间频率与对比度
在视觉研究中,空间频率是指单位视角内做正弦变化光栅的周期数(图1),单位是周/度(cycles per degree, cpd)。式(1)给出了空间频率的计算方法[9]。表示观察者离光栅的距离,代表光栅的像素个数,代表屏幕像素密度,单位是ppi(pixels per inch)。需要说明的是在实际应用中很少直接采用此公式计算产生视觉刺激图像的空间频率,而是使用拟合的CSF数学模型进行计算,详见3.3节。
图1 空间频率概念
人眼对于亮度强度变化的响应是非线性的,人眼视觉系统的响应更主要依赖于相对于背景亮度的局部变化,而不是绝对亮度值,在图像研究中使用对比度来对这种亮度变化进行测量。在本文中,使用式(2)的Michelson的对比度计算公式[9]计算图像的对比度。其中和分别表示产生视觉刺激图像的最大亮度和最小亮度值。对比敏感度定义为恰可分辨最小对比度值的倒数。
2.2 CSF
对比敏感度随空间频率变化的曲线称为CSF曲线,图2显示了Barten的CSF模型曲线。纵轴表示对比敏感度,其值越大表明对人眼的视觉刺激效果越强。横轴表示空间频率,正常人在空间频率为4cpd左右视觉刺激达到最高,60cpd左右时将不再产生视觉刺激。在取得最大对比敏感度值的空间频率称为人眼截止频率,高于人眼截止频率并不会增加观察者的视觉效应。
图2 Barten CSF模型曲线
人眼截止频率和观看的客观条件(例如:视角、光照)参数有关,在不同的条件下人眼截止频率不同。同样地,对于不同码率的视频分片其视频帧的空间频率也不相同。因此,通过计算当前观看环境下的人眼截止频率和服务器中待选择视频分片的空间频率的关系可以得到最适合当前条件下的视频分片。
3.1 算法过程
图3显示了本文设计的客户端进行目标码率的计算过程。客户端通过收集用户当前的环境参数(光照、视角)计算出在此条件下的人眼截止频率,和服务器中提前计算出的可选择空间频率进行比较,从而选择出最适合当前观看条件的视频分片。考虑一个简单的例子,假设MPD文件中可选择视频分片码率包含4 Mbps和2 Mbps两种并且通过带宽估计方法计算的目标码率为4 Mbps。若在当前观看场景参数下计算出的人眼截止频率为3.0 cpd, 4 Mbps和2 Mbps码率的视频分片计算出的空间频率分别为2.68 cpd和2.83 cpd,按照选择和3.0 cpd差的绝对值最小者作为目标码率的原则,因此本文算法计算结果为2 Mbps。上述情景中,在产生相同的视觉效果的前提下本文方法申请低码率的视频分片节约了网络带宽。下文将详细叙述客户端各个算法模块的工作过程。
图3 客户端码率选择过程
3.2 参数采集
通过使用客户端的传感器(例如摄像头,距离传感器等)可以得到用户到客户端显示器的距离和客户端的亮度信息。通过收集到的信息计算得出视角参数,见式(3)。代表视角,是客户端显示器的宽度,为用户到显示器的距离。不推荐采用人眼跟踪的方式进行视角计算,因为在增加客户端的计算量同时降低了用户使用体验。
3.3 截止频率计算
3.4待选择频率计算
文献[6]中所有计算在服务器端完成,由于采用在线计算的视频的空间频率方式,因此当申请视频流的客户端数量增加,会给服务器带来较大计算压力。本文中采用在服务器端离线计算的方式计算视频分片的空间频率。MPD文件中[U2] ,供客户端决策时使用。求取图片的空间频率的具体操作步骤如图4所示。
图4 计算视频分片的空间频率过程
在步骤(a)~步骤(b)中提取出视频分片的第1帧图片后将此图片转换到线性空间并提取亮度通道(例如LAB空间的L通道)。
在步骤(c)中计算每个像素的局部对比度,由于人眼视觉中存在偏心率,选用较大的区域会降低计算的准确度,因此本文中对于每个像素点采用5个像素的邻域进行计算,在得到局部最大亮度值和最小亮度值后使用式(2)计算出此像素点的对比度。需要注意的是当对于对比度为0,表明此像素点局部的亮度信号是均匀的,对视觉并无激励作用,将其舍弃。
步骤(d)中高斯低通滤波器能够平滑可视区域,本文中使用的滤波器过滤模板选择大小范围在3~8, sigma在1.6~5之间。
步骤(e)~步骤(f)中,对比敏感度为过滤后的对比度的倒数。在求出对比敏感度后使用式(7)计算图片的空间频率[6],其中表示图片中每个像素点的对比敏感度。
3.5 空间频率选择和码率映射
4.1 DASH实验系统和相关参数
为了验证方法的有效性,本文搭建了最小DASH实验系统,如图5所示。DASH视频分片服务器用于提供不同码率的视频分片和MPD文件,使用HTTP 1.1协议进行分片传输。在产生分片前使用SVT标准测试序列[16]生成不同码率和分辨率的视频,具体参数见表1和表2。使用文献[17]中开源DASH分片生成工具DASHEncoder产生视频分片。根据文献[15]设定视频切片的时间间隔为3 s。在完成视频切片后按照第3节所述计算出每个视频分片的空间频率作为待选择频率写入到MPD文件中。
表1测试视频序列使用的码率和分辨率
码率(Mbps)分辨率 1.20352×288 1.60640×360 2.00720×576 2.25960×540 4.501280×720 8.001920×1080
表2测试视频序列
视频序列名称帧率格式 Sun Flower[16]25H264 Duck Take Off[16]25H264 Cross Old Town[16]25H264
使用文献[18]提出的码率切换算法和本文进行对比实验。文献[18]的方法中使用了“平滑”流量算法,见式(10)。是上一次下载分片时测得的带宽,是在迭代过程中上一次估计的带宽,为当前估计的带宽。是权重值,代表对历史流量估计的依赖程度,分为固定和变化权重两种方式,本文采用后者。变化权重的方法中使用了函数来归一化瞬时估计误差以及过滤的值,和是函数的参数,根据文献[18],本文设置其值分别为,。
图5 最小DASH实验系统
4.2 实验结果及分析
由式(6)计算出了在亮度为150 cd/m2的条件下,用户观看角度从5º到30º变化时截止频率的变化,见图6所示。可以看出,随着用户视角增加,截止频率逐步减小,且在视角为15º左右减小的速率开始不断降低。根据式(3)可知用户视角和观看距离以及屏幕大小有关,本文中由于显示屏幕的宽度固定,因此在图6中,视角的增加代表用户观看距离的减小。由人眼视觉系统特性可知,人眼对于近处的物体分辨能力大于较远物体,因此不需要太强的视觉刺激就可以产生相同的视觉效应。随着观看距离的减少,所需要的亮度变化也逐渐减小,空间频率也随之降低。
图7和图8是本文方法和文献[18]的方法(Bandwidth Estimate)播放表2中的3个测试序列的对比实验结果,实验中测试了每个视频序列分别在网络带宽为4 Mbps和10 Mbps的表现。由图7和图8可以看出带宽估计的方法其计算出的目标码率大小基本保持在带宽上限附近。这是因为带宽估计的方法只与网络的质量有关,由于测试的最小DASH系统处于局域网内网络波动较小,因此其值相对稳定。对于基于本文方法,从单个测试视频序列来看,随着用户视角不断增加,客户端申请的视频码率也逐渐增加,这是由于视角增加代表用户与屏幕距离减小,用户眼睛分辨能力增加,因此需要申请较高码率的视频流。在视角在[5º,15º]范围内时,本文的方法比基于带宽估计的方法节省带宽,因为此时用户距离屏幕较远,对于细节分辨能力较弱,不需要申请高码率的视频流就可以达到相应的视觉效应。但是需要注意的是,这种优势在用户观看视角达到15º左右将失去,由图6可知,在用户视角在15º左右时截止频率减小速率降低,意味着在视角大于15º后截止频率保持在高码率视频的频率区间内,因此客户端计算出的目标码率基本落在此区间。从图中可以看出在视角为15º时本文方法已经不再具有节约带宽的特点,这是因为本文计算目标码率的方法和带宽无关,在不考虑带宽上限的前提下目标码率只与人眼的视觉特征有关,因此在申请的码率达到网络带宽上限后,目标码率应该由网络带宽来决定而不是人眼对比敏感度。
本文通过考虑客户端观看环境参数计算DASH系统的目标码率。实验证明此方法在用户观看视角范围在[5º, 15º]时能够不降低用户观看体验的前提下,有效节约带宽。但是由于没有考虑网络信道的实际容量,借助文献[19]的思想,在确保用户体验质量(QoE)情况下,当带宽有限时,如何确保用户视频连续性和和视频保真是下一步的研究方向。
图6 亮度150 cd/m2下人眼截止频率 图7 4 Mbps带宽下实验对比结果 图8 10 Mbps带宽下实验对比结果
[1] LUCA De Cicco and SAVERIO Mascolo. An adaptive video streaming control system: Modeling, validation and performance evaluation[J]./, 2013, 22(2): 526-539. doi: 10.1109/TNET.2013. 2253797.
[2] SAAMER A, NARAYaANASWAMY S, BEGEN A C,. An experimental evaluation of rate-adaptive video players[U5] HTTP[J].:, 2012, 27(4): 271-287. doi: 10.1016/j.image.2011.10.003.
[3] RAN Yongyi, SHI Youkang, YANG Enzhong,. Dynamic resource allocation for video transcoding with QoS guaranteeing in cloud-based DASH system[C]. IEEE GlobeCom Workshops, (GC Wkshps), Austin, 2014: 144-149.
[4] TIAN Guibin and LIU Yong. Towards agile and smooth video adaptation in dynamic HTTP streaming[J]., 2015, 9(11): 1-14.[U6] 10.1109/ TNET.2015.2464700.
[5] REZNIK Y A. User-adaptive mobile video streaming using MPEG-DASH[C]. SPIE Optical Engineering+Applications. International Society for Optics and Photonics, San Diego, 2013: 88560J-88560J-5.
[6] VANAM R and REZNIK Y A. Perceptual pre-processing filter for user-adaptive coding and delivery of visual information[C]. IEEE Picture Coding Symposium (PCS), San Jose, 2013: 426-429.
[7] VANAM R, KEROFAKY L J, and REZNIK Y A. Perceptual pre-processing filter for adaptive video on demand content delivery[C]. IEEE International Conference on Image Processing (ICIP), Paris, 2014: 2537-2541.
[8] CHEN Wei, MA Liangping, STERNBERG G,. User-aware DASH over Wi-Fi[C]. International Conference on Computing, Networking and Communications (ICNC), Garden Grove, 2015: 749-753.
[9] KEROFAKY L, VANAM R, and REZNIK Y. Adapting objective video quality metrics to ambient lighting[C]. Seventh International Workshop on Quality of Multimedia Experience (QoMEX), Pylos-Nestoras, 2015: 1-6.
[10] NILL N B. A visual model weighted cosine transform for image compression and quality assessment[J]., 1985, 33(6): 551-557. doi: 10.1109/TCOM. 985.1096337.
[11] SCHULZE T J. Procedure for calculating the resolution of electro-optical systems[C]. International Society for Optics and Photonics, San Diego-DL Tentative, 1990: 317-327.
[12] WU Yiyan and COLL D C. Multilevel block truncation coding using a minimax error criterion for high-fidelity compression of digital images[J]., 1993, 41(8): 1179-1191. doi: 10.1109/26. 231961.
[13] DALY S J. Visible differences predictor: an algorithm for the assessment of image fidelity[C]. SPIE/IS&T 1992 Symposium on Electronic Imaging: Science and Technology, Cambridge, MA, 1992: 2-15.
[14] BARTEN P G J. Formula for the contrast sensitivity of the human eye[J]., 2003, 5294: 231-238. doi: 10.1117/12. 537476.
[15] REZNIK Y A and VANAM R. Improving coding and delivery of video by exploiting the oblique effect[C]. IEEE Global Conference on Signal and Information Processing (GlobalSIP), Austin, 2013: 775-778.
[16] The SVT high definition multi format test set[EB/OL]. ftp://vqeg.its.bldrdoc.gov/HDTV/SVT Multiformat/.2006. 2.
[17] MUELLER C, LEDERER S, POECHER J,. Demo paper: Libdash-an open source software library for the mpeg-dash standard[C]. IEEE International Conference on Multimedia and Expo Workshops (ICMEW), San Jose, 2013: 1-2.
[18] THANG T C, HO Q D, KANG J W,. Adaptive streaming of audiovisual content using MPEG DASH[J]., 2012, 58(1): 78-85. doi: 10.1109/ TCE.2012.6170058.
[19] SEYEDEBRAHIMI M, PENG Xiaohong, and BAILEY C. Client QoE-oriented segment selection for DASH[C]. IEEE International Conference on Computer and Information Technology,Liverpool, 2015: 1663-1668.
Rate Selection Algorithm of DASH Client Based on Contrast Sensitivity
ZHANG Xinyou①WANG Yuanxun①XING Huanlai①WANG Honggang②
①(,,611756,)②(,,02747,)
One significant advantage of rate selection algorithms based on bandwidth estimation is the high bandwidth utilization rate. They are, however, vulnerable to network bandwidth fluctuations, leading to appearance of rate instantaneous peak value and hence wasting unnecessary bandwidth consumption. To tackle the problem above, this paper proposes a novel rate selection algorithm based on the contrast sensitivity of human eyes, where in the client eyes cutoff spatial frequency under the current viewing conditions is calculated by using the human contrast sensitivity model. The algorithm selects the rate of video fragment which has the minimum absolute difference value to the spatial frequency computed, stored in server as the target rate. Compared with those methods for calculating the target rate based on bandwidth estimation and testing target rate in different angles, the proposed method gets the ladder diagrams of rate calculation of both methods. Experimental results demonstrate that the proposed algorithm is able to save a considerable amount of bandwidth without the loss of video quality, with viewing angle from 5º to 15º.
Contrast sensitivity; Cutoff spatial frequency; Dynamic Adaptive Streaming over Http (DASH); Rate selection
TP391
A
1009-5896(2016)11-2826-06
10.11999/JEIT160150
2016-02-02;改回日期:2016-07-29;
2016-09-30
张新有xyzhang@swjtu.edu.cn
国家自然科学基金(61401374)
The National Natural Science Foundation of China (61401374)
张新有: 男,1971年生,副教授,主要研究方向为计算机网络、MANET、嵌入式系统.
王元勋: 男,1988年生,硕士生,研究方向为网络应用技术与嵌入式系统.
邢焕来: 男,1984年生,副教授,主要研究方向为计算机网络、SDN、无线网络.
王红刚: 男,1974年生,副教授,主要研究方向为无线网络、社交网络.