杨培桢
(91917部队,北京 100089)
随着互联网技术在现代社会中应用范围的不断扩大和应用层次的不断深化,网络视频通信在远程视频会议、远端视频医疗、远程视频教育、网络视频游戏以及互动电视等领域的应用也越来越广泛[1]。为了进一步提高网络视频通信的应用质量与数据传输效率,优化网络视频通信终端用户的使用体验,需要改善网络视频通信的数据传输流畅度与视频画质清晰度。网络视频通信主要包括视频源数据采集、视频数据编码、视频数据传输、接收端的视频数据解析以及视频显示等流程,其数据交换是双向的,即通信的双方可以同时作为数据的接收端与输出端。通常情况下,提高网络视频通信的画质会占用更多的带宽[2]。如果网络带宽资源足够丰富,则可以通过提高视频传输码率来优化视频通信的质量。现代网络用户数量不断增加,同时用户对网络的要求越来越高,网络带宽资源越来越紧张。基于此,通过优化网络视频通信编码方案,同时配套科学的网络视频通信质量评价方案,在不增加传输带宽的情况下实现高质量、高效率的视频通信。
按照空间环境与人的相对关系,网络视频通信的场景通常可以分为近景、中景以及远景。近景场景多为人物特写或集中在人物的面部区域,通信双方可以清楚地看到对方的面部表情;中景场景通常覆盖整个人物的影像,更加突出的是人物的整体肢体动作;远景场景除了覆盖人物本身外,还会切入一定比例的空间环境影像,通信双方的关注点主要表现为识别对方生物身份与基本环境概况[3]。针对不同场景的视频通信编码,在空间维度与时间维度上有所区别。
确定网络视频通信编码方案时,应遵循视频通信或流媒体传输码率低于网络端到端有效带宽的基本原则。高清商务会议等网络视频通信场景中,应考虑在限制带宽不超过2 Mb/s的前提下提高服务质量[4]。同时,由于带宽受现实网络环境影响较大,因此可以从 300 kb/s、600 kb/s、1 Mb/s、1.5 Mb/s或 2 Mb/s等参数中选取合适的带宽值,并在相应编码方案下设定合适的带宽限制值。综合考虑既往网络视频通信场景与视频窗口大小的设定情况,由于高分辨率会造成编码难度与码率增加,同时其应用场景较少,因此可以从360P、480P、720P以及1 080P等分辨率参数中进行选择。在确定帧率时,由于增大帧率会大幅提高编码码率,而且超过30 fps的帧率在常规性主流视频通信场景中并无显著应用优势与应用价值,因此设定编码参数时拟采用低于30 fps的帧率,从10 fps、15 fps以及25 fps中选择合适的帧率参数。
确定以上参数的范围后,还需要注意在码率较低时网络视频通信的帧率与分辨率均会受到较为明显的限制,且编码所致的量化矩阵会造成视频在传输过程中出现较为明显的失真现象。综合以上分析,确定码率后应选择合适的分辨率与帧率,结合实际网络条件与视频通信质量要求配置相应的编码参数。网络视频通信编码参数组合如表1所示。
表1 网络视频通信编码参数组合
压缩解码也是网络视频通信的重要流程,可以利用专门的开源计算机程序FFmpeg来完成。该程序可以实现数字音视频的记录与转化,得到流化音视频。FFmpeg程序中内嵌了libvpx与libx264等多种类型的视频编码库与解码库,其兼容Windows、MacOS以及Linux等主流操作系统,能够便捷地完成H.264、VP8、AV1以及VP9等多种格式视频的编码与解码。如果编码器未特别说明,则默认为x264编码器。
目前,较为主流的网络视频通信质量评价方法主要有绝对分类评级(Absolute Category Rating,ACR)法、具有隐藏参考的绝对分类评级(Absolute Category Rating with Hidden Reference,ACR-HR)法、损伤分类评级(Damage Classification Rating,DCR)法以及成对比较(Paired Comparison,PC)法等[5]。其中,ACR法与ACR-HR法均是通过测试者观看并对每一个视频进行打分来完成评价,ACR-HR法附加了测试视频中需包含源参考视频的条件。DCR法要求测试者比较测试视频与源参考视频的差别来进行评价。应用PC法时,测试视频为两两一组连续播出,测试者对比两者的差别并进行评价[6]。
在某种程度上,对源视频进行压缩编码时造成图像质量降低在所难免,如果在相应的场景下视频图像质量处于可接受的区间内,则认为视频通信编码的方案可行。在视频通信编码的质量评价方法中,ACR法的实现难度更低且更容易操作,而PC法在相近视频的质量区分方面具有更加显著的优势。
当网络带宽受限时,经过编码的视频难免会出现图像质量或播放流畅度降低的问题,在相应场景下能够满足用户使用要求与标准的即为可行性编码方案,开展视频通信编码的质量评价时也应遵循这一原则[7]。结合《多媒体设备用主观视频质量评估方法》(ITU-T P.910—2008),可以将网络视频通信编码质量分为很差(1级)、较差或有明显不适感(2级)、一般(3级)、可以接受(4级)以及舒适(5级)。
控制视频播放环境的光照与播放设备保持不变,选择30名普通工作人员开展基于网络通信编码的视频质量测试。其中,A测试视频为单人视频会议场景,B测试视频为多人视频会议场景,C测试视频为多人舞蹈远程教学场景。按照一定的标准对得到的数据进行筛选,以剔除偶然性数据。通过计算平均值,得到部分测试数据对比结果如表2所示。
表2 部分测试数据评价对比
对于A测试视频而言,当码率限制为300 kb/s时,帧率为10 fps具有更好的应用效果。当码率限制提高到1 500 kb/s时,两种编码策略均具有较高的评分。在单人视频会议场景下,人物的面部细节与画面清晰度要求相对较高,而画面并不会出现频繁的变化,选定10 fps的帧率可较好地匹配高码率与低码率。当视频分辨率提高到720P时,会造成量化步长显著增大且画面精细程度大幅降低。基于此,针对A类视频通信场景,低码率条件下应选择低分辨率、低帧率以及小窗播放模式,高码率条件下应选择高分辨率播放模式。
对于B测试视频而言,当码率限制为300 kb/s时,帧率为10 fps具有更好的应用效果。在多人视频会议场景下,人物较多,视频通信对画面的连贯度要求相对较高,而对个人面部细节变化的捕捉要求相对较低。当码率提高到300 kb/s时,分辨率为720P的应用效果更好。无论选择高码率或低码率,均应优先设置相对较高的播放分辨率。
对于C测试视频而言,码率限制为300 kb/s且分辨率为360P时的评价得分最低,这两种方案应被判定为失败的编码参数配置方案。当码率限制为1 500 kb/s或者300 kb/s时,帧率为25fps具有更好的应用效果。在多人舞蹈远程教学场景下,人物动作跨度较大,整体运动轨迹较为复杂,视频接收方对画面的连贯性要求较高,而对人物的表情要求较低。在25 fps的帧率条件下,选择720P的分辨率和1 500 kb/s的码率得到了较高的评价得分。基于此,高分辨率与高码率的配置方案较为合适。
综上所述,针对网络视频通信的编码方案,若码率受到显著的限制,则视频经编码后会出现不可避免的分辨率降低或帧率损失问题,需要合理配置分辨率与帧率才能得到较高的用户评价得分。针对不同的网络视频通信场景,用户的需求也存在较大差异,合理设计编码方法的评价方案,以用户的实际体验为导向优化各编码配置方案。未来应继续深化对网络视频通信编码方案的评价研究,以推动视频通信技术的发展。