王涛
摘要:随着远程视音频交互应用的广泛使用,相关的产品和方案也越来越丰富,用户在选择时往往无所适从。如何客观、精确、方便地评价这些产品和方案的性能,对用户十分重要。该文正式以此为研究点,并给出了可推广的解决方案。
关键词:视音频传输;测量
中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2016)26-0209-02
网络条件的迅速提升,促使远程视音频交互应用被广泛使用。视频聊天、网络直播、视频会议、远程教育,这些“远程视音频交互”应用的广受欢迎,促使市场的迅速发育,相关产品和方案也越来越丰富。用户在感到欣喜的同时,很快发现一个令人头疼的问题——那么多的产品,那么多的方案,该如何选择呢?
用户选择产品时最主要考虑的就是性能和价格两个方面。这其中,价格本身就是数字量,非常直观,而性能则很难评判——每个商家都把自己的产品和方案说得天花乱坠。但是多数产品的价格都需要用户进行理性地采购,而普通用户的技术条件有限,如何能够客观、精确、方便地评价这些产品和方案,成为了普遍关心的问题,也成了我们研究的内容。
民用产品的性能,最终会表现在用户体验上。在远程视音频交互中,影响用户体验最主要的因素包括:视频分辨率、画面质量、音频质量、视频延时、音频延时和视音频同步等六项。
前三项中“视频分辨率”是程序或手工设定的,因此很容易判断。“画面质量”包括色彩和锐度等,可以在相同分别率和码流的情况下,通过截图进行比较,也不难。而“音频质量”则因为所占信息量的比例较小,在以语音为主的应用中基本可以不做评估。
后三项是评估的难点,因为都与时间有关,因此评价时需要拿出确切的数字才有说服力,我们经过多次的实验比较,找到了行之有效且适合推广的测量方法。
1 “镜像法”测量视频延时
如 图1 所示,首先“终端1”在本地的屏幕上显示一个秒表程序,用本地的摄像头将秒表程序的运行画面通过远程视音频交互产品传输到“终端2”。然后,“终端2” 用本地的摄像头将接收到的从“终端1”传来的画面再回传给“终端1”。最后,“终端1”以画中画形式同时显示本地和远端画面,此时就可以通过截图,保存某一时刻“本地秒表”和“回传秒表”的画面,从而了解精确的画面时延。
对于经常遇到的摄像头固定在显示器上方的情况,则可以在显示器前放置一面镜子——因此,我们称该方法为“镜像法”。
2 “回声法”测量音频延时
测量音频延时的前提是要将音频可视化,这要借助专门的音频编辑软件,然后借用“镜像法”的思想来实现。
如 图2 所示,首先在“终端1”上开启一个录音程序,然后在“终端1”上持续播放音频,通过远程视音频交互产品将音频传输到“终端2”。接下来,“终端2” 用本地的麦克风将将接收到的从“终端1”传来的音频再回传给“终端1”——因此称为“回声法”。 “终端1”上的录音软件会把本地音频和回传音频合并后的音频记录下来。最后将录音文件导入音频编辑软件,通过波形分析,就能找到源波形和回声波形之间的时间差,从而得到音频延时测量结果。
3 “录像非编法”测量视音频同步
传统的测量视音频同步的方法是“击掌法”,即远端镜头前的用户有节奏地击掌,本地通过观察击掌画面和听到的击掌声之间是否有明显的时间差来判断是否存在视音频不同步的问题。“击掌法”对单个产品在视音频同步方面的性能可以做出定性评价,但是在不同产品的性能对比中,因为无法定量,因此缺乏说服力。
我们设计的方法是这样的。如 图3所示,首先在“终端1”上用音频编辑软件持续播放音频,用本地的摄像头将音频编辑软件播放音频的画面和声音通过远程视音频交互产品传输到“终端2”。之所以强调用“音频编辑软件”播放音频,是因为这类软件在播放音频时,会同步显示波形。
然后在“终端2”一端用外置的录像设备,将接受到的视音频记录下来。之所以强调用外置的录像设备(建议是专门的摄像机),是因为如果采用“录屏软件”录制,由于录屏软件本身会消耗不少资源,因此会对测量造成明显的干扰。
最后,把录像文件导入非编软件,就可以在非编环境下通过观察画面上的波形和实际音轨中波形的时间差,对视音频同步情况进行精确的测量——因此称为“录像非编法”。
4 小结
以上就是我们设计的远程视音频传输性能的测量方法。方法中在涉及录音的环节应尽量保持环境安静,否则会对后期的波形分析带来困扰。其中谈到的音频编辑软件和非编软件都可以选择大众主流产品——因为仅需用到很基础的功能,因此不会给用户带来很大压力。
关于测量精度,由于视频传输的帧率通常是30或60,因此测量精度可以达到小数点后第二位。对于以用户体验为研究对象的测量,这样的精度已经可以满足研究的要求了。
参考文献:
[1] 吴佳瑶.音视频数据网络实时传输的性能测试与分析[D].浙江工业大学,2014.
[2] 郭孝存,王文忠.三网融合下传输教育视频资源的质量分析[J].阴山学刊:自然科学版,2015(7).