李峰
(中央广播电视总台技术局通信运行部 北京市 100000)
传统视频会议系统在基于企业内部专线传输时,由于内部网络带宽高、线路稳定性高,使得会议音视频质量能够得到有效保证,目前市场主流产品技术已经能够实现4K 分辨率的编解码传输。而在公共网络环境下,由于网络具有不稳定性,使得音视频效果无法保证,甚至出现会议中断的可能性。这一问题必须得到有效解决,否则会严重限制视频会议的应用与发展,目前已经有很多技术手段来改善这一问题,使得会议能够正常进行并尽可能提高音视频传输质量。
由于公共网络的带宽一般具有不稳定性,例如公共场所Wi-Fi和4G 移动信号,随着Wi-Fi 热点或移动基站覆盖范围内接入人数的升高而网速变慢甚至中断,网络传输出现丢包、延时或抖动,会导致视频会议出现声音断断续续、声画不同步、视频卡顿、马赛克等现象,严重时影响会议正常进行甚至会议中断。
视频会议系统的网络适应性就是评估系统在网络环境不稳定的情况下,实现相对稳定和高质量音视频传输的网络适应能力。包括抗丢包处理机制、提高视频编码效率、动态带宽调整、公共网络优化等。
在基于IP 网络传输时,由于视频会议为交互类应用,对于数据传输的实时性要求很高,传输层TCP 协议由于强调可靠性,不保证实时性,所以适合信令数据的传输,但是不适合用来传输视频会议媒体流数据。UDP协议,是无连接的传输层协议,优点是延迟小、数据传输效率高,适合用来传输媒体流数据,为了保证数据传输的实时性,可以容忍部分丢包。但是缺点也随之而来,在网络状况不好时会出现数据包丢包和乱序的情况。RTP 协议(实时传输协议)基于UDP 协议并配合RTCP 协议以保证传输质量,相对于UDP 协议,RTP 协议能够在保证实时性的前提下,相对提高传输的可靠性,但仍然存在丢包、乱序、抖动等问题,需要再通过其他补偿机制来改善这一问题。
网络传输时,当发生数据包丢失,可结合前向纠错(FEC)、丢包重传(ARQ)等机制来恢复丢失的数据包内容。
2.1.1 FEC(前向纠错)机制
前向纠错编码,是一种在数据编码过程中增加冗余信息的编码方法,通过发送冗余数据包,使得接收端在丢失部分数据包的情况下,无需发送端重传数据包,即可通过冗余数据包自动恢复丢失的内容。编码中冗余包数量越多,抗丢包能力越强,但随之而来的问题是对于网络带宽占用越大,所以应根据网络带宽情况来合理选择冗余倍数。
在视频会议应用中,音频内容的重要性要远远高于视频内容。所以在网络带宽有限的情况下,要放弃在对视频数据包编码时加入前向纠错机制,仅开启音频数据包的前向纠错机制,从而达到在占用较小网络带宽的情况下,显著提高音频媒体流的抗丢包能力。
2.1.2 ARQ 处理机制
自动重传请求(ARQ)是一种数据传输错误控制方法,通过重发数据包来补偿之前丢失的数据包,而这会增加网络开销、增加传输时延。类似于TCP 协议的自动重传机制对于网络带宽占用太大,是不可行的,可能会更加降低音视频质量。但是利用自动重传机制的核心思想,通过对关键数据的重传,通过增加较少带宽开销和时延来换取更高的音视频质量,则是非常好的一种策略。
如何来确定何为关键数据,前文提到通过FEC 机制来提高音频传输质量,但是FEC 机制并不能适应所有丢包的情况,当丢包率过高时,FEC 机制也无法恢复丢失的音频数据包,此时可将无法恢复的音频数据包定义为关键数据,通过关键数据包重传来解决这一问题。
视频数据在传输过程中也会存在一些关键数据,可以利用自动重传机制来提高视频质量。视频编码一般基于H.264 协议,在H.264协议里定义了三种帧,I 帧为完整编码帧,P 帧是只包含与之前I 帧差异部分的编码帧,B 帧是参考前后帧进行编码的帧。其中I 帧起到最为关键的作用,在传输过程中,当丢包率过高,完整编码帧I帧数据包大量丢失,P 帧和B 帧无法通过参考帧编码,会导致长时间花屏现象,这时,需要通过ARQ 请求远端即时重发完整编码I 帧,接收端在接收到I 帧后,刷新显示后,花屏现象可立刻得到解决,从而提高视频传输质量。
在音频数据的传输过程中,如果对于丢失数据包不能通过丢包恢复机制进行恢复,声音就会断断续续,不流畅。这时需要进行丢包隐藏处理,在一定程度上提高了音频质量。
PLC 机制的原理是通过当前丢包前后的冗余信息来恢复网络传输中丢失的数据包。目前丢包隐藏方法主要有插入技术、基音波形替代技术等。
其中插入技术是指用一种简单的数据包来替换丢失的数据包,常用的PLC 算法有插入包括:静音插入、噪声插入、包重复插入。这类方法实现简单,但隐藏效果不是很大。
语音编码算法主要分为波形编码技术(如G.711)和参数编码技术(如G.728),波形编码抗丢包能力要高于参数编码,当出现丢包时,波形编码通过恢复波形即可。基音波形替代技术,是利用听觉掩蔽效应(在多种声音存在的环境中,人耳仅对其中最高的声音反应敏感,其他相对微弱的声音反应不敏感),进行丢包隐藏。基音在整体语音中响度最高,通过检测语音中基音的波形,用邻近基音波形,填补波形丢失缺口,这种方法在丢包率不是很高的情况下能够起到一定的隐藏效果。
网络抖动是用来描述数据包最大延迟与最小延迟的时间差,网络质量越好,抖动越小,而当网络出现拥塞,则会加剧网络抖动,导致数据包到达时间不一致,出现数据包乱序或重复,视频会议中会出现画面和声音的卡顿。
通常采用缓冲技术来消除网络抖动,基本原理是通过在接收方建立一个缓冲区,数据包到达接收端时首先在缓冲区暂存等待,等到数据包都到达缓存后再进行播放,以此来消除抖动。
由于公共网络的不稳定性,尽量减少对网络带宽的依赖,是一种更为有效的方法,在视频会议媒体流中,视频数据占据了绝大多数带宽资源,所以使用更为高效的视频编码算法是能够大幅降低带宽依赖的主要方法。
目前视频会议的主流分辨率为720P、1080P、4K,主流的视频编码算法为H.264、H.265。采用H.264 编码后的数据量只有MPEG4 的1/3,采用H.265 只有H.264 的50%,由于更先进的视频编码算法,对于硬件设备的性能也要求较高,目前移动终端均能实现H.264 编解码,部分高端产品也能够支持H.265 协议。
动态带宽适应是为了实现在动态带宽条件下,在保证音视频流畅的基础上,实现最佳音视频效果。系统在视频会议过程中实时统计丢包情况,当丢包率超过一定阈值时,自动降低传输速度,以降低丢包率,保证音视频传输流畅。当网络情况好转时,再自动升高传输速率,在保证流畅的情况下提高音视频质量。
2.5.1 自动升降速
在视频会议呼叫建立时,系统会要求选择呼叫带宽,例如以2M 速率进行呼叫。引入自动升降速机制后,系统会在2M 以下,根据实时网络带宽情况,自动调节传输速率以保证音视频流畅传输。当带宽降低或升高时,动态降低或升高画质和音质。自动升降速原理如图1 所示。
图1:自动升降速原理
2.5.2 视频转音频
当网络带宽非常差时,判断标准建议是低于128Kbps,此时网络条件已无法承载视频内容的稳定传输,由于音频内容相对于视频内容更加重要,为优先保障音频流的传输,可将视频会议自动转为音频会议,通过放弃视频内容,保证会议的连续。
2.6.1 客户端侧网络环境优化
在同时存在Wi-Fi、4G、5G、专线等多种网络环境时,需要在会议前,分别测试各种网络的带宽、丢包、抖动、延迟等参数,选择稳定性最高的链路进行会议。判断原则是在优先保证带宽的基础上,选择丢包率最小的网络环境,其次考虑选择抖动、延迟等数据较好的网络环境。
2.6.2 服务端侧网络环境优化
当面向公共网络提供接入服务时,由于终端接入并发数量可能较大,要保证服务端网络出口带宽的充足,做好服务器负载均衡,避免在服务端产生瓶颈影响会议效果。
网络适应性技术归根结底,是对目前网络传输技术不足的一种补偿性技术,而随着未来新技术的不断涌现,将使得网络传输速率和稳定性越来越高。
IPv6 是英文“Internet Protocol Version 6”(互联网协议第6 版)的缩写,是新一代IP 协议,用于替代IPv4 协议。IPv6 具备海量地址空间,解决了多种设备接入互联网的障碍。我国不断在推动IPv6的全面部署和大规模商用。
IPv6 相对于IPv4,路由表更小。用一条记录(Entry)表示一片子网,从而大幅减小路由表长度,提高了路由器转发速度。
IPv6 对于多媒体应用提供良好的服务质量(QoS,Quality of Service)控制,通过在IPv6 包头使用“Flow Label”标识媒体流包,供路由器识别,进而进行优先处理。当网络拥塞时,可以保证媒体流稳定传输,对于多媒体应用的重要性不言而喻。
路由器是连接因特网中各局域网、广域网的中枢设备。路由器的处理速度是目前网络通信的主要瓶颈之一,其稳定性与可靠性直接影响网络传输的质量。未来不论是骨干网核心路由器,还是家庭用接入路由器,都将向更高的处理速度发展,整体互联网网络传输能力将不断增强。
第五代移动通信技术是最新一代蜂窝移动通信技术,5G 移动网络的传输相对于4G,能够减少延迟、提高网络带宽。目前我国5G 已经开始大规模商用,随着5G 网络的不断完善,个人移动终端基于5G 网络接入视频会议,音视频效果可得到有效保证。目前6G也从概念阶段转向开发阶段,6G 的传输能力可能比5G 提升100 倍,网络延迟也可能从毫秒降到微秒级。
视频会议能够有效提升工作效率,当随时随地通过移动终端召开视频会议成为现实,将改变社会的生产生活方式。而目前的网络传输技术还存在不足,使得需要各种网络补偿技术来弥补。未来随着网络传输技术的不断发展,公共网络环境将变得更加稳定和可靠,而视频会议和其他多媒体应用必将获得更加长足的发展。视频会议本身也将会向更清晰的画质(4K8KVR)、更优美的音质、更多元的互动、更智能的应用几个方向发展。