摘 要:随着网络多媒体技术的快速发展,传统的电话会议系统已不能适应现代社会对多媒体通信的要求,在这种情况下,基于Internet的视频会议系统便应运而生。文章主要介绍如何利用有限的网络带宽实现多点视频会议,即将多路视频在服务器端混合为一路,然后发送到各端点,该方案巧妙地利用了多点控制单元(MCU)的功能,有效地节省了网络带宽,非常适合目前Internet的现状,所实现的原型系统及测试结果表明了文章设计方案的可行性和有效性。
关键词:H323;MCU;混合器;视频会议系统
1 引言
会议是人类社会政治经济生活中不可缺少的一部分。随着ITU制定出第一个H.320标准和H.323标准,视频会议获得了长足的发展。视频会议作为一种先进的多媒体通信手段,已逐步被众多政府部门和跨地区企事业单位所接受和采用[1]。然而相对于Internet有限的带宽,图像通信所需要的带宽太大,视频会议无法承载原始视频的多路通信。因此,多点控制单元(MCU)对于音视频的多路通信起着重要的作用[2]。文章主要针对视频会议中的主要部分MCU,研究分析H.323视频会议中如何利用有限的带宽实现音视频的混合于传输。
2 H323协议简介
H.323协议是ITU第15研究组SG-15于1996年通过的在不保证服务质量(QoS)的分组交换网络(PBN:Packet based networks)上传递信息的多媒体通信协议。从整体上来说,H.323是一个框架性协议,它涉及到终端设备、视频、音频和数据传输、通信控制、网络接口方面的内容,还包括了组成多点会议的多点控制单元(MCU)、多点控制器(MC)、多点处理器(MP)、网关以及关守等。H.323为基于网络的通信系统定义了四个主要的组件:终端(Terminal)、网关(Gateway)、网守(Gatekeeper)、多点控制单元(MCU)。所有终端都必须支持语音通信,视频和数据通信可选.H.323规定了不同的音频、视频或数据终端协同工作所需的操作模式[3]。H.323终端的组成中。在发送端,从输入设备获取的视频和音频信号,经编码器压缩编码后,按照协议规定的格式打包,通过网络发送出去.在接收端,来自网络的数据包首先被解包,获得的视频、音频压缩数据经解码后送入输出设备,用户数据和控制数据也得到了相应的处理。
3 混合器的功能分析
在视频会议过程中,每个终端以点对点方式在控制信道上与MCU信令通信,并在用户数据包协议(UDP:User Datagram Protocol)信道上与之进行音频,视频和数据通信。在此过程中,MCU融合了多点控制器(MC)和多点处理器(MP)两个功能。MCU可以使用分布式多点音频和集中式多点视频。在此模式中,MCU对音视频的操作是不同的,例如当音频信号来到时,MCP将之从所属音频通道直接拷贝到其他每个会议成员的音频通道中;而当视频信号来到时,MCU先将其存入缓存,等所有成员的帧数据全部存入缓存后,分别发送至每个会议终端,从而达到视频混合的目的[6]。
3.1 MCU对视频的标识
在对视频的转发过程中对视频的标识显得特别重要。当多路视频组合为一路发送往各终端时,需要将各视频与终端联系起来,从而使每个终端都能清楚它们的对应关系。另外为了满足视频会议中各成员之间的单独交互,在终端得到会议成员列表也是必不可少的。
3.2 MCU对多会议室的支持
当MCU中包含多个会议室时,情况有所复杂。我们为每一个会议室分配一个“房间”(room);由于不在同一会议室,不同房间中的成员不能接收到其他房间中音视频信息,这样MCU就需要为每个房间增加一个标识,以便区别各会议室的音视频信息。
4 混合器的设计实现
Openh323封装了视频会议通信的整个过程,利用它暴露的接口类,我们可以很容易地实现MCU的混合器功能。
4.1 H323终端
H323EndPoint类管理H323终端(endpoint),一个终端可能有0个或者多个侦听线程来负责关于呼入的连接,终端也可能有0或者多个通过MakeCall()初始化呼出的连接,一旦一个连接存在,该连接就被此类的实例管理。此类最主要的内容是包含终端应用程序的能力,也就是终端可以处理的协议和多媒体数字信号编解码器(codec),大多数应用程序通常都会创建一个H323Endpoint类的派生类,也会创建一个H323Connection类的派生类并重载CreateConnection()函数。
4.2 音频转发的实现
音频信号的转发有些复杂,因为它涉及到混频,当有终端发送的音频到达MCU时,MCU执行以下操作:
(1) 调用相应的解码函数对通道中接受的音频信号进行解码,并将解码后的音频信号写入IncomingAudio channel通道。
(2) IncomingAudio函数将数据发送至缓存,并将数据从缓存依次复制到其他所有通道的缓存中。这样,MCU完成了对接收音频的处理.,随后MCU开始发送音频信号。
(3) 依次对所有与MCU连接的终端调用OutgoingAudio函数将所有连接(不包括即将发送音频的连接)缓存中的音频信号进行混频。
(4) 音频编码器将混频后的信号经由与MCU连接的通道发送往各终端,完成音频的转发功能。
4.3 视频转发的实现
由于不用进行过多处理,视频信号的转发相对简单。MCU中有一个缓存VideoBuffer专门用于视频转发,当视频信号到达时,视频解码器(Video Codec)对之进行解码并将结果视频写入IncomingVideo channel通道,MCU调用WriteVideo将解码后的视频帧写入缓存的指定位置(例如左上角);一旦所有视频帧都被写入缓存, MCU便调用ReadVideo将缓存中的组合视频帧(一般是分块)写入各通道,最后由编码器编码后发送至各终端。另外,由于视频大小的限制,原始视频需要经过抽样。endprint
4.4 会议成员列表
Openh323中没有给出相关的功能接口,因此这项功能需要我们来扩展,终端要从MCU得到会议成员列表,即通过H323EndPoint向每个终端发送包含成员列表的文本消息。当有终端与MCU建立连接时,MCU会将成员列表以字符串的形式封装,并发送至每个终端;终端相应地增加消息处理函数来接收MCU方发送来的成员列表,并在界面中显示。
4.5 对多会议室的支持
当用户与MCU建立连接时,需要为连接指定一个会议标识(默认为room1)。这样,在MCU中便存在多个房间,当会议开始后,每一个终端的音视频到达MCU后都会根据其终端所属的会议标识进行分别处理。例如,当room1房间的成员有视频信号到达MCU时,MCU先判断其所属会议标识,这里是room1;然后便将其视频按前面所述的方法存入room1的视频缓存中。最后,当room1所有成员的视频信号都到达后,再将其缓存中的视频数据分别发送至room1的各成员终端,以完成room1会议的视频转发过程。对于其他的房间也执行相同的处理,而且各房间之间的音视频转发互不干扰。
5 测试实验与结果分析
为了验证文章提出的设计方案的可行性和有效性,基于Openh323 Library实现了一套H323视频会议的原型系统。以下,对我们实现的视频会议原型系统进行测试实验。
本实验的运行环境为实验室局域网,测试对象为基于IP的网络视频会议系统,实验设备包括:局域网,多台电脑(带视频头和音频采集器)。
实验结果:当用户Terminal1加入会议室room1时,MCU会立即刷新room1的成员列表,并将Terminal1的音视频进行处理后连同其他音视频按照既定方法发送至各终端;Terminal1的加入对room2中的各成员终端没有任何影响,而且音视频的转发照常进行。
6 结束语
H323协议使基于IP的网络视频会议成为可能,但带宽的限制使多媒体的传输成为会议的瓶颈。文章介绍了一种在Openh323基础上,通过MCU将音视频混合并转发的方法,使音视频能够在基于IP的网络上正常传输,成功实现了多媒体会议的视频控制与传输。但仍有问题尚待进一步解决,由于MCU方将视频混合后发送网各端点,这就造成了视频质量的下降,因此有必要对视频进行插值放大或帧速率上转换等后处理。
参考文献
[1]Runsheng Wang, Xiaorui Hu. “VoIP Development in China,” Computer[J].2004,37(9): 30~37.
[2]黄东军, 陈松乔. 基于源根组播的多点视频会议系统模型及其实现[J].电子学报, 2005,33(1): 47~51.
[3]张明德,王永东. 视频会议系统原理与应用[M]. 北京:希望电子出版社,1999.
[4]BUR GOODE.Voice Over Internet Protocol (VoIP). Proceedings of The IEEE[J],2002, 90(9): 1495~1517
[5]蔡胜, 苏应飚. VoIP 网关中H323 协议栈的实现. 计算机与现代化 [J],2002,3: 19~21
[6]肖进胜, 沈燕飞, 徐正全, 等. 视频会议中的多画面码流合成的研究与实现[J].计算机应用研究,2005; 1: 255~260
作者简介:祝晓波(1981,5-),男,陕西省咸阳市(籍贯),现职称:工程师,学历:本科,学位:工程硕士,研究方向:广播电视、互联网新媒体。endprint