聂晶
【摘要】 广播数字化和计算机科学技术发展的相结合,使得广播电台越来越依赖于计算机和网络。随着广播电台事业的不断发展,安全播出对数字化音频网络系统的可用性提出了越来越高的要求。郑州人民广播电台音频网络系统以音频服务器为中心,由服务器为播出站、编辑站、管理站提供服务。为了提高整个系统的可用性,首先要提高音频服务器的可用性,所以我台采用了音频服务器高可用性集群的解决方案,满足了当前的业务需求,提高了工作效率。
【关键词】 集群 高可用性 音频服务器
一.广播电台音频播出技术现状
随着数字技术的迅速发展,采用数字技术处理音频信号已成为广播电台音频处理的必然趋势,容制作、播出、储存、管理于一体的数字音频网络已经被许多广播电台所采用。郑州人民广播电台也于2003年初建立起了一套数字音频网络。该音频网络以音频服务器为中心,为音频编辑工作站、音频管理工作站和音频播出工作站提供查询、播出、储存等服务。该网络系统使节目播出、节目制作、节目管理在不同功能的工作站上完成,充分发挥计算机基于RAID的磁盘阵列存储系统的优势,实现多通道资源共享和各栏目之间的串编播出和各种插播、定时播出之间的控制管理,成倍的提高了工作效率。
二.音频服务器集群技术的必要性
在给我们带来方便和效率的同时,也使得安全播出对于音频服务器的依赖程度越来越高。随着各套节目都要求24小时不间断播出,安全播出就对音频服务器的正常工作时间提出了更高的要求:保证服务器24小时都能够提供每个音频工作站的播出、查询、传输、储存等请求。尽管计算机技术以日新月异的速度发展,单台计算机的性能和可靠性越来越好,但还是有许多现实的要求是单台计算机难以达到的。所以随着时间的不断推移,频率数量的不断增加,起初的系统架构已不能满足业务需求。在这种情况下,往往需要将多台计算机组织起来进行协同工作来模拟出一台功能更强大的计算机,从而提高系统的可用性。为满足系统要求,一般情况下都会采用计算机集群技术。
可靠性用平均无故障时间(MTTF)来度量,即系统平均能够正常运行多长时间,才发生一次故障。系统的可靠性越高,平均无故障时间越长。可维护性用平均维修时间(MTTR)来度量,即系统发生故障后维修和重新恢复正常运行平均花费的时间。系统的可维护性越好,平均维修时间越短。
计算机系统的可用性定义为:MTTF/(MTTF+MTTR) * 100%。由此可见,计算机系统的可用性定义为系统保持正常运行时间的百分比。计算机系统可用性的分类如下:
有很多因素会造成系统宕机,包括为了维护而有计划的宕机以及意外故障等。高可用性方案的目标就是使宕机时间以及故障恢复时间最小化,因此为了提高整个系统的可用性,除了提高计算机各个部件的可靠性以外,我们所采用的是高可用性集群技术的解决方案。这个方案是目前比较经济适用的解决方案。
三.服务器集群技术简介
所谓集群,就是共同为客户端提供网络服务的一组计算机系统。而其中的每一台提供服务的计算机,我们称之为节点。当一个节点不可用或者不能处理客户机的请求时,该请求将会转到另外的可用节点来处理,而这些对于客户端来说,根本不必关心这些要使用的资源的具体位置,集群系统会自动完成。
集群中节点可以以不同的方式来运行,这要看它们是如何设置的。在一个理想的两个节点的集群中,两个服务器都同时处于活动状态,也就是在两个节点上同时运行应用程序,当一个节点出现故障时,运行在出故障的节点上的应用程序就会转移到另外的没有出现故障的服务器上,这样一来,由于两个节点的工作现在由一个服务器来承担,自然会影响服务器的性能。
针对这种情况的解决方案是,在正常操作时,另一个节点处于备用状态,只有当活动的节点出现故障时该备用节点才会接管工作,但这并不是一个很经济的方案,因为你需要两个服务器来做一个服务器的工作。虽然当出现故障时不会对性能产生任何影响,但是在正常运行时的性能价格比并不太好。
四.我台音频服务器集群的搭建
服务器集群的最低要求是:(a)两台服务器通过网络互连;(b)允许每台服务器访问对方的磁盘数据;(c)专用的集群软件,如Microsoft Cluster Server(MSCS)。我台采用的高可用性系统的核心是微软Windows Server 2003企业版的集群服务和惠普的光纤通道存储技术,提供99.99%的高可用性。
Windows Server 2003企业版,已成为一个主流的多用途网络操作系统。融合了最佳应用程序服务器、文件和打印服务器、通信服务器及Internet/intranet服务器,能够方便地管理、使用和扩展,可以满足关键的业务需求。Windows Server 2003企业版集成了专用的集群软件,Microsoft Cluster Server(MSCS)能出色地完成企业级运行要求。
随着企业业务的迅速增长, 企业的各种信息与数据已呈爆炸性增长,已有的SCSI标准已经不能满足企业在数据存储方面的需求,光纤通道存储技术作为新一代的工业标准存储规范,以其10公里的传输距离,100兆字节的传输速率, 兆兆字节以上的单槽容量,突破了传统的SCSI规范的瓶颈。所以我们采用了惠普Proliant Cluster HA/F200解决方案。
如上图所示,主节点为Node 1备用节点为Node 2,共享存储设备是一个磁盘阵列柜MSA1000,用两台Storage Hub来实现主备节点对MSA1000的读写控制。而两台Storage Hub分别跟主备节点和MSA1000互连,实现了冗余控制。如果Node 1出现了问题不能提供客户端所需的服务,就由Node 2接管客户端所需的服务。如果Storage Hub有一台出了问题,另一台随时接管磁盘阵列柜MSA 1000。这样就进一步提高了系统的可用性。
在微软的MSCS(Microsoft Cluster Server)术语中,所有的应用程序、数据文件、磁盘、网络IP地址等都被称为资源,这些资源可以组成一个资源组,一个资源组存在于一个节点上,但同时只能在一个节点上,它是MSCS可以进行故障切换的最小单元。
在MSCS中,所有的资源都处于资源监视器的监视之下,资源监视器通过资源动态链接库文件与资源进行通信,这些资源动态链接库会侦测对应资源的状态,并通知资源监视器,之后,监视器再把信息提供给集群服务,缺省情况下,集群服务会启动一个资源监视器来监视节点中的全部资源。
在MSCS的资源中,有一个非常重要的资源,仲裁盘,它是一个可以被两个节点访问的物理硬盘,用来保存集群的信息。这些信息是用来维护集群的完整性以及使节点保持同步,特别是当节点不能与另一个节点通信的时候。仲裁盘在某一时刻只能被一个节点所拥有,并用来决定由哪个节点来拥有集群的所有资源。仲裁一般都是使用独立的磁盘柜划分一个单独的空间。
故障切换是指把出现故障的节点上的资源重新定位到另一个可用的节点上。负责监视资源的资源监视器一旦发现资源出现故障,它就会通知集群服务,集群服务会根据事前定义好的策略触发对应的事件。虽然发现的是个别资源的故障,但是,集群还是会把整个资源组进行故障切换。
故障切换会在两种不同的情况下发生:人工控制(一般是管理员主动操作),自动控制。自动控制包含了三个阶段:1.发现故障;2.重新定位资源;3.重新启动应用程序。当达到资源组的故障超过切换阀值时,自动的故障切换才会发生,阀值由管理员来设定。
五.总结
目前我们音频工作站系统是以音频服务器为中心,这就决定了只有保证了服务器的高可用性,才能保证整个网络的正常运行。虽然现在音频服务器采用高可用性集群解决方案,满足了当前业务增长的要求,但展望未来广播电台事业的不断发展,肯定要采用更先进的技术以满足需求。例如SAN(System Area Network)架构:它是为满足集群的可靠性和性能要求而进行优化的一种专用网络,实现从以服务器为中心的架构到以网络为中心的架构,进一步提高存储管理效率。技术的发展永无止境,我们只有不断的前进,采用新技术新设备,才能做到解放生产力,发展生产力,为广电事业的不断发展做贡献。