赵 哲
(广东省广播电视网络股份有限公司中山分公司,广东 中山 528400)
广东省广播电视网络股份有限公司中山分公司的中心机房作为二级前端机房,前端播出系统在建设之初,已对照国家广播电视总局62号令及其有线电视网实施细则[1]要求,设计了较完备的冗余备份方案,主要包括以下措施。
(1)机房市电外电接入两路外电,有两个引自不同变压器的独立低压回路,并配备后备时间1 h以上的不间断电源(Uninterrupted Power Supply,UPS) 电池组及发电机应急电源。
(2)机房主备播出设备、双电源播出设备分别接入配电柜不同的供电回路。
(3)重要节目、主要节目接入两路不同的信号源,且实现不同信号源的自动、手动切换。
(4)重要节目和主要节目信源接收设备采用1∶1备份,核心复用加扰调制系统1∶1备份,传输适配器按N+1备份方式配置(N不大于10)。
2021年,该中心机房发生某信源分配机箱内一块电源模块故障事件,因分配机箱为双电源模块,并不影响机箱运行,在随后计划利用备份电源模块进行更换前,进一步对该分配机箱内接入信源进行检查确认时,发现该机箱内接入有主用信源,还有部分接入切换器的垫播信号。
此次故障事件给出警示,中心机房播出系统虽然在逻辑设计上已符合国家广播电视总局62号令及其实施细则要求,但忽略了各路信源在物理链路上的不同传输路径设计,致使出现部分主备信源或主辅同机箱的情况,形成物理链路上的单点隐患。此类隐患较为隐蔽,在机房逻辑链路图中很难被发现。因此,需要对机房及播出系统做全面排查,彻底消除此类物理链路上的隐蔽性单点隐患[2]。
根据分配机箱事件警示,结合机房播出系统情况,技术部门总结中心机房播出系统、供电链路、骨干传输路由等安全播出重要环节,发现主要在以下方面存在逻辑链路和物理链路上存在的单点隐患或类似单点隐患。类似单点隐患是指虽然物理上是单节点,但存在断电直通保护机制,或者是主备设备在同机柜但不同供电回路等情况,故障不会造成播出中断。
(1)机房播出链路或骨干传输链路中的节点[3],因无备份设备和备份路由,形成的逻辑链路上单点隐患,其故障将导致播出信号中断。
(2)机房播出系统设备,核心主用和备份设备放置在同一机柜中(类似单点隐患),或主、备信源放置在同一设备机箱中,该机柜或设备即成为物理位置上的单点隐患,其故障将导致播出信号中断。
(3)机房供配电、制冷等重要基础环境系统中的单节点,其故障将导致无法为机房播出提供基础支撑,导致播出信号中断。
结合上述机房内常见隐蔽性单点隐患或类似单点隐患情况,技术人员在中心机房对照链路逐一排查,发现存在以下单点隐患。
(1)上次故障的信源分配机箱以及同类信源分配机箱中,部分机箱内存在主、备或主、辅信源同机箱情况,致使主备信源不是真正独立的不同物理路由。
(2)机房内省IP信源下传接收交换机,主、备设备在同一机柜,虽然设备均为双电源接入不同供电回路,但极端情况下若整个机柜掉电则导致所有IP信号中断,影响致命,因此存在类似单点隐患。
(3)机房主备辅信源ASI切换器,在链路中存在类似单点隐患风险。该情况在系统搭建时已经探讨过,因切换器验证可断电直通,因此此前未将其纳入风险中,并制定了切换器故障应急处置预案,利用断电主路直通和主备复用器的切换备份操作,可在确保信号不中断的情况下更换切换器[4]。但在此前一次故障应急处置中发现该方案总体处置时间较长,已制定方案进行改造,在链路中增加了应急跳线,如图1所示。
图1 切换器应急跳线
(4)机房主备调制后的射频切换开关,在链路中存在类似单点隐患风险。该情况与ASI切换器类似,也支持断电直通。
(5)机房总射频混合、分配链路中存在单点隐患风险。末端利用3个8路混合器和1个4路混合器完成所有频点的混合,经分配后传输至主备光外调。虽然这些设备为无源设备,但长时间使用,存在老化故障风险。中心机房末端射频链路如图2所示。
(6)机房总输出光外调发射机的主、备设备在同一机柜,虽然接在机柜内不同供电回路,但存在类似单点隐患。
(7)机房供配电系统链路中的AT1总配电柜存在类似单点隐患。所有中心机房设备供电的主、备路市电开关均设置在该配电柜内。中心机房供电链路如图3所示。一方面,图3中的隔离变压器输入输出线均接至该配电柜内,若隔离变压器故障,则所有UPS输入中断,只能依靠电池放电,但电池后备时间有限。另一方面,尽管机房市电总配电柜AP1有备份市电,但其开关也设置在AT1配电柜中,一旦AT1配电柜因个别开关故障需断电维修,则只能靠UPS电池放电供电,同样面临电池后备时间有限的问题[5]。
图3 中心机房供电链路图
综上可知,尽管机房播出系统架构在逻辑上已满足国家广播电视总局62号令及其实施细则规定,重要信源、设备及外电有备份,但重新审视系统发现,仍存在一些物理链路上的隐蔽性单点隐患或类似单点隐患。这些风险隐患点都属于播出链路中的核心节点,任何环节出问题,都将对安全播出造成严重影响。因此,需根据不同情况采取有效措施。
针对上述机房排查情况,结合具体实际,技术部门通过以下方案解决此类隐患。
(1)针对排查结果1,2,6,进行设备移位和链路改造,将主、备设备部署在不同排的机柜并接入不同的供电回路,将主、备信源接入不同分配机箱不同机柜的不同供电回路中。
(2)针对排查结果3,部署应急跳线,同时后续切换器上架时注意,在机柜空间允许情况下预留相对宽松的物理空间,便于接线等操作。
(3)针对排查结果4和5,一方面部署应急备件,另一方面,利用备平台调制器的测试端口,将所有测试口调制信号独立混合为一路信号,并将其电平调至与主用信号电平相同,作为第三路应急备份信号。当末端射频链路任一环节发生故障,可立即将该应急备份信号接入光传输链路中。此外需定期进行应急备件更换和第三路备份信号切换应急演练。
(4)针对排查结果7,逐步进行改造。一方面,中心机房UPS主机已自带隔离变压器,功能重复,实际不需要单独的隔离变压器,因此可拆除。另一方面,改造传输至AP1,AP2配电柜的备用市电,将其从AT1柜抽离出,单独接入配电房低压开关。通过改造,解决了隔离变压器在链路中的单点隐患,也解决了所有开关都在AT1柜的类似单点隐患。中心机房供电链路改造如图4所示。
图4 中心机房供电链路改造
对于上述机房内单点隐患或类似单点隐患的影响情况,机房播出系统在设计时,除了对照国家广播电视总局62号令及其实施细则规定的主备冗余备份要求的同时,需考虑以下原则以避免出现单点隐患风险。
(1)机房的主、备信源,需确保从信源接收到传输至切换,传输回路完全独立,不能存在汇聚点。在使用ASI分配机箱的情况下,尤其要注意提前规划、区分好分配机箱功能,使主、备分开,避免存在此类问题。
(2)链路中的信源多选一ASI切换器已为成熟设备,各主要品牌产品大都支持断电直通功能,主要根据切换后链路情况设计。比如中山分公司的播出系统,因切换输出有两路分别至主备复用,可利用切换器的断电主路直通和主备复用器的切换备份操作,确保在信号不中断的情况下更换切换器。但该方案在切换器部署时需考虑机柜物理空间的冗余,不要因切换器后面空间小、接线太多(一般一个切换器有三入三出共六根线,一个机箱共十张切换板卡)、操作不便且可能影响到旁边切换器接线,影响了应急处置效率(此前切换器故障应急处置时遇到过该问题)。保险情况下,可在信源和切换之间部署应急跳线,紧急情况下通过跳线使信源直通复用器,再处理切换器问题。
(3)机房主备调制后的射频切换开关与ASI切换器类似,有断电直通功能,一般不会在此环节设计应急跳线,通常结合后面的混合分配环节隐患,设计播出系统总体的冗余备份信号。日常在机房内准备好应急用对通头和备份切换板卡,定期组织应急演练,在发生故障时尽可能降低应急处置时间。
(4)对于机房总射频混合、分配链路,任一个混合器或分配器故障,都将造成播出信号中断。这些设备一般都采用无源设备,一定程度上降低了发生故障的风险,但不能完全避免发生故障的可能。通常通过设计系统整体的容灾备份系统,发生故障时尽快切换至容灾系统,确保信号尽快恢复播出。同时,日常在机房内准备混合器、分配器应急备件,定期组织容灾信号切换和混合器、分配器更换应急演练,在发生故障时尽可能降低应急处置时间。
(5)机房供电链路应注意配电柜设计和开关布局,避免将所有主备路开关全部集中在同一台配电柜中。机柜供电中若存在无备份的单电源设备,可设计STS切换开关,做到主备无缝切换保证设备不掉电。
安全播出没有终点。在系统设计和日常运维中,相关人员要特别注意一些在链路中隐藏较深的风险隐患。本文列出的隐藏性单点隐患或类似单点隐患并不能覆盖全部,因此,对故障案例及时分析总结和反思,定期对系统进行隐患排查和风险评估是很必要的。