AVID非编网硬件故障风险分析

2017-10-12 03:19□方
视听 2017年10期
关键词:刀片预案工作站

□方 成

AVID非编网硬件故障风险分析

□方 成

本文以广西电视台的AVID非编网维护团队在日常维护和工作中遇到的情况为例,从设备安全风险的角度出发,介绍AVID网络架构、核心存储、服务集群以及客户端的安全风险防控分析以及相关解决方案。

AVID非编网;风险分析;事故分级;应急预案

一、项目介绍

广西电视台AVID非编网的建网时间为2008年,该网主要为除新闻及资讯频道外的全台所有高、标清频道日常播出的节目提供一个稳定、可靠、高效的制作平台。

AVID非编网的组成由以下几大块构成:核心存储、管理服务器集群、精编工作站、配音工作站、演播室信号收录服务器、技监级审片室、文件类视频素材上载工作站、外来文件导入服务器。同时,主网还连接着音频制作网,以及多个小型非编子网。

二、网络设备故障类风险防控

为了便于管理,首先对突发事故做一套分级处理制度。当故障发生,处理的时间会影响当天播出节目的,定义为一级重大故障,启动相应的重大应急预案。当故障处理时间大于1个小时小于3个小时,但不影响当天节目下载的,定义为一级故障,启动相应的一级应急预案。当故障处理时间小于1个小时并且不影响当天节目下载的,定义为二级故障,启动相应的二级应急预案。当故障处理时间小于半个小时并且不影响当天节目下载的,定义为三级故障,启动相应的三级应急预案。

(一)风险一:核心存储ISIS 2000故障风险及应急预案

1.刀片故障风险

风险发生几率:低;故障分级:重大故障;故障处理时间:30分钟-5小时。

整套存储中,当损坏任意一块刀片,系统会自动将故障刀片剔除,剩余刀片自动重新整合,整合完成后,将恢复容灾能力。事后,只需要更换冷备刀片即可。如果同一时间损坏两块刀片或以上,将会导致存储内的数据丢失。这类风险通常只会发生在盘箱断电后的重启过程中。应急预案:如果是重启盘箱导致的刀片无法加载,尝试重新盘箱加电,如确认刀片发生故障,在网络平台系统完全启动后,将故障刀片手动剔除,并更换冷备刀片,盘箱会自动进行修复。在修复的时段内,盘箱性能会有所下降。

首先是为客户端提供家庭服务,后面越来越清晰,叫“让家更美好”,58到家只做到家里提供的服务,这就是叫“到家”的根本原因。虽然后来美团等一些公司也叫“到家”,但是他们更多是把外卖“送”到家里,而58到家是服务人员去家里服务。

2.交换背板故障风险

风险发生几率:低;故障分级:三级故障;故障处理时间:半小时内。

位于每个盘箱后部的交换背板,是网内所有设备连接存储的接口,一旦发生故障,将会导致连接在此端口上的相应设备无法访问网络。应急预案:首先确定故障交换背板的位置,将故障端口上的设备网线移至其他盘箱同网段的交换背板即可恢复设备的连接。然后在设备维护时间内,更换冷背交换背板。

3.盘箱电源故障风险:

风险发生几率:低;故障分级:重大故障。

存储的每个盘箱均配置使用三组独立电源供电,失去其中任意一路电源,都不会影响盘箱正常工作,但是一旦发生两路电源故障就容易导致盘箱意外断电,有可能会损坏刀片。同时,盘箱的刀片电源指示灯会闪烁报警,提醒注意。应急预案:更换电源备件,同时检查数据是否丢失,必要时通知节目部门,启动栏目内部的应急备播机制。

(二)风险二:中心机房核心服务器集群故障风险及应急预案

风险发生几率:中;故障分级:三级故障;故障处理时间:网络系统重启大约耗时半小时。

网内所有核心管理服务器都是采用主备同时在线的方式,主备服务器之间通过心跳线相互检测,自动切换。每台服务器都是通过双网线接入不同盘箱的不同网段的交换背板来连接存储。常见故障多为服务器当机、硬件故障。应急预案:因为是主备同时在线,所以当某台服务器发生故障时,对应的备用服务器会自动接管,不需要人为干预,不会对网络使用造成影响。这时只需要将故障服务器脱网维修即可,如果维修时间过长,可以使用冷备服务器替换。

(三)风险三:编辑工作站故障风险及应急预案

风险发生几率:中;故障分级:三级故障。

全网除高端工作站以光纤方式外,其余普通精编工作站均由千兆网线接入盘箱左右两块不同网段的交换背板。编辑工位上还配置有监视器、录像机、视频加速器等设备。通常遇到的都是设备长时间工作导致的无响应,一般重启相应设备就可以解决。如果遇到硬件故障需要维修的,可以让栏目编辑更换到相同设备配置的工位上继续工作即可。应对措施:加强巡视,出现故障立刻排查原因,让编辑更换工位继续工作,然后着手清除故障。

(四)风险四:交换机故障风险及应急预案

风险发生几率:低;故障分级:一级故障;故障处理时间:大约一个半小时。

常见故障及应急预案:如果接入第三方服务器的交换机出现故障,会出现网内设备无法访问外来文件存储池、无法使用自动唱词服务器等现象。当无法访问外来文件存储池时,可以由网管人员将外来介质通过一台采用非windows系统的电脑,将需要导入的文件转存至一个专用的、空白的移动硬盘,经过杀毒后,直接接入工作站背板u口,然后在软件中直接导入。此预案必须由网管人员全程操作,绝对禁止栏目编辑自行操作。当无法使用自动唱词功能时,则使用非编软件自带的字幕编辑功能,手动拍唱词。而如果是连接音频网的交换机出现故障,配音工作站以及演播室收录服务器还有整个音频制作网就会无法联网使用,但仍可以脱网独立工作。待故障排除后,再连接入网内,手动将数据迁移至核心存储即可。

当线上交换机发生硬件故障时,应当立刻使用冷备交换机,导入备份的交换机配置文件,然后接入网内,并重启服务端设备就可恢复网络正常。

(五)风险五:设备间线路故障风险及应急预案

风险发生几率:低;故障分级:三级故障。

所有服务器与核心存储的连接都是采用双网线不同网段的连接,这样就可以相互作主备连接,降低因线路引起故障的风险,并且在工作站到存储、交换机到存储之间,均备有足够数量的冗余网线或光纤,以供不时之需。

(六)风险六:网络病毒防护

风险发生几率:低;故障分级:严重。

由于AVID网络的先天数据结构优势,使其自身拥有较强的抗病毒能力,即使在网络染毒的情况下,大多数情况都可带毒应急工作,能保证最基本的编辑和上下载功能。应对病毒感染,可以将网内部分日播栏目临时迁移至其它非编子网,优先保障该栏目使用。其它栏目则启动各自栏目的应急备播机制。同时,网管应尽快恢复系统。应对措施:加强巡视,禁止私自在工作站使用移动存储介质,禁止在服务器上随意使用U盘。

三、空调、动力、火灾类风险

(一)中心设备机房空调故障

风险发生几率:低;故障分级:重大故障。

空调、机抽湿机由于故障停止工作,会导致机房内部温度急剧升高,引发设备过热,甚至可能导致死机甚至火灾风险。应对措施:加强巡视,同时机房内应装配智能温度监控系统,当出现机房温度过高状况时,系统自动以短信方式发出报警。

(二)动力故障

风险发生几率:低;故障分级:重大故障。

中心机房配备两路UPS供电外加一路动力电。所有网络设备均使用两路UPS供电,核心存储盘箱使用两路UPS加一路动力电。常见故障为动力倒电引起的动力电短暂中断。应对措施:注意接听动力部门的倒电提前通知,并在科室内传达,提醒值班人员加强倒电期间的巡视,出现动力故障立刻联系动力部门解决。

四、总结

广西电视台AVID非编网自从建网以来,一直坚持自行维护,没有聘请第三方维护团队,在多年的工作实践中,总结出了一整套针对AVID非编网的网管软硬件维护实操经验,将网络故障风险维持在一个低发生率、高可控性的状态,为节目部门提供了一个稳定、可靠的工作平台。

1.AVID官方产品使用手册。

(作者单位:广西电视台)

猜你喜欢
刀片预案工作站
左权浙理大 共建工作站
核电网络安全应急预案考虑
戴尔Precision 5750移动工作站
圆盘剪高速剪切时的刀片温度分析
黑龙江省人民政府办公厅关于印发黑龙江省防汛应急预案等3部应急预案的通知(下)
圆刀片切削力计算方法
建立工作站 力促杂志健康发展
——《行政科学论坛》杂志工作站挂牌运行
2016年版《国家自然灾害救助应急预案》解读
紧急预案
圆刀片淬火裂纹分析及防止措施