探析信息机房运维及其管理的主要策略

2019-01-23 22:14罗长春
智能城市 2019年15期
关键词:机房运维制度

罗长春

(国网湖南省电力有限公司郴州供电分公司,湖南 郴州 423000)

随着计算机信息技术不断地发展,信息机房无论是规模、质量以及数量等都发生了巨大的变化,不断由以往的小型化、单一化、具象化朝着大型应用、复杂多样和立体应用方向发展,特别是云计算技术不断地深化应用,对机房服务器的运维管理提升具有很高的要求。需要信息机房运维管理人员不仅要懂网络技术和计算机技术,还须具备综合科学化运维能力,否则会直接影响到设备的使用效能和使用周期,因此必须高度重视信息机房的运行和维护。

1 信息机房运行维护和管理的内涵

管理是重复完成预定目标而不得不进行了相关沟通协调工作。为有效保障信息机房有效高效安全运转,确保相关服务器、设备仪器运转正常,机房必须要有科学有效的执行机制作保障。从一定意义上来讲,信息机房运维管理就是对制定的规章充分运行、过程督查和指导改进的活动。构建完善有效的机关管理机制以及相关流程制度是做好机房工作的重中之重。在具体日程性工作中必须根据具体环境、具体要求等,修订一系列完备的机房运维管理办法,以确保机房运维的有效运行。有效机制和制度用来促进机关运维管理标准化规范化,是机房运维的根基。而相关的制度体系需要在具体运维中完善和更新,以便更加适用具体工作的需要。执行制度就是按照制定的规章制度去实施;检查就是将执行的具体环节和具体效果与体制机制最初制定预期目标进行有效性比对,从而发现问题、挖掘经验;具体工作改进提升就是通过检查挖掘出来的有效做法,并将具体做法转化为有效的运管机制或者完善以往制度体系,建立执行制度、发现问题、总结经验、完善制度的闭环运行管理体系。机房运行卫华管理制度主要包含:主要领导岗位责任制、岗位体系责任、运行机房管理规范、平稳运行制度体系、安全风险评估制度、日常进出机房登记制度、运行机房风险制度等。制度体系建立后,机房运维就有章可依,各项管理规定也能较好的落到实处。

2 信息机房运维管理存在的主要问题

为确保信息机房内电脑等设备长时间运行,虽然从环境、管理、应急等方面做了很多细致有效的工作,但还是难免出现一些问题,按照问题类别主要有以下几类。

(1) 方案类故障。一是备用开关数量不够,造成后期扩容困难。二是地板高度不够,后期下走线线缆多了堵塞风道造成送风量不够。三是中线经过开关触点导致的故障,发电机用手动四极开关转换时切断零线时间过长,零点漂移过高。四是配电空开或电缆容量不足引起供电跳闸。五是空调下水管过细、过长、弯道太多,极易造成泥沙淤塞。六是机房通风地板、吊顶格栅板设置位置不正确,形成机房热点。

(2) 安装类故障。一是需要后维护的机柜却做成了靠墙安装,给后期维护带来困难。二是电池桩未紧固,连接松动打火,大电流导致起火又导致电池漏液。三是装错互感器 (应500:5,装到了50:5) 导致互感器冒烟。四是机房温度计安装位置不正确,不能够获取准确的机房温度。五是空调外机安装位置不当,互相对吹,互相干扰,空调经常高压报警。

(3) 操作性事故。一是个别运行维护人员认为电源比较简单,可以不看有关说明凭经验也能完成操作,这样很有可能造成事故,造成损失,如所接负载虽未超标称值但已超过了整定值引起跳闸。二是关断分路开关前未先行测量一下电流,仍由其供电的设备断电停止工作。三是电气操作没有按规定双人临岗,电池极性错接引发事故。 四是地下插座接线不牢电源加不上。五是清扫配电柜顶部时,没注意把初期施工留下的铁屑扫落引起打火跳闸。六是服务器送电时因本机柜插座不够,违规借用相邻机柜的,当机房单路供电时引起相邻机柜超载跳电。

(4) 处理不及时故障。一是机房漏水已有告警,由于值班员的疏忽而未及时处理,从而造成机房地板下大面积积水,形成巨大隐患。二是UPS放电时,当电池将近放完时电话通知楼下配电间快送电,但一直占线,等到接通时蓄电池已放完,造成停电。三是机房空调模块已坏,但因模块有冗余对机房温度并无影响,过几天气温飙升,另一模块也因压缩机高压报警而损坏,使机房温度失控。四是交换机后部风机出风口因被众多线缆阻挡影响送风,安装开机后发现这一情况,但未及时移除,后来发生了交换机内部温度过高而停机,造成多台设备停机。

3 科学规划信息机房运维管理内容及对策

(1) 进出运行机房所必须明确的内容。一是必须禁止无关人员进入运维机房,紧急情况须经相关领导批准,并严格填写人员进出机房申请表后,方可以进入。二是必须对进入人员进行严格检查,不得将任何违禁物质带入机房,包括一些易燃爆、易腐蚀、强电流辐射、强流质物体等,对机房设备设施造成危害的物质。 三是如果有关人员调离,要经单位主管领导严格审核批复,做调离前的工作交接,将相关密钥、密码以及重要的设备文件方案等交给指定人员,并负责好相关培训,确保机房正常运转。

(2) 运维机房防火须知。运维机房防火工作是重中之重,必须严格做好相关防火工作。相关管理人员须带头学好相关防火知识,具备必要防火能力,在具体作业中遵守相关规定规程。拆卸相关设施设备必须在断电的前提下进行,绝对不能带电操作;维护实施设备时候也需要断电,再进行维护保养;严禁用溶剂油等液体清洗设备;严禁在机房内吸烟和使用加热器具。

(3) 运维机房安全用电管理须知。首先机房从业人员必须掌握相关用电安全常识和技能,深入了解相关设备用电的操作流程和要求,注重安全用电,确保没有触电隐患。二是须定期对相关设备的用电安全进行检查,并填好检查记录。三是不允许私自乱接电源,选用相关设备时,须保证安全品质。四是在接通电源之前,须再次确认接头、连接线等是否安全,人员是否准备到位等。

(4) 运维机房相关设备实施安全管理须知。运维机房内容相关设备要按时清理,要建立定期巡查制度,对相关设备,特别是重要设备,详细进行巡查,及时发现相关设备实施隐患,并做好详细登记。一是相关工作人员必须掌握相关设备实施的操作规范和流程。二是要及时了解和检查相关设备实施的连线,及时掌握设备运行的工作状态。三是未经允许,不能任意转移设备设施,或者任意更改相关设备设施物理连接。四是对任何相关的变动,必须事前做好预案,经充分研究后,安排符合条件的人员进行变更,并做好详细的变更记录。对相关内容的变更,还须做好变更后相关问题出现处理的预案,做好充分的准备工作。

(5) 运维机房病毒防控须知。一是严格防止病毒侵入。对相关新增的设备设施,在接入主干网前,要做好杀毒防毒工作,确保安全后,才能接入;在使用相关硬盘、U盘前,必须进行严格检查,对陌生的硬盘和U盘等,禁止接入。二是要按时对现有骨干设备进行病毒巡查,安装正版的杀入软件,及时更新病毒库。对关键病毒库及时更新完善,防止特种病毒侵入。三是及时检查病毒防控日志记录,对相关入侵记录,要高度重视,及时报告,并做好处理;如发现大规模病毒入侵情况,要采取紧急措施,断网和隔离病毒感染设备。

(6) 运维机房相关软件管理须知。一是要及时了解相关软件的使用情况,及时做好相关数据以及数据库、日志的备份。二是严禁在重要服务器上进行软件测试,未经允许安全其他软件,在安装有关软件前,须严格审核,确保软件来源正规,正版合法。在安装后,要进行运行状况定期检查,了解是否对其他正常运行软件有影响。三是要做好相关软件变更的及时记录,对存在的安全风险,提前预估,做好应急预案准备。

4 运维机房必须注意事项

任何机房的运行维护管理都需要由合格的人,信息机房运维管理需要人来支撑。一般来讲,机房信息安全管理员是机房管理的重要人员,负有主要责任,为了确保机房相关设备实施安稳长满优连续运行,必须保障机房具备优质的运行管理环境。要切实提高机房的运行管理水平,需要做好以下几项事情。

(1) 严格落实体制机制。信息机房的运维是一项很具体的日常工作,为应对各种风险,信息化管理员必须提高认识,日常工作中做到严细实恒。机房日常管理必须严格日常,抓在经常。要建立完善的制度体系,要定期进行更新提升,要加强相关制度的宣贯执行,保障相关工作在制度监管下运行,在制度下操作,确保机房安全。

(2) 要加强相关知识的更新完善。机房的运维既涉及管理知识,有牵涉具体的设备实施,事情很多,要掌握的内容也很多。随着技术水平不断地提升和更新,机房管理员必须时刻保持空杯心态,及时跟进学习相关知识内容。通过参加各类培训班、相关工作研讨会等,不断向外单位学习、向先进做法学习,提升自身知识的积累量和能力素养。要时刻保持强烈的进取心,在提高机房运维管理上动脑筋、想办法,勤思考,勤实践,巩固先进做法,弥补工作漏洞,提升管理水平。

(3) 要抓紧抓实日常具体工作。要做好相关设备的日常保养,按要求定期进行检查,及时发现隐患,并做好相关处理工作。要做好日常工作的记录和积累,定期回顾分析工作中好的做法、存在的问题,分析问题产生的原因,制定相关的措施,确保问题得以解决。要建立设备更换日常清单,对需要更换的设备设施,提前做好采购,及时安排人员进行更换。对日常更换的废弃设备设施,要做好安全识别,对相关数据进行备份保存,并做好处理,以免流失后,造成不良影响。

5 结语

信息机房运维管理责任重大、意义重大,管理人员必须高度重视,大力加强学习,提升管理水平和运维技能水平,确保机房运行稳定、高效,推动工作顺利开展。

猜你喜欢
机房运维制度
平疫结合的CT机房建设实践
制度的生命力在于执行
浅探辽代捺钵制度及其形成与层次
基于VPN的机房局域网远程控制系统
运维技术研发决策中ITSS运维成熟度模型应用初探
制度空转,是“稻草人”在作怪
风电运维困局
浅谈一体化机房系统
浅谈高速公路一体化机房
某些单位的制度