[摘 要] 在IT数据中心24小时不间断运行工作模式的要求下,IT数据中心运维的重要性就更加突出。本文主要对数据中心在实际运维中容易被忽视,而又不可或缺的内容加以阐述,为打造国际先进水平的数据中心提供参考。
[关键词] 数据中心;IT设备运维;动力环境运维
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 03. 026
[中图分类号] F270.7;TP307 [文献标识码] A [文章编号] 1673 - 0194(2014)03- 0054- 02
0 引 言
近年来,随着信息化技术的不断发展,信息化应用的领域已经遍布各行各业。中国石油把加快信息化建设作为提高生产经营水平、提高决策质量与效率的重要手段,建设了大批重要的信息系统,进而建设了大规模的企业数据中心。吉林石化公司数据中心承担着包括中国石油ERP和加油站等系统在内的核心业务和管理信息系统运行中心的职能。大型IT数据中心管理及维护的质量与效果,对信息化建设水平具有决定性作用。
数据中心运维工作主要分为IT设备运维和动力环境运维,二者相辅相成,互为支撑。IT设备运维体现数据中心工作重心和业务方向;动力环境运维承载数据中心绿色、安全理念,同时也是IT设备运维的基础保障。
1 IT设备运维
除了包含网络设备、服务器设备、存储设备等数据设备的配置、维护及管理之外,为满足大型IT数据中心安全运行的需要,综合的数据中心IT设备运维还应包括以下工作。
1.1 完善的综合布线出图、归档制度
建立完善的综合布线出图、归档制度是数据中心IT运维的重中之重,没有完备的综合布线图,机房IT设备的运维就如同大海捞针,数以千计的各类总线、跳线在数据机房内起着设备“输血管”的作用,没有图示说明,运维人员很难从中确定目标。目前,有些数据中心在机房建设初期已经把综合布线工作完成,有利也有弊。利在于后续施工简单、综合布线图容易制作保存;弊在于综合布线针对性差、浪费极大,综合布线初期投资过大,而且很难保证后续设备运行时不涉及二次施工,一旦发生综合布线的二次施工,原有综合布线图也同样需要校准更改。
1.2 规范的综合布线标签和机柜编号制度
建立规范的综合布线标签是对综合布线图的细化,也是综合布线系统的身份认证系统,杂乱的布线从此有据可依。制定适合自身需求的标签规范,并要求综合布线施工人员及本体运维人员依据规范严格执行标签的张贴制度,可以使运维人员在后续的IT设备运维工作中不再以大海捞针的方式查找,而是可以直接将精确度提高到端点级。规范的机柜标号不但可以将机柜与强电列头柜内控制断路器一一对应,还有利于数据设备的迁入迁出操作,方便运维人员日常操作及汇报说明。
1.3 完善的IT数据中心机房平面图制度
详尽的机房平面图可以清晰展现机房内部设备摆放、强弱电走向、冷热通道区分、制冷设备分布、机房总面积等信息,有利于对机房内数据机柜编号查找,定位设备位置,对新设备的迁入也可做到一目了然。机房平面图的完整对数据中心内部运维及对外展示都有极大好处。
1.4 完善的设备迁入迁出登记制度
信息化项目建设往往不是一蹴而就的,而是经过反复的设备投入、试运行、更换、返修、迁入、迁出等工作才保持信息化项目运行的相对平衡稳定。对迁入迁出机房的IT设备实行严格的登记制度,更有利于数据中心管理者及运维人员掌控机房内信息化项目运作状态、设备运行状态以及了解IT建设与运行需求,从而调整数据中心相应辅助设施的运行状态。
1.5 可靠的监控及巡检制度
数据中心的运行要求是24小时不间断的,IT设备的不间断运行才能保证信息化项目的不间断运转,才能保证相对应的服务内容的连续性。可靠的监控及巡检制度是保证IT设备运行安全的最有效手段。经验表明,80%以上的隐患是在监控及巡检过程中发现并处理的,同样,80%的故障发生是由于日常的监控及巡检不力而使隐患未被发现,才导致最终酿成事故的。
2 数据中心动力环境运维
IT设备是整个数据中心的业务构成,动力环境设备是这些业务的支撑。配电系统是数据中心的心脏,而空调系统、UPS系统也绝对可称为数据中心的脊梁。对IT数据中心动力环境系统的维护更是丝毫不得懈怠。实践证明,一个成功运行的数据中心,其在动力环境方面投入的管理和运维力量相对机房内的数据设备的投入是相当重视、完备的。只有这样,这个数据中心才是可靠的,也才有安全、绿色可言。
2.1 建设冗余量充足的综合性数据中心
数据中心在建设初期就应该设计并建设一个电力、空调、备用设备冗余量充足的动力环境系统,高可靠性的保障绝不是空泛之谈,没有高冗余、高可靠性的保证,数据中心的运行如同站在悬崖边,根本没有安全性,这样的数据中心只能算作是一个运行安全性极低的机房,这与安全、稳定、绿色、环保的数据中心建设及运行宗旨是相违背的。对于高冗余的投入也绝对不是白白浪费资金。将冗余设备、后备设备做到可用、可靠,这样的数据中心才是安全的、可靠的。
2.2 完善的动力环境设备维修保养制度
动力环境设备是数据中心最基本的保障设施,也是IT设备稳定运行的可靠保障。一个安全、稳定、绿色、环保的数据中心的管理者及运维人员不应该在设备的保养及维修上吝啬,可靠完善的维修保养制度的制定和执行,可以对保障数据中心运行安全性起到至关重要的作用。无论是动力方面还是环境方面,哪一个设备的故障都将引起连锁反应,处理不当最终将导致IT设备的瘫痪宕机,后果不堪设想,建立完善的维修保养制度,邀请专业技术人员参加维修保养工作是避免设备出现不良后果的最直接有效的保证措施。
2.3 完善的环境设备监控、巡检制度
对动力环境设备的巡检与IT设备监控、巡检同样重要,而且对动力环境设备的巡检更直观更具体。实行实时监控与专业人员现场定时及不定时巡检并举的制度,为设备安全运行提供最有力的保障。同时加强巡检记录的规范填写记录也是判定设备故障方向及原因的有效手段。
2.4 建立PUE值监控记录制度
绿色数据中心最重要的指标就是PUE(Power Usage Effectiveness)指标,即数据中心总耗电量与IT设备耗电量的比值。无论数据中心的规模大小,PUE值都可以直观地反映出数据中心运行用电分配的合理性及能耗情况。IT数据中心运行的耗电量之大,是行业以外人员不可想象的。一个容量为400个标准机柜规模的数据中心,其年用电缴费就可以达到1 000万元。因此,数据中心能耗状况是业内最重视的内容之一,PUE值正是数据中心能耗情况的最直接的反映。目前,国内的数据中心PUE值普遍在1.6~2.2之间,而国际上最先进的数据中心的PUE值已经接近1。建立PUE值监控记录制度,可以做好本数据中心的能耗管理,也可作为与其他数据中心的横向比较值。这样既可以使数据中心管理者重视应用新技术、降低能耗,同时也可以使其掌握数据中心运维人员工作状态及设备的运行情况。
2.5 严格机房人员进出登记制度
数据机房内,信息化项目往往并不单一,每一个项目都会有自己的项目运维人员、设备厂商人员等各种业务及技术人员,这些人都需要在机房内出入。这就对数据中心机房管理造成了很多困难,因此对需要进出机房的人员进行登记许可制及进行必要的安全、保密、内部规定的培训就显得格外重要。每一个数据中心都应严格执行机房人员进出登记制度,以加强机房管理,保障机房内各种设备设施的运行安全。
2.6 细致的机房环境卫生管理条例
机房卫生往往是被管理者和运维人员忽略的部分,而机房卫生状况不仅仅会对机房内的数据设备运行构成威胁,还会对空调系统、加湿系统产生不良影响。机房环境相对封闭,卫生条件恶劣,也会对在其中工作的运维人员的身心健康造成损害。另外,整洁的机房环境也助于数据中心树立良好的形象。
在IT数据中心的运维中,除重视高端技术人才的引进外,更应依靠普通工程技术人员的日常运维和巡检工作,因此更应该重视普通工程技术人员技术能力及工作责任心的培养强化。更重要的是在日常运维中消除不安全隐患及故障苗头,而不是在发生安全事故后再由高端技术专家与人才去处理解决。
其他如确定数据中心管理组织结构、确定工作任务分工、建立健全数据中心各类应急预案、制订应急演练计划、建立设备操作指导说明、规范监控及操作范围值等基础性工作也是IT数据中心运维工作中的重点工作,但这些已经普遍引起数据中心相关管理及运维工作人员的足够重视,故不赘述。
3 结束语
数据中心是一个综合性极强的生产运维系统,在信息化时代大潮的影响下,其责任之重,维护任务之重是其他生产单位所不及的,其运维工作涵盖了网络、数据设备、电力系统、制冷系统、监控系统等多个领域的内容。不间断运行的工作方式决定了其系统内各个子系统的连锁性极强。在实际的运维管理中,通过上述管理细节的具体实施,抓住全面,坚持吉林石化数据中心安全、稳定、绿色、环保的运营理念。今后将通过不断完善运维内容,使其符合ISO 20000(技术服务管理标准)及ISO 27001(信息安全管理标准)的基本要求,使数据中心的运维工作真正达到国际水平。
主要参考文献
[1]蔡维克.浅谈信息中心基础设施运维管理系统(CDIM)[C]//2011年现代数据中心基础设施建设技术年会论文集,2011.
[2]任义丽,王贤,朱建力,等.中国石油数据中心(勘探院)ITIL落地探索与实践[J].信息系统工程,2011(11).
[3]柴群.工作站机房绿色运维探讨[J].中国信息界,2011(7).
[4]王庆霞.浅谈IT运维管理的应用与实践[J].信息安全与技术,2012(11).