数据中心动环系统风险分析及应对策略

2016-07-18 10:33王侃毅
发电技术 2016年2期
关键词:数据中心应对策略风险

王侃毅

(中国移动通信集团上海有限公司网络维护中心,上海200233)



数据中心动环系统风险分析及应对策略

王侃毅

(中国移动通信集团上海有限公司网络维护中心,上海200233)

摘要:通过对数据中心动环系统组成和特点的总结,结合实际建设和运维工作的实践经验,系统研究了动环系统存在的安全运行存在的风险,并提出了相关应对策略,为打造安全的数据中心提供了完善的方案。

关键词:数据中心; 动环系统; 风险; 应对策略

0 引言

伴随着信息时代互联网、云计算、大数据等技术的不断发展,承载这些技术的数据中心也象雨后春笋一般拔地而起。由于运营商在带宽资源的优势和在移动互联网时代信息业务增长的需要,因此在数据中心建设中投入巨大,也能够吸引到许多高端客户的入驻。

对数据中心客户诉求来说,电子设备的安全可靠运行是他们的主要考量。一旦数据中心出现宕机,不仅给相关互联网公司本身带来巨大的经济损失,可能造成用户更大的损失,客户在这些事件中造成的损失是不可挽回的。例如2013年谷歌数据中心宕机损失,每分钟损失达到10.8万美元,携程网2015年宕机事件中直接损失超过1277万美元。2015年6月21日,阿里云香港节点出现权限宕机,业务中断超过12h,甚至出现部分用户数据损毁。

在基础设施安全方面最为重要的就是数据中心动环系统的安全。本文作者通过多年在数据中心运行维护管理的实践经验,分析数据中心动环安全的风险以及提出相应的解决策略,供广大运维人员分享。

1 数据中心动环系统介绍和特点

1.1动环系统构成

数据中心动环系统由三大部分组成:电源系统、空调系统、监控系统

电源系统包括:市电引入部分:包含市电进线高压柜、变压器、二次侧高压柜,根据数据中心的规模和容量需求市电引入分22万伏、11万伏、3.5万伏、1万伏四个等级;低压配电部分:包含变压器、低压进出线柜,电压等级为380伏;电力配电部分:包含低压分配柜、UPS设备、高压直流设备以及蓄电池组。电压等级交流220伏或直流240伏;数据机房配电部分:包括列头柜;后备电源部分:高压柴油机或低压柴油机;电源干线部分;包含连接各系统的母线和电缆。

空调系统包括:中央空调部分:包含中央空调机组、冷冻水泵、冷却水泵、淋水塔、末端空调;冷却水系统:包含冷却泵、淋水塔、末端空调;专用空调部分:专用空调又分为水冷专用空调系统和分冷专用空调系统,其中水冷专用空调包括:冷却泵、淋水塔、末端空调,分冷系统:主要由专用空调主机和室外机组成;管路部分:包含连接各系统的空调管路以及控制阀门;后备冷源部分:蓄冷设备、板换。

监控系统包括:采集单元、总线、服务器、应用软件等,提供实时的AI、DI、DO的数据状态,对设备运行情况实时监测,具有设备实时告警、告警过滤、远程控制、数据存储和分析、故障派送等功能。

1.2动环系统发展特点

数据中心规模不断扩大,从原先的一幢楼1万平方,发展到一幢楼4~5万m2,以致到目前呈现了园区规模。其次单机架的功耗不断提升,由原来单机架2KW,过渡到3.5~5kW,进而发展到高功耗区单机架可达7~10kW。这些变化使动环系统的架构和设备发生了很大的变化。

对外电的需求从原先1万伏双路进行,每路3200kVA的容量,过渡到3.5万伏进线,每路容量16000~20000kVA,如果是园区级的需要11万伏或22万伏进线,每路容量达到12万~18万kVA。

单机架功耗的增长和机房装机密度提高,单机架功耗平均达到4kW以上,机房功率密度200W单位平方米,如果采用模块化或仓储式建设,单模块的功率密度提高到300W单位平方米。对空调系统提出挑战,末端空调制冷量从原先的45kW提高到100kW,机房空调引入了冷池、列间空调、门板送风、液管或冷冻水延伸至机房甚至直接接入机架。中央空调机组单机组制冷量也从500RT提高到1400RT。

出于对投资和节能的考虑,大型数据中心动环系统引入了中压设备,包括高压柴油机、高压冷冻机组。中央空调出水温度由原先的7℃,回水温度12℃,提升到出水温度14℃,回水温度19℃。机房送风温度控制也由最初的13~19℃,提升到18~27℃。另外,数据中心引入了自由冷却系统,在冬季室外气温低于一定湿球温度时,利用冷却塔循环和热交换,达到免费取冷的系统。

动环系统在上述演进中的电源、制冷系统中集成后体现了更加复杂,结构层级增加,设备安全等级提高,设备之间逻辑关系更复杂。

2 动环系统安全风险分析

2.1设备安全风险

2.1.1电源设备故障及影响

电源设备故障主要指在设备运行过程中发生的设备停止、损坏,造成其后级设备出现供电中断。其中越靠近数据设备端的电源设备出现故障,其影响也越直接。如数据机房内列头柜开关如果发生跳闸故障的话,将直接造成所承载某个或某列服务器设备断电停止运行;UPS或高压直流设备作为数据机房供电设备,如果出现设备故障,特别是输出中断的话,(输出中断最主要原因有逆变器停止工作、逆变器和市电转换失败、并联冗余机组不同步,蓄电池低电压、短路或开路运行故障),将会影响到所供机房的机柜,而且设备容量越大影响的机架数也越多,举个简单例子,如果是400kW的UPS,单机柜容量是4kW,那就将有100个机柜断电无法工作,但如果是120kW的UPS,单机柜容量是4kW,那只影响30个机柜。低压设备输出故障,主要由于开关跳闸引起(主要原因有负载端过载、短路,也可能是开关本身机械或电器故障),如果是出线柜故障则影响下级输出所带的负载,如果是头柜的话,将使所有该列输出停止供电。

2.1.2空调设备故障及影响

空调设备正常运行主要是保证机房环境温度和湿度能够适合服务器设备的运行,服务器设备能够接受的进风温度根据GB2887—89计算机场地技术条件4.4.1.3条规定开机时机房内的温度环境温度、湿度标准:其中A级22±2℃,B级15~30℃,C级10~35℃,环境湿度为A级45~65℃,B级40~70℃,C级30~80℃。传统服务器的耐温标准5~35度,机房温度的升高,服务器的功耗将大幅增加。服务器CPU,正常情况下45~65℃。高于75~80℃,要检查散热,部分CPU会自我保护,温度过高会自动降频(一般为标准频率的一半)。硬盘温度,一般情况在30~60℃。

机房侧末端空调设备出现单个设备故障一般不会对机房温度产生大的波动,只有出现多台或全部机房空调出现停机的情况,才会使机房温度在短期内失控。这样的情况主要是由于三种原因导致的,一是设备同时停电;二是水冷末端空调冷源停止;三是水冷系统管路或阀门出现爆裂。

中央空调设备作为集中供冷的冷源设备在单机出现故障时,如果有备机的情况下,不会造成影响,但一旦出现全部停机的话,就会使整个数据中心失去冷源,造成重大影响。

2.2动环系统风险

动环系统风险是对整个数据中心供电或冷源造成系统安全的风险,一旦发生,将对整个数据中心的服务器运行带来灾难性的损失。

市电停电或外线故障时最重要的系统故障,其次就是市网断水。当发生这样的情况时,是真正考验数据中心动环系统安全性的时候。

2.2.1市电停电风险

当数据中心外部电源失去时,不仅是供电设备不能工作,同时所有的冷源设备也同样停止工作,服务器设备在短时能够通过蓄电池放电延长供电时间,等待备用柴油机启动后,切换入系统供电。某系统采用中央空调单冷源设备提供冷冻水,市网断电后机房温升情况见表1。

表1 机房负载与温度对应关系

通过上表得到结论,1)温度上升的速度和机房的负载呈正向关系,即机房负载越大,温度上升的速度也越快。其中5-1机房在10min温度就达到38℃;2)来电后空调自启动在1min左右,冷却水泵变频器在35s启动,温度恢复原始温度的时间要远大于温度上升时间。同样是5-1机房恢复用了50min时间。

首先冷源机房中央空调来电自启和应急启动。

来电自启:当发生进线断电造成运行冷水机组停机后。BA系统会先进行判断在控制范围内的冷水机组、水泵、冷水塔状态,然后给出开启程序,共约1min。BA系统自动打开系统中的阀门、启动循环水泵和冷水塔共约2~4min。BA系统监测冷水机组是否满足开机条件(机组冷却和冷冻水循环建立、润滑油温度达到机组设置点范围),条件达到后开始启动程序。机组开始控制系统自检、润滑油泵启动、油压差建立、预润滑、导叶检测等,该过程大概需要5~10min左右。BA系统开机过程约8~15min。应急启动:停止BA系统控制启动,采用人工启动,手动打开系统中的阀门,约2min。手动开启循环水泵和淋水塔风机,约2min。手动启动冷水机组,判断冷水机组是否满足开机条件(机组冷却和冷冻水循环建立、润滑油温度达到机组设置点范围),条件达到后开始启动机组。机组开始控制系统自检、润滑油泵启动、油压差建立、预润滑、导叶检测等,该过程大概需要5~10min左右。人工开机过程约9~14min。

由上面的中央空调来电自启动流程和应急启动实际流程和时间测试:无论是BA系统自动开机还是人工干预启动,整个过程过程约在8~15min之间,而且是机组一切正常情况下,特别是冬季加热器不能出现故障(有任何一个环节有问题,开机时间大大增强,且需人工干预)。

然而冷冻水能够达到制冷效果的供回水温度,即7℃的冷冻水出水温度究竟需要多少时间。通过实际故障统计。在停电20min后,冷冻水温度是呈上升趋势,数据显示15.5~23℃共用了5min,在开机后从23℃下降到7℃用了将近60min,因此整个系统恢复需要75min。因此得到的结论是如果数据中心采用的是单冷源的中央空调系统,在出现系统性停电风险时,是不可用的。(如果要设置蓄冷罐,那一般20min的储备也不能达到实际要求)数据中心的冷源系统应该是双冷源的设置。

2.2.2市网停水

市网停水的系统故障主要影响的是水系统的空调,包括中央空调系统和专用空调冷却水系统。长时间的停水,会使中央空调系统和专用空调系统无法补水而停止工作。

3 应对策略

3.1电源系统和设备配置不存在单节点

单节点定义为某一个电源供电节点是唯一的通路,这个节点发生中断,那在其后面的设备产生停电。这里的节点即指设备本身,也包括设备供电出线的路由。严格意义上的双路由供电从市电进线侧一直到机房内服务器机架侧,全程都应该是物理上的双回路。

3.2空调系统要双备份

大型数据中心的空调系统如采用集中供冷模式,一定要采用双备份。

1)中央空调系统和专用空调系统加末端的双冷源的精密空调,这样的系统,正常运行时以中央空调为主,精密空调以冷冻水供冷,专用空调系统作为备份,一旦中央空调设备或管路出现由于故障出现问题,冷冻水停止。专用空调系统运行,精密精密空调压缩机制冷,保证机房供冷。同时当机房冷量不够时,精密空调还可采用冷冻水和压缩机同时制冷的策略,以保障机房的冷源需求。空调系统由于管路和阀门众多,发生泄漏可能性很大,因此单系统风险很大。前一节也分析过在市电停电时,中央空调由于启动时间过长,不能满足机房应急时的供冷,但专用空调系统在市电恢复后,能够在2s只能完成系统建立,并提供冷却水供机房精密空调制冷,所以能够应对市电停电的系统性风险,但此种模式的缺点在于冷源都倚靠水,如果碰到市网断水的故障还是存在风险。解决的方法可以通过设置应急补水系统,达到延长抢修时间的目的。应急补水系统的容量可以根据冷却水蒸发量进行计算,通常设置应满足淋水塔补水量的8h以上。

2)采用中央空调系统和分冷系统加机房精密空调模式。正常时中央空调系统运行,一旦出现市电断电的系统性风险时,精密空调会自动切换到分冷系统,也是压缩机运行状态。这样的系统和第一种模式比较的优势,在于冷源不全部倚靠水系统,能够有效应对市电停电和市网断水这二种情况的系统性风险。

3.3空调设备供电分担配置原则

空调设备作为大型数据中心的重要保障设备,在设备供电必须分担设置。以抵御由于单路供电系统或设备出现的故障。例如一个机房侧精密空调设备组,需引入不同市电的配电,分别交叉供电,保障在某一路市电停电或上级开关跳闸故障时,机房精密空调至少还有一半在运行,延缓机房的温升,赢得抢修的时间。同样在中央空调和专用空调的系统和设备的供电,能够进行合理的供电分配以分散风险。

3.4中压柴油机市电全自动系统

数据中心最大的风险是市电停电造成数据中心所有的电源设备和空调设备停止运行。如上节中叙述的,数据中心后备不间断电源可以支撑服务器设备供电在15~30min,但是机房空调的温升可以在10min之内就失去控制,达到38℃,这时服务器可能已处在宕机的状态了,因此空调电源恢复响应的时间需要更短。一个大型的数据中心其高压设备和后备柴油机众多,且分布在不同物理地点,如果靠人工操作柴油机启动,然后在切换入高压设备,再通过高压设备操作完成供电,先不考虑切换复杂,人员技能和熟练度要达到非常高的水平,就是在不同物理点来回操作和确认,时间上也绝对达不到要求。故建立中压柴油机市电全自动系统是防御市电停电风险的最佳策略。就如何实现此系统,在下文中将对已成功运用的实践案例与运维人员分享。

图1是某数据中心的高压系统和柴油发电机系统,35kV接线方式为线路—变压器组接线。每台变压器进线一回,进线电源采用35kV电缆引自新建开关站。每组线路装设35kV断路器,35kV计量用PT、CT及母线PT、氧化锌避雷器各一组。10kV接线采用单母线分段接线,共两段母线,设分段断路器。油机房有9台10kV容量2000kW柴油发电机并留有1台扩建机位,所有发电机并接到同一段并机母线,然后通过两路发电机出线分别送往35kV变电站的两段10kV母线。

该系统引入了中压电源切换控制系统(MV ATS)自动控制。正常运行时,两台主变分列运行,当一台主变断电时,其10kV侧进线断路器跳开,母线分段断路器自动合闸,由另一台主变同时向两段母线供电。当两回主变均失电时,中压电源切换控制系统自动发信号启动应急油机电源,油机电源可用后,中压电源切换控制系统(MV ATS)自动控制10kV系统切换到由10kV油机电源向负荷供电。

柴油发电系统的工作方式为:接收到中压电源切换控制系统发来的启动信号后,油机控制系统立刻控制开通风窗,然后启动全部机组,最先达到规定的电压和频率水平的油机(或者是预先选定的一台油机达到规定的电压和频率水平后)合闸到并机母线,作为基准,其他机组经过同期检查,逐个并列到并机母线。全部油机并机完成后,油机控制系统将油机出线开关1和油机出线开关2合闸,油机电源分别送至变电站的两段10kV母线油机进线柜的下桩头。变电站的负载投入后,油机的功率管理系统根据实际输出功率,将超出需求的油机退出运行(留有相应余量),如果在运行过程中负载增加,再启动相应数量的油机经并机投入运行,保证所需的供电容量。来自中压电源切换控制系统的启动信号撤销后,油机控制系统控制所有油机经冷却停机。

系统操作实际时间

(1)两路市电停电,MA ATS和MB ATS分别检测I段母线电压与频率和II段母线电压与频率,经过设定的延时时间(市电稳定延时5s)后异常条件仍然满足,判定两路市电均异常。

(2)油机控制系统根据预设程序启动油机并完成并机后,合油机出线开关1和2(油机启动并机合出线开关时间由油机系统决定90s)。

(3)MA ATS检测油机进线1电源正常后(油机电源稳定延时5s),按照设定程序做如下动作:

跳母联开关(1s)

跳本段全部出线开关(1s)

合本段油机进线开关(5s)

依次合本段优先级为2、3、4的出线开关,间隔2s (3s×9)

(4)MB ATS检测油机进线2电源正常后(油机电源稳定延时5s),按照设定程序做如下动作:

跳母联开关(1s)

跳本段全部出线开关(1s)

合本段油机进线开关(5s)

依次合本段优先级为2、3、4的出线开关,间隔2s (3s×9)

步骤(3)、(4)同时并列运行,从二路市电停电到供电由柴油机带载完成总用时134s。

4 结语

通过上述对数据动环设备和系统的故障及其造成的影响范围,基本可以得出这样的结论:1)设备故障出现的概率较大,但对整个数据中心的影响相对较小,其影响面主要看该设备在动环系统中的层级和容量配置情况,2)系统性故障出现概率较小,但对整个数据中心的影响是致命的,如果数据机房在初期建设没有考虑,系统配置和技术未达到能力要求,只要出现此情况,意味着整个数据中心可能全部停止运行。3)系统性故障出现时,系统响应的时间是最关键的。应当采用技术手段加以控制。

本文总结大型数据中心动环系统风险应对策略:电源系统和设备配置不存在单节点;空调系统要双备份;空调设备供电分担配置原则;中压柴油机市电全自动系统。如果数据中心建设和运维符合这四项应对策略,那就能抵御各种动环风险,数据中心的动环运行始终处于安全的状态下,使客户可以放心的将设备运行在该机房内。

参考文献:

[1]GB50174-2008,电子信息系统机房设计规范[S].

[2]GB 50052-2009,供配电系统设计规范[S].

[3]DL 476-1992(2005),电力系统实时数据通信应用层协议[S].

[4]YDT 1821-2008,通信中心机房环境条件要求[S].

[5]GB 50243-2002,通风与空调工程质量验收规范[S].

修回日期:2016-03-16

DOI:10.3969/J.ISSN.2095-3429.2016.02.013

中图分类号:TP308

文献标识码:B

文章编号:2095-3429(2016)02-0057-05

作者简介:王侃毅(1972-),男,浙江镇海人,MBA硕士,工程师,网络维护中心副总经理。

收稿日期:2016-02-16

Risk Analysis and Countermeasures Strategies of Data Center Power Distribution and Environment Surveillance System

WANG Kan-yi

(Network Maintenance Center of China Mobile,Shanghai 200233,China)

Abstract:This paper summarizes the composition and characteristics of power and environmental system through the data center.With the actual construction and operation&maintenance practices,the paper examines the risk of the power and envirommental systems.And it puts forward relevant countermeasures to create safe data center and provid the perfect solution.

Key words:data center; power and environmental system; risk; countermeasures strategy

猜你喜欢
数据中心应对策略风险
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
2017第十届中国数据中心大会榜单
筑牢洪灾后的舆情“堤坝”
利率市场化改革对商业银行的挑战及应对策略研究
我国信用评级业存在的问题及应对策略
中国经济转型的结构性特征、风险与效率提升路径
互联网金融的风险分析与管理
企业纳税筹划风险及防范措施