郑旭辉
(上海邮电设计咨询研究院有限公司,上海 200092)
近年来,随着通信技术的迅猛发展,云计算、大数据等热点概念逐步形成,传统的通信行业正面临着业务转型、升级换代的挑战。目前,大规模数据中心的建设已成为一种趋势,而随着云计算、大数据的成熟应用,其影响范围早已超出传统通信行业的范畴,辐射至多个高新行业与周边领域。随着数据中心的规模不断扩大,运营、维护成本也在不断增高,为确保其安全、可靠的运行,与之相关的设备,乃至整个系统可靠性要求也在不断提高。电源系统作为数据中心的重要基建设施之一,稳定、可靠的能源供给已成为业界关心的核心问题,提高电源系统的整体可靠性亦为供电保障的关键问题。本文将通过电源设备配置的变化,计算出各类系统组成的可用性及建议匹配的机房等级,以供参考。
可靠性是指元件、产品、系统在一定时间内、在一定条件下无故障地执行指定功能的能力或可能性。可通过可靠度、失效率、平均无故障间隔等来评价产品的可靠性。可靠性是衡量系统和设备的一项重要的综合性质量指标,而电源系统的可靠性是衡量数据中心电源系统和组成系统各设备的一项综合性质量指标。
电源系统的可靠性通常采用可用性指标来表征,电源系统的可用性通常定义为“系统在使用过程中(尤其在不间断连续使用的条件下),平均无故障时间与平均无故障时间和平均维修时间之和的比值”,即
式中:A(t)为可用性;MTBF为平均无故障时间;MTTR为平均维修时间。
从式(1)上可以看出,可用性是关于系统可正常使用时间的一个数学量的表述与体现。可用性既包括系统设备的可靠性、可管理性和可维护性等问题,又有整个系统架构搭建的设备合理配置问题。可用性高不仅意味着设备故障频率低,还意味着出现故障后的维修时间很短,能有更多正常使用的时间。
电源系统作为一个可维修的系统,采用可用性指标更能全面衡量系统的综合质量。可用性的高低取决于平均无故障时间与平均维修时间2 个因素,平均无故障时间越大或平均维修时间越短则可用性就越大。在实际工程设计中,平均无故障时间受限于设备厂商技术,产品性能等因素,往往是不能改变或较难改变的。而平均维修时间则有维护、管理及系统配置组成等几部分决定,通过在设计方案优化系统设备的组成,提高设备和系统冗余、容错的性能,可以有效提高电源系统的可用性。
《通信局(站)电源系统总技术要求》 10.2.3 ~10.2.5 条文中对通信局(站)电源系统的不可用度指标给出了明确的规定。
(1)一类局站电源系统的不可用度应不大于5×10-7。即平均20 年时间内,每个电源系统故障的累计时间应不大于5 min,即可用性不小于0.999 999 5。
(2)二类局站电源系统的不可用度应不大于1×10-6。即平均20 年时间内,每个电源系统故障的累计时间应不大于10 min,即可用性不小于0.999 999。
(3)三类局站电源系统的不可用度应不大于5×10-6。即平均20 年时间内,每个电源系统故障的累计时间应不大于50 min,即可用性不小于0.999 995。
同时,《通信局(站)电源系统总技术要求》还对电源系统主要设备的可靠性指标给出了规定,此处不再一一列举。本文以《通信局(站)电源系统总技术要求》中各条文对设备或系统平均失效间隔时间(MTBF)的相关规定为依据进行可用性数据的计算[2]。为简便计算,此处平均维修时间(MTTR)均取2 h。此外,关于电源设备的可用性数据,相关资料已做详细整理,本文将引用其中相关设备的可用性数据作为计算依据,各设备的可用性数值参见表1[3]。
电源系统是一个广义的系统,实际上由基础电源系统和保障电源系统2 大部分组成。标准的基础电源系统又包含市电、油机、变压器、交流配电系统等设备或子系统。而保障电源系统随着技术的发展,需求的多样化,设备的更新换代,则呈多样化发展的趋势。目前,大规模成熟应用的有-48 V 直流系统、240 V直流系统、各类不间断电源(Uninterruptible Power Supply,UPS)系统等,但其共同特点是为末端设备提供不间断电源保障,故统称保障电源系统,本文仅以UPS 系统为例对保障电源系统的配置进行探讨。
如前文所述,基础电源系统主要由市电、油机、变压器、交流配电系统等几大部分组成,其供电系统架构如图1 所示。
图1 基础电源系统架构
局站引入两路一类外市电,分别经甲、乙两路高压配电设备、变压器及低压配电设备后至两路市电切换柜内,由静态转换开关自动切换后与柴油发电机组的电源再次切换,输出的即为切换后的交流供电系统电源。
其中,两路市电切换后电源的可用性计算式为
再次与柴油发电机组电源切换后的交流供电系统电源的可用性计算式为
经计算,A1为0.999 942 264、A2为0.999 943 780。显然,此处交流供电系统电源的可用性数值并不能满足《通信局(站)电源系统总技术要求》(YD/T 1051—2010)中相关条文对局站电源可用性的要求。因此直接采用市电、油机电切换后的电源不能很好地保障设备供电的可靠性,值得注意的是,基础电源系统的可用性并不是一成不变的,而是随系统的设备配置、接线方式的改变而变动。但是,现实条件往往受限于建设标准、现场条件、投资性价比等因素,继续通过增加市电、油机的冗余数量来提高电源系统可用性的方式并不理想,也不可行。为此,需要在后端配置保障电源系统来进一步提高整个电源系统的可用性。
为了进一步提高电源系统的可用性,以期达到规范中的要求,在此引入了保障电源系统。对保障电源系统来说,交流供电系统电源可用性(A2)即为输入电源的可用性。加入了保障电源系统后,对于电源系统的可用性,本文选用UPS 系统进行建模、计算、比较和分析。
UPS 系统的配置按功能定义可分为基本型、冗余型与容错型,不同配置的UPS 系统适用的机房等级不同,可用性与经济性亦大相径庭。现行《数据中心设计规范》规定常用UPS 系统的配置通常可分为“N”“N+1”“2N”及“M(N+1)”4 种,具体要求见表2[1]。
表2 数据中心设计规范附表
下文将对各种UPS 系统配置的可用性进行简单的计算、比较和分析。
3.2.1 “N”系统
“N”系统通常由1 台UPS 主机或多台UPS 主机并机组成,作为1 套单机或并机系统,系统供电容量满足基本需求,没有冗余。以单机系统为例,系统正常运行时,该台UPS 主机承载全部负载,没有冗余备份。当UPS 主机发生故障时,该系统将限于瘫痪。其系统架构如图2 所示。
图2 “N”系统架构
UPS 主机输入电源的可用性计算式为
设备端输入电源的可用性计算式为
经计算,A3为0.999 999 998、A4为0.999 943 339。可以看到,在加入了UPS 系统后UPS 的输入电源可用性(A3)较之前级交流供电系统电源可用性(A2)有了质的飞跃,可用性直接提升了4 个等级。但是由于单机系统的局限,缺少冗余备份的组件,UPS 系统本身的可用性并不高。不能满足《通信局(站)电源系统总技术要求》(YD/T 1051—2010)对UPS 系统可用性不低于0.999 995 的要求,因此设备端输入电源的可用性(A4)仍然不高。
总的来说,“N”系统配置简单、设备利用率高、成本低廉、经济性好,但是可用性有限,一般较多应用于C 级机房。
3.2.2 “N+X”系统
“N+X”系统通常由N+X台型号规格相同且具备并机功能的UPS 主机,组成1 套N+X的并联冗余系统,系统总容量为N台UPS 主机的容量之和,并配备X台主机作为系统的冗余。冗余是重复配置系统的一些部件,当系统中某些部件发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间。系统除满足基本需求外,增加了X台UPS 主机,任何X台UPS 主机的故障或维护不会导致系统运行的中断(X=1 ~N)。但当X+1 台UPS主机同时出现故障时,系统不能满足满载负荷的供电需求,将限于瘫痪。系统发生该种故障的组合数量为
在实际工程设计中,UPS 系统的设计供电能力一般按系统额定供电能力的80%考虑,以“2+1”并联冗余UPS 系统为例,系统正常运行时3 台UPS 主机均摊负载,满载时每台主机的负载率约53%。当其中1 台主机出现故障,需脱离退出系统时,另外2台主机均摊全部负载,每台主机负载率约80%,此时系统仍能正常运行,相当于并机单线系统,但没有冗余部分。当系统同时有2 台主机出现故障时,系统将限于瘫痪。“N+X”系统的框图如图3 所示。
图3 “N+X”系统架构
每台UPS 主机输入电源的可用性计算式为
以单台UPS 主机的可用性为Au,则“N+X” UPS系统的可用性计算式为
设备输入电源的可用性计算式为
不同配置的“N+X” UPS 系统的可用性计算数值见表3。
表3 “N+X”系统可用性计算表
从表3 可以看出,随着冗余设备数量的增加,UPS 系统的可用性显著提高,满足规范中对UPS 系统可用性不低于0.999 995 的要求,但是对设备输入端电源的可用性提升确不大。因此,在UPS 系统可用性满足要求的前提下,盲目追求UPS 系统的高可用性而增加冗余设备的数量并不合适。而且随着并机数量的增加,整个系统的控制、维护、管理的难度都在增加,在实际应用中,系统的可用性往往并不能达到期望的效果,所以《数据中心设计规范》修编后已将原“N+X”配置改为“N+1”配置。
同时,从数据上看,在冗余设备数量相同的情况下,系统设备总数的增加对可用性的影响不大,而相对的设备利用率确明显提高。但是“N+X”系统作为一条单总线的冗余系统,在很多配电环节都存在单点故障瓶颈。因此,在配置“N+X”系统时不建议将其规模建设的过大,以避免发生故障时事故范围的扩大。在设备负荷需求不大时,可按设备负荷总容量配置1 套“N+X”系统,在设备负荷较大或近期有新增设备负荷的情况下,一般将设备负荷总容量分拆由几套“N+X”系统分别提供电源。在实际工程设计中,常用的“N+X”系统配置一般有“1+1”“2+1”这2种并联冗余系统配置方式,需要结合场地、投资等其他因素按实际情况选用、配置。
总的来说,“N+X”系统有冗余备份、UPS 系统可用性高,但是较“N”系统经济性差、设备利用率低、占地面积广,且同样存在配电环节单点故障瓶颈,一般较多应用于B 级机房。
3.2.3 “2N”及“M(N+1)”系统
“2N”及“M(N+1)”系统通常由2 套或2 套以上UPS 系统各按多机并联方式组成,从低压配电到机架用电设备全程采用双UPS 系统冗余、双系统总线配电的方式,系统总容量为N台UPS 主机的容量之和,并视需要配置1 台主机作为冗余备份或不配置。2 条总线相互独立具备容错性,容错系统是具有2 套或2 套以上相同配置的系统,在同一时刻,至少有2套系统在工作,每套系统是(N+M,M=0 ~N)结构。按容错系统配置的场地设备,至少能经受住1 次严重的突发设备故障或人为操作失误事件而不影响系统的运行。
以单机双总线UPS 系统为例,2 条电源总线自低压配电到机架用电设备全程独立、相互冗余,正常运行时每条总线的UPS 各承担50%负载,单条总线UPS 系统不配置冗余设备。当1 台UPS 主机出现故障时,后端负载将全部切换到另一条总线的UPS 主机,对于单电源设备来说,为实现2 条总线的相互冗余,需在设备前端配置1 套机架式静态转换开关[4]。只有在2 条总线同时出现故障时,系统才会限于瘫痪,当然这种故障在非灾害造成的事故中概率较低。在工程设计中出于经济性及占地面积等多方面因素的考虑,往往在系统冗余、容错性的设计中不会考虑双点故障的影响。“2N”系统架构如图4 所示。
图4 “2N”系统架构框图
则UPS 主机输入电源的可用性计算式为
设备输入电源的可用性计算式为
不同配置的“2N”及“M(N+1)” UPS 系统的可用性见表4。
表4 “2N”系统可用性计算表
从表4 可以看出,与“N+X”系统相同,单条总线UPS 系统的可用性随着冗余设备数量的增加而增加,配置1 台设备作为冗余备份后,即可满足规范中对UPS 系统可用性不低于0.999 995 的要求。但是设备输入端电源的可用性受限于市电、油机、配电等设备的可用性仍然提升不大。同样,在UPS 系统可用性满足要求的前提下,不必为盲目追求UPS 系统的高可用性而增加冗余设备的数量。“2N”及“M(N+1)”系统的优势再于其2 条总线相互独立的供电方式,突破了单线供电系统的瓶颈,使2 套独立的系统间具备了相互容错的性能。
以单机双总线系统为例,该系统较之“1+1”并联冗余系统而言,系统配置、投资规模、占地面积等相差不多,但是其系统自身双总线的供电方式克服了并联冗余系统中诸多配电环节的单点故障瓶颈,有效提高了系统的容错能力及可靠性。
总的来说,“2N”或“M(N+1)”系统由于拥有2 条或多条供电总线,多总线间系统具备容错能力,在实际应用中其可用性明显高于“N”“N+X”系统,一般应用于A 级机房。
3.2.4 “N+AC”系统
“N+AC”系统是“2N”系统的一种变种,是近年来在国家节能减排、减配增效指导方针下,随着国家电网建设齐全,市电供电质量日益提升背景下催生的一种产物。系统结构上是由1 路保障电源系统和1路市电组成的不对称“2N”系统,与“2N”系统相似,从低压配电到机架用电设备全程采用双总线配电的方式进行供电,只不过其中1 条总线由市电电源直接对服务器设备进行供电,市电总线与保障电源系统总线相互独立,容量互为备用,具备容错性[5]。系统抗干扰性上,至少能经受住1 次严重的突发设备故障或人为操作失误事件而不影响系统的运行,只有市电与保障电源系统同时受损时,系统才会陷于宕机状态,这种故障与“2N”系统类似,工程中一般不予考虑,此处不再敖述。
“N+AC”系统架构如图5 所示。UPS 主机输入电源的可用性计算式为
图5 “N+AC”系统架构
设备输入电源的可用性计算式为
不同配置的“N+AC”系统的可用性见表5。
表5 “N+AC”系统可用性计算表
通过表3、表4、表5 的纵向对比发现,“N+AC”系统的可用性与“2N”系统的可用性基本相当,远优于“N+X”系统的可用性。这与其系统结构和“2N”系统一致的关系密不可分,说明整个电源系统的可用性不仅取决于电源设备自身的可用性,还与系统的结构密切相关。在工程设计中,设备自身的可用性往往是一个固定的数值,而系统结构则是作为设计者可控的重要一环,因此确定机房等级、设计相应的系统结构是确保系统可用性达标的主要措施。
“N+AC”系统由于结构与“2N”系统相同,可用性与其相近,在主设备能够承受市电直供的条件下,可以一定程度上替代后者,且节省了一半的设备投资与占地面积,经济性上优于“2N”系统,但在高端数据中心应用领域,“2N”系统仍是保障电源系统的首选,相比较省下的设备投资与宕机引起的损失,投资者仍倾向于选择可用性更高的“2N”系统。而“N+AC”系统实际上更多的是用于替代“N+X”系统,与后者相比,系统结构上的优异性一览无余,可用性远高于后者,投资造价上,两者也基本相当,因此将其应用于B 级或B+级定制机房也是一种不错的选择。
通过上文的计算、比较和分析,影响整个电源系统可用性的主要因素还是保障电源系统。基础电源系统虽然重要,但是初期建设完毕后,后期如需要进行改造,难度较大,不易调整,且对于单个电源系统内不同等级机房可用性要求的调整空间不大。而对保障电源系统来说,其可用性主要受控于系统搭建的结构,因此对于不同等级机房,如何在兼顾经济性与可用性之间搭建一个合适的系统结构才是设计者需要考虑的问题。