张广明
(中国科学院计算技术研究所,北京 100190)
对供电系统提出不停电供电的要求是从上世纪70年代开始的,但在上世纪90年代之前的几十年里,不停电供电要求的重点在于市电掉电的不稳定过程中保护计算机硬件设备,在后续由备用能源供电的时间段内存储计算机运行的中间数据,并安全关机,即所谓的硬件保护和数据保护,如图1所示,为数据中心不停电供电功能演变示意图。
图1 数据中心不停电供电功能演变示意图
当时,技术成熟并可用做后备能源的技术和产品只有柴油发电机和铅酸蓄电池,鉴于当时对不停电供电的主要要求是硬件保护和数据保护,所以计算机整机研制单位和专业电源设备厂家研发人员选择了铅酸蓄电池作为备用能源,并选择了最简单的配置方法,在电网市电的供电回路中,配置相应容量的铅酸蓄电池,如图2所示。蓄电池是直流储能能源,把它配置在交流供电电路中,电网市电正常时,电池需要AC/DC转换充电,市电掉电时,需要DC/AC逆变向负载供电,这就形成了当前传统UPS典型的电路结构形式。
图2 传统双转换UPS 设备电路形成的必然性
在数据中心供电系统中简单配置UPS以形成不停电供电系统,这种设计理念在很长一段时间内成为数据中心供电系统规划设计的主流。但是,有四个概念是需要明确的。
(1)在系统中,主体是蓄电池,为负载提供备用能源,而UPS设备为电池服务。没有计算机不停电供电要求,就不会在交流输入电路中配置蓄电池,自然也就不会产生传统的UPS设备。
(2)UPS设备的主要功能是在市电掉电时保证备用能源蓄电池不间断向负载供电。IT设备由开关电源直接供电,开关电源输出电压性能指标完全可满足IT设备要求。实际上,大量的计算机设备一直是由电网直接供电的,诸如UPS普遍应用前的计算机供电系统、当前的笔记本和台式机、后备式UPS(相当于市电直供)为计算机供电、UPS转旁路(相当于市电直供)是UPS一种正常运行模式、科研和教育行业大型计算机系统等。再者说,由于UPS设备对电网的适应能力(允许的市电电压幅值、频率、波形失真等变化范围)和可靠性水平都比负载设备中的开关电源差,所以改善供电质量并非UPS设计初衷。
(3)由于电池的容量(备用时间)是固定的,在系统运行中不允许添加或更换,而市电故障停电持续时间是不固定的,所以在系统中简单的配置UPS设备,最终是不能保障系统连续运行的,不能构成真正的不停电供电系统。
(4)备用电池容量不是越大越好。由于UPS设备不能在市电掉电时保证对负载不停电供电,所以在实际应用中,用户在配置电池容量时的心理状态是越大越好,其结果是在电池成本、占地面积、维护难度等方面都带来不利的影响。
随着数据中心功能的变化和建造技术的提高,有两个关键因素极大地影响了对备用能源的设计理念:一是自上世纪90年代后,特别是进入21世纪以后,随着互联网技术的快速发展,数据中心对供电系统运行的连续性(可用性)提出了越来越高的要求;二是数据中心机架平均功率密度出现明显增大的趋势,从20世纪末的1.5~2.0kW/机架到21世纪初的3.0~5.0kW/机架。这两个趋势对传统的供电系统备用能源的设计方法提出了严峻的挑战,促使备用能源设计理念发生了两个非常明显的重大变化。
(1)必须配置可以连续运行的备用发电机系统。由于电网市电掉电柴油发电机投入运行后,仍可随时添加燃油保证油机无限期的连续运行,所以在有供油协议的情况下,可认为油机是一个可长期连续运行的备用交流能源。
(2)要对数据中心所有需要连续运行的系统和设备配置备用能源。传统的数据中心备用能源设计只注意到市电掉电后由UPS系统保证IT设备的不间断运行,而制冷和其他子系统不配备UPS系统供电。特别是制冷系统,市电掉电后,所有的空调制冷设备因失去输入电源而停止运行,此时唯一可利用的冷源是有限的房间空间的余冷。随着机房机架功率密度的提高,房间余冷可维持IT设备继续运行的时间变得很短,尽管UPS系统有足够的供电保障时间,而IT设备却因制冷不满足要求而停止运行。高密度机房制冷问题的暴露使规划设计者意识到,数据中心基础设施的所有子系统对其高可用度的连续运行都是至关重要的,所以要对数据中心所有需要连续运行的系统和设备配置备用能源。
图3显示了现代数据中心供电系统的典型架构,可以看出,整个供电系统的架构和设备配置原则是保障数据中心整个基数设施供电的连续性。
从备用能源设计的角度看,可以把备用能源分成两类。
(1)主备用能源柴油发电机
主输入交流能源是电网市电,备用交流能源是备用柴油发电机,柴油发电机是唯一最终保证数据中心可无限期连续运行的备用能源,称之为主备用能源。
图3 现代数据中心供电系统的典型架构
(2)过渡备用能源UPS系统
冗余的交流输入能源存在着发电机启动延时和两种交流能源转换的断电时间,在此时间内,系统中的所有设备都会因交流输入断电而停止运行,所以,应该对系统中所有的关键系统和设备都配置UPS设备,称之为过渡备用能源。需要配备过渡备用能源UPS系统的设备表示在图4中。
图4 数据中心备用能源功能示意图
图5 市电掉电后各种类型的备用能源投入运行的时间和系统工作状态
图5是市电掉电后各种类型的备用能源投入运行的时间和系统工作状态。
(1)主备用能源柴油发电机保证主输入交流能源的连续性。
市电掉电,油机捕捉到市电失压信号后立即进入自动启动程序,经过一段延时后启动,并通过油机与市电之间的转换开关ATS自动切换后,代替市电对整个数据中心供电。在图5中,油机启动延时和ATS转换总的时间是T1,在T1时间段内,整个数据中心失去交流输入供电。油机自动启动的时间取决于油机系统配置和油机参数设置,单台油机理想的启动时间在15s左右,ATS自动转换时间为几百ms。所以,T1的典型规划值应在30s左右。
(2)过渡备用能源UPS系统保障IT及其他各种设备的供电连续性市电掉电后,需要UPS系统保护的除IT设备之外,还包括图4所示的机房中其他需要连续运行的系统和设备。图5中,UPS电池逆变供电的时间是T1,待油机启动切换后,UPS就立即恢复到交流输入逆变状态,此时的交流输入电压来自柴油发电机。TI也是备用电池的最小备用时间,或者说是电池的可利用备用时间。
(3)空间余冷保障低平均功率密度机房IT设备制冷的连续性。
市电掉电后,对于一般配置精密空调的机房,此时唯一可利用的冷源是房间空间的余冷。机房空间余冷是有限的,视机房空间高度、机房机架密度(数量)和实际IT负荷的大小,余冷的可用时间差别很大,所以有限的余冷能维持机架进风温度由系统正常时的23℃到30℃的时间是一个很大的变数,在图5中,由机房余冷维持平均机架功率密度<2kW的机房,IT设备进风温度由23℃到30℃时间用T3表示。而由机房余冷维持平均机架功率密度>3kW的机房,IT设备进风温度由23℃到30℃时间用T2表示。
T2和T3的典型值是:机架平均功率密度<2kW,满负荷维持时间3~5min;机架平均功率密度3kW,满负荷维持时间1~3min;机架平均功率密度≥5kW,满负荷维持时间<1min。
(4)冷冻水储冷罐储冷保障高平均功率密度机房IT设备制冷的连续性。
为了在市电停电后能在油机启动切换期间保障IT设备制冷的连续性,就必须采用冷冻水制冷方案,并配置冷水罐储备冷水,由储备的冷水维持高功率密度机房的连续制冷。当然,维持冷水输送的水泵也要由专用的UPS设备供电。值得注意的是,不管是传统精密空调,还是冷冻水机组,在输入电源恢复正常时,都存在较长的制冷功能恢复延时时间,视制冷设备类型和型号的不同,此时间的典型值在3min左右。也就是说,冷水罐储冷维持IT设备连续制冷的时间,应包括油机启动切换延时和制冷设备恢复制冷功能延时两个时间。在图5中,制冷设备启动延时制冷的时间用T4表示。而冷水罐储冷维持IT设备连续制冷的最小时间用T5表示,且T5=T1+T4。T5是储冷罐维持IT设备连续制冷的最小时间,也是维持IT设备连续制冷的可利用时间。
(5)油机储油,保障油机运行的连续性。
由于市电掉电后需要油机持续运行的时间是不确定的,油机自行储油,还包括机房专门配置的储油箱储油,总储油量是个固定量,都不具备保障油机连续运行的条件,所以,与相关的燃油供应单位签定燃油供应协议就成为保障油机连续运行的重中之重。在图5中,燃油供应协议时间用T6表示,此时间因数据中心所在地区的供油单位距离、交通条件以及其他不可预测多种因素有关,是一个极大的变数。在供油协议规定的时间内,就必须由油机自行储油和机房专门配置的储油箱储油,保障油机正常运行,此时间应大于燃油供应协议的时间T6,所以T6是油机和专用储油箱储油的最小时间,也是油机和专用储油箱储油的可利用时间。
在保障数据中心基础设施连续运行和如何正确选择配置备用能源这个至关重要的问题上,当前在建和已经运行的数据中心存在着各种各样的问题,有些问题是规划设计者没有意识到,因而很多问题被忽视,没有引起足够的重视;有些问题是在“必须符合标准”的设计思想下,硬性引用或套用并不适合数据中心的有关建筑、电力、安全等标准的相关条款;有些即便是专为数据中心编制的专业标准,也因概念模糊和错误而出现严重影响数据中心运行连续性功能的条款。
2N供电系统是当前可用性级别最高的供电方案,此方案最根本的特点是前端要有冗余的交流能源,后端要有双输入负载,整个供电系统的所有环节都是冗余配置。前端要求两路完全独立、相互隔离、彼此冗余的交流能源输入,在有条件的地区可以引入第二路市电,条件是两路市电必须完全隔离。在不具备条件的地区可以自备柴油发电机。实际上,自备发电机才是满足完全独立要求的理想的备用市电,自备发电机完全由用户控制,包括选购的机型、容量、运行参数设置,以及日常维护工作等。
但是,当前普遍的做法是,在必须配置备用发电机的前提下,仍然要求引入两路市电,并把这一要求写进标准中,这是对2N方案的错误理解。实际上,在发电机作为主要备用交流能源的情况下,再要求第二路市电,除了增大建设成本和维护难度外,对整个系统的可用性的提高效果微乎其微。再者,绝大多数地区不具备两路完全独立的市电,所谓两路市电,并不是冗余的交流能源输入,而仅仅是同一电网输入的两个冗余传输途径而已。
备用柴油发电机是数据中心连续运行的关键设备,但是由于数据中心规划设计者盲目引用电力和建筑行业的相关标准的有关条款,从而严重限制了它的备用功能。
3.2.1 自动启动和自动切换问题
有关电力标准规定,当一个用电单位或地区需要配置备用发电机时,要严格限制该发电机的自动启动和自动切换功能,这一条规定源于这些发电机大多是公用设施,也就是说,它投入运行后可能同时为多个不同单位不同用电系统供电,各用电单位和系统对市电掉电后备用发电机启动和运行可能有不同的要求,所以限制自动启动和自动切换是理所当然的。但是,在数据中心配置的发电机需是数据中心专用,并且要求必须在规划规定的时间(例如30s、1min或2min)内投入运行。人工操作启动发电机和切换供电,会受到很多人为因素的影响,很难保证在规定的时间内启动并投入运行。对于严格要求连续供电的数据中心,市电掉电后备用发电机不能自动启动和切换,就等于没有配置备用发电机。
3.2.2 发电机与市电切换级数问题
同样因为发电机大多是公用设施,不同的用电系统之间必须保证电器隔离,所以有关电力标准规定,发电机与市电的切换开关ATS要同时切换三相相电压和N线。ATS动作时同时转换N线,有两种情况可能造成严重的N线断开事故,一是ATS动作过程中,可能出现瞬间先断开N线后断开相线,或者先接通相线后接通N线的现象;二是在ATS安装和维护过程中,可能出现N线接触不良或人为的N线断开故障。这两种情况都会造成三相相线接通而N线断开的故障。众所周知,在三相系统为单相负载供电时,由于三相负载不平衡,三相系统N线断开时,会烧毁单相负载。在数据中心交流输入系统中,存在的单相负载包括照明灯具、空调制冷设备控制系统电源、UPS设备自用电源、风扇等。在数据中心供电系统中,这种事故屡次发生。所以,在数据中心供电系统规划设计时,不允许使用同时切换相线和N线的ATS设备。再者说,数据中心要求配置专用备用发电机,发电机是数据中心供电系统的一个设备,不存在发电机与市电之间的隔离问题,所以最可靠的办法是发电机N线直接接在数据中心系统地上,发电机与市电之间用3极ATS设备切换。
3.2.3 备用发电机储油问题
燃油供应协议是保证发电机不间断、无限期持续运行的关键,而发电机储油只是在供油协议期间的过渡措施,所以要求自带油箱和附加储油箱的总储油量的可运行时间要大于协议供油的时间,至于要大多少,这是用户根据自身条件、安全期望程度以及放心程度来决定。但是,有些与备用发电机相关的标准(也包括数据中心的专业标准)在储油这一条款中,不强调必须有供油协议,而把一些经验数据作为标准,重点强调一个固定的储油时间(例如8h、20h、36h或72h),特别是把储油时间与系统安全等级联系起来,同样都配置了备用发电机,B级机房要求储油36h,而A级则要求72h,好像同一规格的发电机,在B级机房运行会比在A级机房运行可节油50%。
3.2.4 忽视影响发电机启动的负载因素
备用发电机能否成功启动与发电机容量有关,还与数据中心负载性质有密切关系。众所周知,当负载输入阻抗呈容性特性时,会严重影响发电机的启动和运行,这一点常常被规划设计者忽视。由于条件所限,很多数据中心建成后只能用电阻性负载验证发电机的带载启动能力和运行状况,但这种做法会为数据中心能否连续运行埋下了重大隐患。
在数据中心中,影响发电机启动的最典型的容性负载有三个。
(1)交流输入电容补偿柜
同样是电力部门的要求,为了避免用电负载功率因数对电网造成污染,相关标准规定所有的用电系统前面必须加电容补偿柜,数据中心的规划设计者在不确定数据中心供电系统输入功率因数性质和大小的情况下,往往先入为主在设计图中配置了这一设备,当数据中心配置了高压柴油发电机时,该设备必然影响发电机的启动。
(2)工频机UPS无源滤波器
工频机UPS在市电掉电后的工作状态如图6所示。此时UPS的工作状态是:电池通过DC/AC逆变向负载供电,输入端AC/DC控制关断,UPS输入断路器并未关断,此时油机启动正常后,经ATS转换面对的负载是UPS无源滤波器。待油机启动切换成功后,UPS检测到输入电压正常后才转到市电供电状态。
图6 市电掉电后UPS的工作状态和输入阻抗特性
通过图6,要明确几个概念:1)油机启动后切换时面临的是空载UPS;2)油机启动切换后的负载与UPS是否缓启动无关;3)UPS启动切换是否成功与UPS的输入功率因数和谐波含量无关(UPS输入关闭);4)在UPS输入空载(关断)情况下,无源滤波器呈现纯容性阻抗;5)在UPS1+1冗余系统中,负载是一台UPS额定容量的容量,而无源滤波器相对发电机确是两台相加的。
总之,当数据中心供电系统配置了工频机UPS时,市电掉电后呈现纯容性的无源滤波器,会严重影响电机的启动。
(3)混合式有源滤波器
电力部门防止用电设备谐波污染的另一种做法,是要求在输入端加有源滤波器。理由是滤波效果更好,且有源滤波器不会在空载时出现影响发电机启动的容性特性。但是,当前的有源滤波器产品大多是混合式,是由无源滤波器和有源滤波器并联组成,如图7所示。负载出现的低次谐波(5、7、11、13等)由无源滤波器滤除,其他高次谐波才由有源滤波器滤除,所以,混合式有源滤波器对发电机启动的影响与无源滤波器是一样的。
图7 混合式有源滤波器
UPS蓄电池只是在市电掉电后发电机启动和切换时间内的过渡储能设备,电池备用时间必须大于市电掉电后发电机启动和切换时间,至于具体大多少时间,也是应该由用户根据自身条件、安全期望程度以及放心程度来决定,无需用标准对用户作出硬性规定,当前电池备用时间普遍取值过大,这与相关标准的规定有直接关系,实际上存在着维护难度增大的弊病和成本、承重等资源的巨大浪费。
对于高机架功率密度机房,制冷方案有多种形式可以选择,例如冷热通道封闭、列间空调、背板技术等,这些方案在市电正常时有很好的制冷效果,并且在节能方面也取得了很好的成效。但是,考虑到市电掉电后的制冷连续性,不论什么制冷技术或方案,冷源的属性都是由系统制冷的连续性要求决定的,必须采用有储冷功能的冷源。很多制冷方案规划者只注意到市电正常时的制冷效果,一味提高机架平均功率密度,忽视市电停电时是否可以连续制冷这一关键问题。此种情况在旧机房改造案例中多有发生。
同UPS储能电池一样,冷源储冷也是一个过渡成形式,储冷运行最小时间是设备在市电掉电后发电机启动切换时间与交流电源恢复制冷设备制冷功能延时启动时间之和,实际储冷运行时间自然要大于最小要求时间,至于大多少,也是应该由用户根据自身条件、安全期望程度以及放心程度来决定,无需用标准对用户作出硬性规定。
不停电供电系统的方案是由备用能源的选用和配置方法决定的,因而,要对不停电供电系统做进一步的改进和改革,最首要的是要考虑如何改进和优化备用能源的配置方法。
图8显示了传统的数据中心供电方案和两种可能的改革方案。
图8 传统数据中心供电方案及改革方案设想
(1)图8(a)显示的是没有不停电供电要求的数据中心供电系统,在UPS设备出现前,所有的大型计算机和数据中心都是这样供电的。该系统由市电经变配电后直接供电,供电质量由IT设备中的开关电源保证,市电故障停电时系统宕机。
(2)图8(b)是传统的不停电供电系统、系统运行过程以及备用能源配置原则等,在本文第2、3节中已经有详细的描述。
(3)图8(c)是对IT设备供电的UPS系统改革方案——机架自主储能系统。
既然发电机已经成为数据中心必备的并可及时投入运行的能源设备,过渡备用能源蓄电池的后备时间就可以大大减少,这为把蓄电池移至到IT机架中,配置在IT设备中的开关电源的直流输出端创造了条件,于是就形成了机架自主储能改革方案。此方案从根本上去掉了对IT设备供电的传统UPS双转换系统。
机架自主储能UPS系统组成要点:1)IT设备中去掉传统12V输出开关电源,保留低压DC/AC变换;2)交流输入直接对机架供电;3)在机架中配置集中式12V或48V输出开关电源,模块化冗余配置,低功率密度机房可用12V,高功率密度机房宜用48V;4)在开关电源12V或48V输出端集中配置过渡备用电池,组成不停电供电系统。
机架自主储能UPS系统对传统的UPS系统做了重大的变革,在简化系统、提高系统可靠性、降低成本和提高运行效率等方面,都会有明显的成效。机架自主储能方案的不足之处,是它只解决为IT设备供电的问题,从图8(c)可以看出,系统中其他需要不停电保护的子系统和设备,仍然需要配置传统的UPS供电系统。机架自主储能方案的实施,需要IT设备厂商提供支持,这为该方案的实施和应用增大了难度。
(4)图8(d)是对整个供电系统变革的设想——不间断供电的备用发电机系统。