上海邮电设计咨询研究院有限公司 上海 200092
随着国民经济的发展以及4G时代的到来,互联网服务需求进一步得到释放,中国通信产业正迈向新的历史阶段。业务应用多元化为数据中心的未来带来更广阔的前景,大数据、云计算、物联网等新兴技术的不断创新,推进数据中心市场不断发展。根据工业和信息化部在2014年7月发布的通报[1],2011年到2013年上半年,全国共规划建设数据中心255个,已投入使用173个,总用地面积约713.2万平方米,总机房面积约400万平方米。2014年,中国数据中心市场仍在快速发展中,大型互联网企业、通信运营商以及政府部门都在积极推进数据中心以及数据中心基地的建设。
随着数据中心的大规模建设和运行,数据中心的关键质量——安全可靠性,正受到普遍关注。数据中心承担着各企事业单位的核心业务运营,尤其是通信运营商、金融行业、大型互联网企业的数据中心,如果发生突发性故障,不仅会造成重大的经济损失,还会使企业信誉受损。
数据中心的建设通常只关注规划、设计、施工等方面,施工完毕后经过施工验收就投入运行。其施工验收往往都是参照土建类项目进行,一般都是孤立、静态的,有些甚至是关键设施存在的问题,也无法被检验出来,造成数据中心投入运行后,不断发生故障,甚至引起数据中心瘫痪,带来重大经济损失和社会影响。为避免该情况的发生,近年来在施工完毕后,对数据中心有针对性地进行测试已经逐步成为共识。
数据中心的建设是一项复杂的系统工程,它涉及到建筑、结构、装修、电源、空调、通信、消防等多个专业。且数据中心的建设具有施工时间集中、施工工艺复杂、施工专业能力要求比较高等特点,数据中心建设质量将直接影响其运行的安全可靠性。尤其是电源、空调系统作为数据中心的关键设施,一旦出现故障往往都是灾难性的,将直接导致数据中心瘫痪,影响巨大,所以要求更高,必须全年7×24小时不间断运行。
数据中心可靠性是数据中心的关键指标,是数据中心评级的重要标准。对于高等级数据中心,在其建设的规划、设计、施工各环节中都在追求高可靠性,而在施工验收环节却并未真正做好高可靠性的检验。目前,国内的数据中心施工验收规范常用的有国家标准“电子信息系统机房施工及验收规范”[2]、通信行业标准“互联网数据中心(数据中心)工程验收规范”[3]以及各企业的数据中心施工验收规范等。数据中心的施工验收一般都参照这些验收规范进行,对数据中心建筑、结构、装修、电源、空调、通信、消防等多个专业分别进行验收。验收时只是针对施工选用的设备、材料、施工工艺与设计进行核对和测量。对于设备也只是对单台设备分别开启,观察是否运行正常,没有一个系统的、有针对性的数据中心测试方案,因此,会导致很多数据中心在正式上线运行后问题不断发生。这个现象已经引起了数据中心建设和使用单位的高度重视。为解决这一问题,目前社会上逐渐涌现出一批数据中心测试和验证机构,其作为专业的第三方机构对建成后的数据中心做全面“体检”,查出问题预先整改,整改通过后再投入正式运行,使数据中心在正式运行时能够更好地实现设计所要求的高可靠性指标。在数据中心测试中,对电源、空调系统的测试尤为关键。
由于数据中心建设时往往只针对基础配套设施,并没有部署IT设备,在数据中心交付使用后才逐步进行安装,这样就会造成施工验收时数据中心没有负载,无法真正检验所建设的基础配套设施能否长时间安全可靠地运行;而对于数据中心的关键设施如电源、空调系统,因为有很多问题在空载状态下无法暴露出来,所以单个测试电源、空调设备无法测试出正式上线后它们是否能够满足长时间运行的高可靠性要求;因此,采用假负载模拟数据中心的实际运行情况,对电源、空调系统的各个环节进行细致且系统的测试,是一个理想的测试方案。
数据中心假负载测试是指数据中心建设工程完工后,在机房机架内安装假负载设备并上电运行,模拟用户在机房启用服务器等设备后实际运行、发热的情况,用以测试所有的配套系统。对机房范围内所涉及的设备设施、电气连接点(含电源头柜、工业连接器等全部电气设备设施)进行假负载测试,以杜绝安全隐患的发生;对数据中心发电机系统、变配电系统、不间断电源系统、机房配电系统、空调系统等进行满载测试,以确保整体系统的安全性和可靠性。
数据中心假负载测试根据测试对象的不同,可分为数据中心机房机架假负载测试与数据中心(机房)满载测试,可根据用户需求的不同分别进行或者同时进行。数据中心机房机架假负载测试主要针对机房内配电设备及前级配电屏,测试各配电屏状态及各具体连接点的状态;数据中心满载测试主要用于测试数据中心的各系统工作情况及其应对突发故障时的处置情况。两类的测试具体内容详见表1。
表1 假负载测试各项内容
针对数据中心进行假负载测试的主要工作包括:前期现场查勘、制定测试方案、测试方案论证、测试设备及工具筹集、测试人员培训、现场测试、测试数据分析、现场问题整改、问题点复测、出具测试结论及报告等,以下将进行详细叙述。
1) 测试设备:机架式假负载箱,如图1所示。技术要求,如表2所示。
图1 机架式假负载箱示例
表2 假负载箱技术要求
负载性质:要求测试用机架式假负载为纯阻性负载,其目的是确保功率、电流稳定,使得计算更加便捷、测试结果具有可比性。
设备功率:多档可调的设备功率更能适应不同额定功率的机架需求。
加载方式:手动加载便于控制,以防止同时开启较多假负载时因电流过大超过电源头柜的额定电流引起断路器动作。
工作电压:数据中心机房机架的不间断电源系统可能为UPS系统或者高压直流系统。选择兼容不同工作电压的假负载箱可以适应不同条件的机房。
自动保护:要求机架式假负载具有自动保护功能,包含负载过流及短路保护,另需具有风机故障保护。当假负载的风机发生故障时,其内部电阻丝持续发热,负载箱丧失风冷功能。在此情况下,极易造成负载箱内部线路、元器件损坏,产生烟雾,甚至发生火灾,严重时可能触动机房消防系统,造成不必要的损失;因此,要求机架式假负载箱具有风机故障保护十分必要,即当负载箱内的风机不启动,或者风扇未转动时,电阻丝停止通电。亦可根据负载箱内温度设置该故障保护,即当负载箱内部环境温度升高至一定温度时,切断电阻丝电源。
2) 测试工具,如表3所示。测试工具的数量应根据数据中心规模、机房内机架数量、测试人员数量、测试进度等综合考虑。
数据中心机房机架假负载测试旨在测试机房内配电系统及前级配电屏的各电气连接点状态。数据中心配电系统中最难检测的即电气连接点状态,该状态无法直接观测出,电气连接点的状态往往以温升的形式反应,故数据中心机房机架假负载测试的主要工作是测量各电气连接点的温升情况。
数据中心机房机架假负载测试前,需根据机房内机架总数量、机架额定功率、每套不间断电源系统对应的机架数量以及机房空调系统的制冷量、测试人员和工具的多少,来综合确定测试方案,确保每台机架的每路回路都完成测试。一般数据中心机房的测试步骤如下。
1) 根据机房实际情况制定测试方案。
2) 准备测试设备、工具、安排测试人员(包括设备厂家技术支持人员)。
3) 明确测试参数,包括假负载功率、电流、每列头柜允许的最大电流、不间断电源系统的容量及允许最大负载率、机房空调系统允许的最大负载等。
4) 明确测试点,一般数据中心机房机架假负载测试的温升测试点包括以下几方面。①电源头柜:电源头柜总开关输入输出端金属表面;电源头柜金属母排;电源头柜分路开关输入输出端金属表面。②机架:机柜接线柱输入输出端金属表面;机柜PDU外壳表面;机柜PDU插孔。③电源头柜前级配电屏:配电屏内断路器或者熔断器输入输出端金属表面。
5) 确定测试周期。经验表明,机架式假负载在上电运行半小时后,各电气连接点的温升情况即可基本稳定,故障点的发热速度则相对要快很多,基本在上电后的15分钟内就会明显发热,因此,将温度测试周期定为上电半小时之后。
6) 测试步骤。
①准备工作:将假负载搬运入架,置于机柜层板上,螺丝不固定;检查不间断电源系统状态;检查假负载及电源头柜开关,全部置为关闭档;连接假负载电源线,保证每机架假负载电源插头在PDU上的位置相同并且负载功率尽量均分;在测试记录表上记录环境温度、机柜编号、A/B路信息等。
②上电步骤:先开启电源头柜输入总开关,再开启电源头柜分路开关;开启假负载开关(假负载开启后电流可能会短暂升高,为确保每列机架总电流不超过额定电流,开启假负载时应逐台开启并注意电流是否稳定);用钳形表测量电源头柜每分路电流值并记录,确保分路电流正常,记录实际电压值和电流总值;观察电源头柜及前级输出配电屏的参数、状态等。
③温度测量:假负载正常运行30分钟后,用红外线热成像仪分别测量电源头柜总开关输入输出端金属表面、电源头柜母排、电源头柜分路开关输入输出端金属表面、机柜中接线柱输入输出端金属表面、机柜PDU外壳表面、机柜PDU插孔的温度,并将数据记录在测试记录表上;测量该电源头柜对应的前级输出屏分路断路器或者熔断器输入输出端金属表面温度,并将数据记录在测试记录表上。
④结束测试:关闭假负载开关;先关闭电源头柜分路开关,再关闭电源头柜输入总开关;测试人员检查确认测试结果并签字;将假负载电源线断开;将假负载搬离机架。
注意事项:确保机房空调系统制冷量能满足同时开启的假负载功耗;确保一套不间断电源系统所带负载不超过运维允许最大负载;不能带载开启、关闭电源头柜的开关;机房内需配备消防工具。
7) 对测试数据进行统计分析,统计问题点。
8) 由设备厂家或施工单位对问题及故障进行整改维修,并进行复测。
9) 完成测试,出具测试报告。
数据中心机房机架假负载测试能够有效地对数据中心机房配电系统进行检测,通过测试能够发现配电设备可能存在的电气连接点问题,如接触不良、假焊、虚焊等,也能够测试配电屏等设备的告警、显示、测量功能等,从而在机房正式投入使用前对隐患问题进行整改。
数据中心假负载满载测试即模拟数据中心中每个机房均按照设计负荷满负荷运行,在此情况下对数据中心的发电机系统、变配电系统、不间断电源系统、空调系统等进行检测调试。在交付用户前对隐患进行整改,避免后续安全事故的发生。
满载测试前也应根据数据中心各系统的实际情况,结合运维要求及客户需求制定详细的测试方案。测试时,应遵照数据中心机房机架假负载测试的要求安装开启各机房的假负载设备,在数据中心各机房满载运行的情况下,检查各设备的运行状态,继而进行系统测试与系统联调等。
数据中心假负载满载电源系统测试方法如表4所示。以水冷空调系统为例,数据中心假负载满载水冷系统测试方法如表5所示。数据中心假负载满载测试可使整个数据中心的发电机系统、变配电系统、不间断电源系统、空调系统等故障应急响应系统的可靠性得到保障。
表4 数据中心假负载满载电源系统测试联调
表5 数据中心假负载满载水冷空调系统测试
在数据中心电源系统中,电气连接点往往是电路中的薄弱环节,是发生过热的一个重点部位。不可拆卸的接头连接不牢、焊接不良或接头处混有杂质,都会增加接触电阻而导致接头过热。可拆卸的接头连接不紧密或由于震动而松动也会导致接头发热。活动触头,如刀开关的触头、接触器的触头、插式熔断器的触头等,如果没有足够的接触压力或接触表面粗糙不平,亦会导致接头过热。
如因连接点接触不良导致打火、短路、漏电等,会很容易引起系统跳电、设备宕机。如漏电电流集中在某一点,发热量将非常大,很容易造成火灾。判断以上这些故障的重要依据就是假负载测试时的测试点温升情况。
《中华人民共和国国家标准GB 7251.1—2005 低压成套开关设备和控制设备》[4]及《中华人民共和国国家标准GBT 25840-2010 规定电气设备部件(特别是接线端子)允许温升的导则》[5]中对机房中各设备不同材质的温升提出了要求。
国家标准提出:用于连接外部绝缘导线的端子允许最大温升为70K,可接近的外壳和覆板——绝缘表面允许最大温升为40K。
实际测试中,当我们假定机房、电力室环境温度为25℃左右,按照国家标准规定,数据中心机房电源头柜内总开关与分路开关的接线柱、机柜内接线柱与电源系统配电屏内开关接线柱或熔丝连接端可允许的最高温度为95℃。机房机柜PDU表面可允许的最高温度为65℃。
结合实际测试结果,我们发现,国家标准中规定的允许最大温升对数据中心机房机架假负载测试结果的指导意义并不大。实际测试时,各电气连接点温度达到50℃以上的,如经重新紧固整改,复测温度均能获得明显下降。而连接点温度在60℃以上时,一般都不同程度存在连接点接触不良的问题,经整改复测后温度均降至50℃以下。
综合几次实际测试的数据分析,本文认为,一般将数据中心机房电气连接点允许最大温升定为25K,绝缘表面允许最大温升定为20K较为合理。
数据中心假负载测试在近两年已经逐步应用到数据中心的建设中,以下以某通信运营商数据中心假负载测试为例,对数据中心假负载测试的应用情况进行介绍。
通过对某通信运营商数据中心进行机房机架假负载测试,发现并整改的机房隐患问题如表6所示。图2、图3为数据中心机房机架假负载测试发现隐患图示。
表6 数据中心机架假负载测试发现问题及整改方案
图2显示为在机架假负载测试中,发现前级高压直流系统直流输出屏内熔断器连接处温度异常,高于正常温度值。推测原因为熔断器未安装到位或者接触面存在异物。经过拆卸熔断器并重新检查安装后,复测温度恢复正常。图3显示为同一测试点复测温度。
图3 高压直流系统直流配电屏内熔断器连接点更改后温度
通过对数据中心进行机房机架假负载测试,基本上将机房内存在的隐患尽数发现并进行了整改,使得用户设备得以安全运行。
随着数据中心的发展,用户对数据中心机房安全可靠性日益重视,在数据中心交付使用前进行数据中心测试验证已经逐渐成为一种趋势。尤其是对于数据中心关键设施如电源、空调系统,只有通过假负载测试才能发现数据中心的潜在问题和隐患,从而进行整改,最大难度降低数据中心运行时的风险。假负载测试不仅能够在数据中心建设完成后通过测试、整改提高数据中心的可靠性,而且能够对数据中心实际运行时的事故处理预案进行评估和优化,进一步提高数据中心的可靠性、可用性。随着数据中心的不断发展,数据中心假负载测试必将成为数据中心建设验收的重要组成部分,并且会成为数据中心配套业务的又一新兴市场。
参考文献
[1]工信部通函〔2014〕225号.工业和信息化部关于2011年以来我国数据中心规划建设情况的通报[R]
[2]中华人民共和国国家标准GB 50462-2008.电子信息系统机房施工及验收规范[S]
[3]中华人民共和国通信行业标准YD 5194-2014.互联网数据中心(数据中心)工程验收规范[S]
[4]中华人民共和国国家标准GB 7251.1-2005.低压成套开关设备和控制设备[S]
[5]中华人民共和国国家标准GBT 25840-2010.规定电气设备部件(特别是接线端子)允许温升的导则[S]