左浩朋,尚庆学,毛晨曦,张学斌,李 震,孙国良,王 涛
(1.中国地震局工程力学研究所,中国地震局地震工程与工程振动部门重点实验室,黑龙江,哈尔滨 150080;2.地震灾害防治应急管理部重点实验室,黑龙江,哈尔滨 150080;3.清华大学土木工程系,北京 100084;4.中国移动通信集团设计院有限公司,北京 100080;5.信通院(保定)科技创新研究院有限公司,河北,保定 071051)
边缘数据中心是5G 网络中的一类重要节点。随着5G 时代的到来,为更好地支撑高密度、大带宽和低延时的业务场景(如5G 通信、物联网、无人驾驶等),从“核心计算模式”转化为“边缘计算模式”的必要性被提出,即在用户侧就近解决网络传输问题,而边缘数据中心就是“边缘计算模式”得以实现所依赖的基础设施[1-2]。集装箱式边缘数据中心(Containerized edge data center, CEDC)通过将边缘数据中心设置在大的集装箱内,从而实现数据中心建设的标准化、模块化。作为5G 时代网络架构中的重要组成部分,其震后功能评价是整个5G 网络震后功能评价的基础,对抗震韧性评价也具有重要意义[3-4]。
CEDC 是一个小型的复杂系统,其震后功能的维持有赖于数据中心内各子系统的功能状态及各子系统间的功能逻辑关系,因而对其进行功能评价需要采用合适的系统分析方法。通过模拟系统运行逻辑进而评价系统性能状态,最常用的方法是故障树分析方法。故障树在19 世纪60 年代由贝尔实验室提出,最早用于导弹发射控制系统的可靠性分析[5-6]。故障树分析[7]的基本概念是,将物理系统转化为结构化的逻辑关系图,通过规定的事件和逻辑符号来描述造成顶事件故障的各种原因,因此顶事件的发生概率可以由一系列基本事件的发生概率构成的布尔逻辑值表达。故障树方法已在核电厂[8-9]、单体建筑[10]、电力系统[11]、医疗系统[12]和通信基站[13-14]等的抗震性能评价中得到应用。在系统的抗震性能评价分析中,结构、非结构构件和设备的故障作为故障树的基本事件,基本事件的的概率由部件抗震能力概率或易损性计算得到;其后根据物理关系将基本事件集成为故障树;进而根据故障树的运算法则,各个基本事件的概率可以集成为状态树顶事件的概率,即可得到系统的抗震性能。然而采用故障树分析时需要进行最小割集组合的失效概率运算,对于基本部件较多、组成关系复杂的系统而言有较大的难度。因此,李吉超等[15-16]将故障树方法与成功路径方法结合,建立了状态树方法。成功路径方法[17]由美国电力协会提出,其核心是找到一条或多条成功路径,如果任何一条成功路径中的所有部件保持正常工作,则系统功能正常。状态树方法考虑系统所有成功路径进行系统性能分析,其顶事件由系统的全部成功路径组成,可用于表示系统的功能运行情况。相比于故障树方法,状态树方法将系统分层分块独立评估,而后集成为状态树,进而评估系统的状态,充分考虑了与系统功能相关的所有部件之间的相互依存性,以及各个部件对系统整体功能的影响。目前状态树方法已在变电站[15-16]和医疗系统[18-19]的抗震性能评价中得到了应用。
本文在对多个数据中心进行实地调研的基础上建立了典型CEDC 的状态树模型,并研究建立了CEDC 的震后功能状态评估方法框架,从而为整个5G 网络系统的震后功能评价建立基础。文中首先研究了典型CEDC 内部各子系统、各基础部件之间的功能逻辑关系,然后基于此建立了CEDC的状态树模型,并定义了CEDC 的震后功能损失水平;其次,通过数值模拟和引用已有文献结果,给出了数据中心内各基础部件的地震易损性参数;最后,提出了基于状态树和蒙特卡洛模拟的CEDC震后功能概率评价方法,并对CEDC 的薄弱环节进行了识别。
图1 给出了一个典型CEDC 的三维模型和照片。进行CEDC 的功能评价,首先要准确理解数据中心内各子系统之间,以及每个子系统内各基本部件之间的功能逻辑关系,然后基于此建立各子系统的故障树模型。针对这个问题,课题组进行了大量实地调研,向数据中心设计和运维人员进行咨询。从维持数据中心通信功能的角度,本文将CEDC 分解为建筑结构子系统、供配电子系统、空调子系统、通信子系统、状态监控子系统共5 个子系统。
图1 典型CEDCFig.1 Typical CEDC
在故障树中,顶事件表示故障结果,模型内每一个方块代表一个基本部件,部件之间采用逻辑门连接:“OR”门表示位于其下方的任意部件故障都会导致其上方故障事件发生,“AND”门表示其下方全部部件失效才会导致其上方故障事件发生。
1) 建筑结构子系统
建筑结构子系统包括安放数据中心的外部集装箱,以及集装箱内部固定密闭冷通道的钢框架,如图2(a)所示。通常CEDC 由2 个标准集装箱拼接而成,集装箱上部有安装空调外机的安装架,集装箱内部的密闭冷通道框架则用于固定全部柜体设备。建筑结构子系统的故障树如图2(b)所示,集装箱框架和密闭冷通道框架其中任何一个严重损伤都会影响数据中心正常使用。
图2 建筑结构子系统及其故障树模型Fig.2 Structure subsystem and its fault tree
2) 供配电子系统
供配电子系统由为数据中心全部设备(通信设备、空调设备、监控设备)供电的一系列变电、配电设备构成,具体包括:柴油发电机、自动转换开关柜(Automatic transfer switch, ATS)、不间断电源柜(Uninterruptible power supply, UPS)、蓄电池柜和配电柜。柴油发电机放置于集装箱外,除柴油发电机外的其余供配电设备均布置在密闭冷通道钢框架内。各供配电设备在密闭冷通道内的位置、供配电流程分别如图3(a)、图3(b)所示。供配电子系统的故障树如图3(c)所示。供配电子系统由常时供电和应急供电两套系统组成,任何一套系统正常工作,供配电系统均能正常运行。常时供电由市电进线、ATS 开关柜、UPS 电源柜和配电柜组成,四者缺一不可。应急供电要求不间断电源与柴油发电配合才能完成,其中任何一个故障都会导致供电中断。不间断电源由UPS 电源、蓄电池柜和配电柜组成,柴油电源由柴油发电机、ATS 开关柜、UPS 电源柜及配电柜组成。
图3 供配电子系统及其故障树模型Fig.3 Power supply subsystem and its fault tree
3) 空调子系统
空调子系统由若干空调外机和对应的空调内机构成。空调外机位于集装箱顶部,空调内机位于密闭冷通道上部,图4(a)中的示例为3 组空调外机和对应的空调内机。空调系统在设计时会考虑冗余,如图4(a)中的三组空调,通常有一套满负荷工作,即可满足数据中心的全部供冷需求。空调子系统的故障树如图4(b)所示。
图4 空调子系统及其故障树模型Fig.4 Air conditioning subsystem and its fault tree
4) 通信子系统
通信子系统由承载数据中心通信业务的全部设备构成。通信子系统内各设备之间的功能逻辑关系与数据中心承载的业务内容相关。本文的CEDC由9 台服务器机柜承载业务(布置位置如图3(a)所示)。机柜1 内放置核心层和接入层交换机,负责与数据中心外部网络通信;机柜2 和机柜3 分别放置读服务器和写服务器;机柜4~机柜9(共6 个机柜)则全部放置计算服务器,分别承担数据中心辖区内不同区域的数据业务,因而6 个计算服务器机柜为平行逻辑关系,即其中1 个计算服务器机柜出现故障,仅影响其承担区域的业务,不会对其他计算服务器机柜及其承担的业务造成影响。基于上述架构,从功能逻辑关系上可以将通信子系统看作由6 个平行的计算子系统构成,每个计算子系统又由交换机机柜(机柜1)、读写服务器机柜(机柜2 和(机柜3)和1 个计算服务器机柜(机柜4~机柜9 中任意1 个机柜)构成。图5 给出了计算子系统的故障树。
图5 计算子系统的故障树模型Fig.5 Fault tree of the computing subsystem
5) 状态监控子系统
状态监控子系统只包括1 台管控柜,其在密闭冷通道中的位置如图3(a)所示。CEDC 长期无人值守,管控柜相当于数据中心的中枢,监控温度、湿度、服务器运转等各类状况,对空调、柴油发电机进行控制,并将相关监控数据经通信子系统传至远端监控中心。当状态监控子系统出现故障时,由于无法监控数据中心内部环境,此时其内部的设备将被完全关闭。
基于前面对CEDC 各子系统的功能解构,可以看出数据中心内各个子系统间的功能逻辑关系为:1) 6 个计算子系统是相互并行的,任意一个计算子系统维持工作,数据中心即具有部分功能;2)任意1 个计算子系统维持工作,都需要建筑结构子系统、供配电子系统、空调子系统、状态监控子系统正常工作;3) 空调子系统和状态监控子系统维持正常工作也需要供配电子系统和建筑结构子系统正常工作。即数据中心维持正常运行共包含6 条成功路径(即6 个计算子系统),图6 给出了成功路径示意图。
图6 数据中心成功路径Fig.6 Success path of the data center
将图1~图5 中各子系统的故障树模型按照图6的成功路径组合,即得到CEDC 的状态树模型,如图7 所示。数据中心作为整个5G 通信系统的一类重要节点,其各个功能水平的失效概率均是整个通信系统震后功能分析的必要数据基础。因而状态树模型的顶事件选择为输出“数据中心的功能损失水平”,即数据中心在震后发生故障成功路径数与总成功路径数的比值,如式(1)所示:
图7 CEDC 的状态树模型Fig.7 State tree of the CEDC
本文CEDC 在地震作用下可能发生共7 个水平的功能损失,即L0,L1, ···,L6,分别对应0 条、1 条,直至全部6 条成功路径全部故障,也即0 个、1 个···直至全部6 个计算服务器机柜不能向外界提供计算服务。图7 仅展开表达了数据中心状态树的一条成功路径,其他成功路径中各部件及部件间的逻辑关系均与此相同。为使表达更简洁,图7 引入了虚构事件FE1 和FE2,分别表示计算子系统和空调子系统。此外,图7 中也仅对一处供配电子系统给出了展开表达。
部件的地震易损性用于描述部件的抗震性能[20-23]。基于状态树模型分析CEDC 的震后功能时,需要先判断状态树中的每一个基本部件的功能状态(正常工作或功能失效)。首先需获得数据中心每个基本部件的地震易损性,并确定损伤状态与功能失效的关联关系,进而采用随机采样的方法对部件功能状态进行判断。
工程结构的地震易损性表示其在给定的地震动强度下达到或超过某一损伤状态的概率,如式(2)所示:
式中:P[·] 为概率; Φ[·]为标准正态累积分布函数;IM 为 地震动强度参数;mD|IM和 βD|IM分别为结构地震需求D的中位值和对数标准差;mC和 βC分别为结构抗震能力C的中位值和对数标准差。
根据式(2),地震易损性分析可分为概率地震需求分析和概率抗震能力分析,其原理和分析方法,可参考文献[24 - 27]。
概率地震需求模型表征了结构反应与地震动强度之间的概率关系。地震需求的中位值mD|IM与地震动强度 IM之间一般服从式(3)的幂指数回归关系[27]:
式(3)两边取对数可得:
式中, lna、b为拟合系数,可通过拟合获得。地震需求的对数标准差 βD|IM可由式(5)计算:
式中:Di为某一次分析中结构的地震需求;N为分析次数(即地震需求样本点总数)。
将式(4)代入式(2),可得:
CEDC 基本部件的易损性参数如表1 所示。地震动参数全部为峰值地面加速度 PGA(peak ground acceleration)。表1 中部件1~部 件4(ATS、UPS、配电柜、柴油发电机)的概率抗震能力模型参数来源于FEMA P58[28],其地震需求参数为部件基底的峰值加速度,而在CEDC 内这四种部件均放置在集装箱地面,因而其地震需求参数亦为 PGA。部件5~部件9,其地震易损性模型参数来源于课题组前期进行的相关通信设备的振动台试验[14,29-30]。
表1 基本部件的易损性参数Table 1 Fragility parameters of basic components
表1 内“损伤水平”表示与各部件功能失效对应的损伤水平。对于各部件的功能状态,本文仅考虑了“完好”和“功能失效”两种状态,对于部件存在多个功能水平的情况,课题组也进行了相关研究,具体可参考文献[31]。
部件10 和部件11 即空调外机和空调内机,地震需求参数为设备基底处的峰值加速度,其概率抗震能力模型参数来源于FEMA P58[28]。CEDC内,空调外机安装在集装箱顶部,空调内机则在密闭冷通道顶部(图4),因而这两种部件的地震需求参数分别为集装箱顶部的峰值加速度和密闭冷通道顶部的峰值加速度。部件12 和部件13 即集装箱框架和密闭冷通道,其概率抗震能力模型参数来源于FEMA 273[32],地震需求参数分别为集装箱顶部和冷通道顶部相对基底的峰值位移角。
为获得部件10~部件13 的概率地震需求模型参数 lna、b和 βD|IM,本文采用ABAQUS 建立了集装箱和密闭冷通道的有限元模型(图8),单元类型均采用了B31 两节点线性空间梁单元,材料为Q235 钢,采用随动硬化本构,弹性模量取为2.1×105MPa,屈服强度235 MPa,极限强度470 MPa,屈服后刚度比为0.01,采用瑞利阻尼,前两阶阻尼比取为3%。各类设备的质量以质量点形式添加在有限元模型中。集装箱框架和密闭冷通道框架的抗震弱方向均为Y方向(图8),其在该方向的自振周期TJ和TT分别为0.114 s 和0.269 s。CEDC可以在全国布设,因而并没有具体的场地要求,从FEMA P695[33]建议的地震动中选取12 条强震记录(表2)进行增量动力分析,归一化的加速度反应谱如图9 所示。参考ASCE/SEI 7-10 的要求,所选择的地震动反应谱在0.2 倍~1.5 倍的TJ和TT范围内,能量集中,适合作为增量动力分析的地震动[34]。分析时在Y向施加地震动, PGA从0.1g逐渐增幅直到发生塑性损伤。图10 为增量动力分析得到的空调外机、空调内机、集装箱框架和密闭冷通道的概率地震需求模型,也即地震动参数 PGA与集装箱顶部峰值加速度 PFAJ、密闭冷通道顶部峰值加速度 PFAT、集装箱顶部相对基底位移角 θJ、密闭冷通道顶部相对基底位移角 θT之间的概率关系和拟合结果,拟合参数也在表1 中给出。图10 中,PGA 和 PFA 的 单位为g,R2代表拟合优度。依据式(6)即可计算得到表1 中部件10 至部件13 的地震易损性参数mS和 βS,也列在表1 内。
表2 12 条地震动记录Table 2 12 ground motion records
图8 集装箱和密闭冷通道框架结构有限元模型Fig.8 Finite element models of the frame structures of the container and closed cold aisle
图9 加速度反应谱Fig.9 Acceleration response spectra
图10 概率地震需求分析Fig.10 Probabilistic seismic demand analysis
数据中心是通信网络中的重要节点,为了评价地震发生后整个通信网络的功能水平,需要预先知道网络中各节点在不同强度地震下发生不同水平功能损失的概率。参考“地震易损性”的概念,本文定义数据中心的“地震功能易损性”如下:在任意给定的地震动水平下,数据中心达到或超过某个功能损失水平Li的概率,如式(7)所示,并假设其超越概率与地震动强度之间符合对数正态分布。
式中,mi和 βi分别为地震功能易损性水平Fi对应的中位值和对数标准差。需要说明的是,在任意给定的地震动水平下,数据中心达到或超过功能损失水平L0的事件属于必然事件,即P[F0]=1,因此在后续工作中不对P[F0]进行讨论。
基于状态树模型,结合蒙特卡洛模拟,对CEDC 进行震后功能损失水平的评价流程如图11所示。首先将关注的地震动强度 IM的范围等分,确定m个 离散的 IM值;对于每一个离散的地震动强度值,均采用状态树模型对数据中心的震后功能进行n次蒙特卡洛模拟;统计n次蒙特卡洛模拟中数据中心达到和超过每一个功能损失水平的比例,作为该功能损失水平的超越概率;将m个离散的 IM值对应的各功能损失水平超越概率采用对数正态分布函数拟合,即可获得不同功能损失水平的地震易损性曲线。
图11 地震功能易损性评价流程Fig.11 Flow chart of getting seismic fragility
在上述每一个离散的地震动强度下对数据中心进行的n次蒙特卡洛估计中,首先为数据中每一个基本部件生成一个随机数(0~1 之间均匀分布);然后将该随机数与该部件发生功能失效的概率(从该部件发生功能失效对应的地震易损性曲线上确定)相比较,如果随机数小于或等于其失效概率,该部件判定为失效,否则判定其为正常工作;最终,基于各部件的功能状态,采用状态树模型从最底层逐层推出最顶层事件的输出结果(数据中心的功能损失水平)。
采用4.2 节的方法对本文中的典型CEDC 地震功能易损性进行评价。选取 PGA作为地震动强度指标,将 PGA范围确定为0.01g~1.2g,间隔为0.01g(即m=120 ) ,取n=2000。假设接入数据中心的运营商网络完好,考虑市电正常供电和市电故障两种情况确定数据中心的地震功能易损性曲线,如图12 所示,对应的易损性曲线参数如表3所示,不同功能损失水平的发生概率如图13 所示。从图12 可以看出,六个功能水平的超越概率相差很小,说明在地震动强度逐步增大的过程中,地震功能易损性水平F1和F6几乎接续出现,也即从6 条成功路径全部正常很快转为全部失效,处于中间状态的功能水平L2和L5出现的概率非常小,这一点从图13 中看得更为清晰。出现这种现象主要是由于数据中心内存在明显的薄弱环节(见4.4 的分析),且该薄弱环节直接影响数据中心的整体功能,不待各功能水平逐步出现就发生了数据中心的整体功能失效。
表3 典型CEDC 的地震功能易损性参数Table 3 Parameters of the seismic functional fragility of the typical CEDC
图12 地震功能易损性曲线Fig.12 Seismic functional fragility curves
图13 不同功能损失水平的发生概率Fig.13 Probability of different functional loss levels
此外,从图12 和表3 中还可以看出,CEDC在市电完好情况下,功能完全丧失对应的地震易损性中位值为0.4694g,在市电故障情况下功能完全丧失对应的地震易损性中位值为0.3979g。这表明,本文CEDC 在8 度大震下有较高的概率丧失其使用功能,其抗震性能仍然有待进一步提高。市电故障情况下,数据中心的功能失效概率大于市电完好的情况,这主要是由于市电故障时需要蓄电池柜和柴油发电机参与工作,此时数据中心的震后功能与这两种基本部件直接相关。
CEDC 的地震功能易损性与各个部件的地震易损性、部件的位置和部件间的功能逻辑关系息息相关。为了识别数据中心内的抗震薄弱部件,可以通过系统敏感性分析:即逐一提升每个部件的地震易损性参数,考察其对整个数据中心功能易损性中位值的影响,从而识别对数据中心震后功能影响最大的基本部件。基于此,这里选择市电故障的情况作为分析案例。依次将各个基本部件的地震易损性中位值提升20%,其他参数保持不变,计算出易损性水平F3的中位值变化率,如图14 所示,图中各部件的编号与表1 一致。从图中可以看出,空调内机的易损性中位值提升20%,系统功能易损性水平F3的中位值提升9.8%;电池柜的易损性中位值提升20%,系统功能易损性水平F3的中位值提升4.3%;空调外机的易损性中位值提升20%,系统功能易损性水平F3的中位值提升2.6%;其他部件对系统功能易损性水平F3中位值的影响较小,变化率均在1%以下。基于上述结果可初步判定,系统的抗震薄弱部件为空调内机、蓄电池柜和空调外机。
图14 地震功能易损性水平F3中位值的变化率Fig.14 Change rate of the median of the seismic fragility of levelF3
从4.4 节可以看出,系统的抗震最薄弱部件为空调内机。然而空调内机具有冗余设置,且从表1可以看出,空调内机的概率抗震能力中位值为1.54g,并非为所有部件中的最小值。但由于空调内机放置在密闭冷通道顶上,其底部加速度被放大。空调内机的概率抗震能力模型与对应的概率地震需求模型结合后,空调内机与功能失效对应的地震易损性曲线中位值变为0.31g。假设空调内机放置于集装箱地板后对数据中心进行重新分析,则其地震功能易损性水平F3中位值将提升47.1%。因此本文不推荐将空调内机放置于密闭冷通道上部,这会对系统的功能易损性造成显著影响,建议将空调内机放置于集装箱地板以减轻其地震损伤及其对数据中心功能的影响。
本文以典型CEDC 为研究对象,首先分析了数据中心5 个子系统的基本部件构成和各基本部件间的功能逻辑关系,建立了子系统故障树模型和数据中心状态树模型,采用蒙特卡洛模拟给出了典型CEDC 的震后功能易损性曲线和参数,建立了CEDC 震后功能的概率评价方法。本文主要得到以下结论:
(1) 空调内机是影响CEDC 维持震后功能的最薄弱环节。但若将空调内机的安装位置改为地面安装,则可将数据中心地震功能易损性曲线中位值提升47%,显著提升数据中心震后维持正常运行的能力。
(2) 除了空调外机,蓄电池柜和空调外机也是影响CEDC 维持震后功能的薄弱环节,改善这些薄弱环节可进一步提升数据中心维持震后功能的能力。
(3) 采用本文方法对典型CEDC 进行震后功能概率评价,其在市电完好情况下功能完全丧失对应的地震易损性中位值为0.4694g,在市电故障情况下功能完全丧失对应的地震易损性中位值为0.3979g。这表明,本文CEDC 在8 度大震有较高的概率丧失其使用功能,其抗震性能仍然有待进一步提高。