雷鸣,刘芹,封铎,刘玲
(中国移动通信集团设计院有限公司,北京100080)
数据中心业务可用性分级研究
雷鸣,刘芹,封铎,刘玲
(中国移动通信集团设计院有限公司,北京100080)
通过分析国内外数据中心分级现状及承载在数据中心内业务系统的可用性,提出业务可用性分级建议以及业务系统对数据中心基础设施的需求及配置建议,从而让数据中心基础设施的配置更加合理化,进一步降低数据中心的建设成本。
数据中心;分级;可用性
数据中心(data center)通常是指在一个物理空间内实现对数据信息的集中处理、存储、传输、交换、管理,一般含有计算机设备、服务器设备、网络设备、存储设备等关键设备。数据中心的基础设施(data center infrastructure)是指为确保数据中心的关键设备和装置能安全、稳定和可靠运行而设计配置的基础工程,也称机房工程(facility site engineering),数据中心机房工程的建设不仅要为数据中心中的系统设备运营管理和数据信息安全提供保障环境,还要为工作人员创造健康适宜的工作环境。
近几年随着“互联网+”、云计算、大数据、物联网等新技术与应用的飞速增长,对数据中心基础设施的建设和服务需求大幅度增加,与此相关的大型建设投资项目也逐步增多,如何优化数据中心基础设施配置也越来越重要。数据中心承载业务的可用性需求是数据中心面向服务设计的基础,对数据中心基础设施资源配置起决定性影响,业界通过对与其上部署业务可用性相匹配的基础设施(电源配电、暖通空调以及其他的相关系统)进行等级划分,满足业务系统可用性需求。本文主要通过对数据中心承载业务可用性分级的研究,探讨其对数据中心基础设施建设的影响。
2.1 数据中心分级概念
数据中心构建设计非常复杂,集建筑、结构、电气、暖通空调、给排水、消防、网络、智能化等多个专业技术于一体。为了更好地区分不同数据中心的安全及可靠性,给管理者、运营人员及客户更清晰的数据中心定位,数据中心的等级划分就成为数据中心建设的一个重要问题。目前国际及国内都有相关的标准或规范对数据中心的等级进行划分,这些等级划分主要基于数据中心的基础设施层面,对不同等级的数据中心提出了不同的要求。通常数据中心等级划分考虑的基础设施主要包括建筑结构、电源保障、空调系统等几个方面。
2.2 数据中心分级的国际标准
TIA-942等级划分及Uptime等级划分是目前国际上影响力最大的数据中心分级标准。
(1)TIA-942分级
美国通信工业协会(Telecommunications Industry Association,TIA)发布的NSI/TIA-942-2005《Telecommunications Infrastructure Standard for Data Centers(数据中心的通信基础设施标准)》,是国际上第一部较为全面的、以数据中心为对象的技术规范标准,该标准规范了数据中心机房场地、供电、冷却、安防、地面承载、接地、电气保护以及其他工程和建筑上需要满足的条件,为数据中心机房的设计和安装提供要求和指南,已成为通信与信息行业建设数据中心的国际标准。
该标准将数据中心分为4个等级。
· T1级:最基本的数据中心,即基础设施没有冗余部件。
· T2级:部件冗余,即关键设备冗余配置。
· T3级:可在线维修,即有多余的备用组成部分。
· T4级:故障容错,使数据中心具有维持意外故障发生或者运行错误时,不发生运行中断的能力。
(2)Uptime分级
Uptime组织成立于1993年,是全球公认的数据中心标准组织和第三方认证机构。由于TIA-942涉及的一系列标准颁布于不同时间,内容多有相互覆盖,为使这些标准更易于落实,并具备可执行性,Uptime组织将上述国际标准中涉及的信息机房可用性的内容进行研究、归纳、整合,形成一套连贯的技术标准。基于这样的具有可执行性的标准,定义出数据中心的可用性等级(以 TierⅠ、Tier Ⅱ、Tier Ⅲ、Tier Ⅳ等级命名)以及与之配套的等级认证程序。
目前Uptime等级认证是数据中心业界最知名、权威的认证,在全球范围得到了高度的认可。
TIA-942与Uptime的分级基本一致,但在细节上有所区别。
从根本上来说,TIA-942是对数据中心的规范性标准,对数据中心各方面进行规定和要求,并提出相应的分级标准,但仅作为指导,并不作为认证的依据;而Uptime是从认证角度出发,更多地考虑了可操作性,更加全面和灵活。
2.3 数据中心分级的国内标准
目前涉及数据中心分级的国内标准主要有:GB 50174《数据中心设计规范》、YD 5193《互联网数据中心(IDC)工程设计规范》及YD/T 2441《互联网数据中心技术及分级分类标准》3部标准。
(1)GB 50174《数据中心设计规范》
该规范目前正在修订,是在数据中心分级相关的规范中影响最大、规定最为全面的一部规范。其主要将数据中心分为A、B、C 3类,并对每一级别数据中心的基础设施进行了不同的要求,设计时应根据数据中心的使用性质、数据丢失或网络中断在经济或社会上造成的损失或影响程度确定所属级别。
符合下列情况之一的数据中心应为A级:
· 电子信息系统运行中断将造成重大的经济损失;
· 电子信息系统运行中断将造成公共场所秩序严重混乱。
符合下列情况之一的数据中心应为B级:
· 电子信息系统运行中断将造成较大的经济损失;
· 电子信息系统运行中断将造成公共场所秩序混乱。
不属于A 级或B 级的数据中心应为C级。
在同城或异地建立的灾备数据中心,设计时宜与主用数据中心等级相同。
(2)YD 5193《互联网数据中心(IDC)工程设计规范》
该规范对于IDC的分级要求如下。
· IDC应根据运营需要分为不同级别,可划分为A、B、C 3级,不同级别对外可在可靠性、绿色节能、安全性、服务质量和服务水平等方面予以区别,对内可在各子系统技术要求方面有所区别。
· IDC内所装业务系统的运行中断将造成重大损失的,IDC应为A级;IDC内所装业务系统的运行中断将造成较大损失的,IDC应为B级;不属于A级或B级的IDC应为C级。设计时应根据IDC的业务需求确定所属级别。
· 一个IDC内的不同部分可根据业务需求按不同的标准进行设计。
该规范主要从 IDC承载的业务系统的重要性,即:中断运行是否会造成重大损失进行等级划分,并且对各级别对应的机房、机架、电源、空调、送风、网络架构、服务质量等进行了描述,A级IDC网络可用性大于或等于99.99%;B级IDC网络可用性大于或等于99.9%;C级IDC网络可用性大于或等于99.5%。
(3)YD/T 2441《互联网数据中心技术及分级分类标准》
本标准从绿色节能、可靠性和安全性3个方面提出了对IDC分级分类的技术要求。
绿色节能部分按照能源效率、节能技术和绿色管理3个方面的具体项目进行打分,并根据总分得到该IDC对应的等级Green1~Green5,简称G1~G5,其中G1为最低等级,G5为最高等级。
可靠性部分按照机房位置选择、环境要求、建筑与结构、空气调节、电气技术、电子信息设备供电电源质量要求、机房布线、环境和设备监控系统、安全防范系统、给水排水、消防、网络结构、机架要求和服务质量共14个方面的具体指标和要求,得出IDC的可靠性方面的等级 Reliability1~Reliability3,简称R1~R3,其中R1为最低等级,R3为最高等级;R3级IDC的业务可用性大于或等于99.95%;R2级IDC的业务可用性大于或等于99.9%;R3级IDC的业务可用性大于或等于99.5%。
根据YDB 116《互联网数据中心安全防护要求》和YDB 117《互联网数据中心安全防护检测要求》的要求,IDC的安全等级划分为Security1~Security5,简称S1~S5,其中S1为最低等级,S5为最高等级。
2.4 现阶段数据中心的分级标准应用情况
目前数据中心分级标准中,以Uptime为主流,这是因为Uptime不仅从实际的可操作性及便利性角度出发,对数据中心进行了合理、细致的等级划分,并且有一套完整的认证体系,因此在世界范围内得到广泛的认可及应用。
国内数据中心的等级划分基本以 GB 50174《数据中心设计规范》为依据,国内数据中心的划分基本与Uptime分级标准对应:C级数据中心基本对应Uptime Tier I,B级数据中心基本对应Uptime Tier Ⅱ,而A级数据中心基本对应Uptime Tier Ⅲ和Tier Ⅳ,但在细节上又有所区别。
数据中心承载的业务种类多种多样,按照应用类型可以分为网络系统、支撑系统、业务系统、安全系统等。业务具有需求多样性特点,各种业务特点不同,对及时、安全、可靠等方面的要求各不相同,如图1所示。
图1 业务系统需求示例
业务分级可以从不同的维度来划分,如可以从维护、管理、业务等方面进行划分。从维护角度来看,可根据运维人员的技术资质、运行监控系统功能、运维流程等划分为不同级别;从管理角度来看,可根据客户服务内容、流程和客服指标等划分为不同级别;从业务角度来看,可根据业务功能、性能、可用性等划分为不同等级,其中业务可用性对基础设施资源配置起决定性影响。
3.1 业务可用性概念
可用性是在某个考察时间,系统能够正常运行的概率或时间占有率期望值。一般用来衡量应用系统可用性的标准,即X个9,X=3, 4, 5。X个9表示应用系统在1年时间内运行,系统可以正常使用时间与总时间(1年)之比,如下计算可以看出不同可用性级别的差异。业务分级示意如图2所示。
图2 业务分级示意
· 3个9:(1−99.9%)×365×24=8.76 h,表示该应用系统在连续运行1年时间里最多可能的业务中断时间是8.76 h。
· 4个9:(1−99.99%)×365×24=0.876 h=52.6 min,表示该应用系统在连续运行1年时间里最多可能的业务中断时间是52.6 min。
· 5个9:(1−99.999%)×365×24×60=5.26 min,表示该应用系统在连续运行1年时间里最多可能的业务中断时间是5.26 min。
目前一般业务系统的可用性都只考虑3~5个9。
3.2 电商网站业务分级
对于电商网站,用户体验是第一位的,系统稳定运行是保证用户良好体验的基础。在资源有限的条件下,采取对系统进行级别划分的方式,对高级别系统保持重点关注,在设计、部署、监控等方面确保高级别系统具备良好的伸缩性、顽健性和敏感度,能够应对电商业务中不确定的极限峰值冲击。
例如某电商网站基于可能对用户产生影响的程度与敏感度,将所有应用系统分为三级,简单描述见表1。
表1 某电商网站应用系统等级划分标准
依此标准,某电商网站的一级系统主要包括卖场系统、商品详情、价格系统、库存系统、促销系统、购物车、交易系统、支付系统、会员系统等。二级系统则包括商品信息系统、订单系统、ERP(enterprise resource planning,企业资源计划)、仓储系统、物流与干线运输系统等。三级系统主要包括结算系统、报表系统以及运营、活动管理类系统。
3.3 IDC业务可用性分级
从行业层面来看,目前业内对 IDC分级没有统一的标准。从企业层面来看,社会IDC普遍没有IDC等级管理机制;运营商企业自行设置企业内部IDC分级标准,逐步实现了IDC分级管理。按照地理位置、硬件设施、网络条件、服务水平、人员配备等因素,将全国的IDC分为4~5个不同等级,在每个等级中提供了不同的服务承诺,从而面向政府、企业和零散客户等提供不同业务的需要。
3.4 公有云业务可用性分级
公有云针对企业客户(大型企业、互联网企业、中小企业)和个人客户(MM开发者、个人)提供服务,不同客户的需求是多样化的。公众服务云目标用户分析见表2。
表2 公众服务云目标用户分析
根据公有云业务的可用度划分,可将不同公有云业务分为高、中和低3个等级:A级为高等级,业务可用度为99.99%;B级为中等级,业务可用度为 99.9%;C级为低等级,业务可用度为99.5%。
数据中心由许多复杂而庞大的系统组成,如电力、空调、通信,数据中心作为承载业务的重要IT基础设施,承担着稳定运行和业务创新的重任。在对业务进行可用性分级的前提下,根据不同等级的业务,对数据中心提出了不同的要求。
数据中心可以简单认为由两个层面组成:IT层面和机房设施层面。其中基础设施包括电源和机房环境(机房、空调、消防等)资源;业务系统包括网络资源、计算资源和存储资源等,将各种资源简化为串联关系,具体如图3所示。
图3 业务系统组成示意
对于每类业务来说,可将机房电源系统、机房环境和业务系统等简化抽象为串联关系的计算模型,采用AGREE算法进行可用度指标分配,这个方法是美国电子设备可用性顾问团(AGREE)首先提出的。在该方法中假设设备的故障时间符合指数分布,系统由k个子系统组成,现在要由系统的可用性指标值确定各子系统相应的可用性指标值。
第 i个子系统的复杂度与其组成单元数量、技术水平有关,用iλ表示,若给不出确切的统计数值,还可用经验评分法确定之。第 i个子系统的重要度是引起系统故障的某子系统的故障概率与该子系统的故障概率之比。若给不出确切的统计数值,还可用经验评分法确定之。若某子系统的所有故障均导致系统发生故障,则此时该子系统的重要度Wi=1。
其中,ti为第 i个子系统的任务时间,mi为第i个子系统的平均无故障工作时间。
考虑子系统的重要度之后,把系统变成一个等效的串联系统 则可用度RS可以表示成:
将式(4)代入式(3),则系统可用度 RS可表示成:
考虑子系统复杂度之后,采用对比等分配方法,有式(6)成立:
因此第i个子系统平均无故障时间为:
根据式(7)求出某子系统的平均无故障工作时间,再代入式(2)便求得子系统的可用度分配值。
该算法的核心思想为可用度指标不是均匀分配给各子系统,而是根据各子系统的复杂性、重要性等因素进行加权:复杂度高的子系统分配的指标低,复杂度低的子系统分配的指标高;重要度高的子系统分配的指标高,重要度低的子系统分配的指标低。
针对上述可进行业务分级的 IDC、公有云等业务,通过该算法可以得出基础设施的可用性指标,进而得出基础设施的配置要求,从而更好地满足不同等级业务的需求。
如对于高等级的业务来说,对数据中心的可用性提出了较高的要求,可以通过设备的可靠性、合理的规划和良好的组织管理来提升数据中心基础设施的高可用性,可着重从建筑结构、电气系统、空调系统、综合布线等角度采取相应的技术设施提供高可用性。
通过分析国内外数据中心分级标准来看,国际上数据中心分级大多以Uptime分级作为公认的标准;国内比较权威的是GB 50174《数据中心设计规范》,但需要注意的是,国标编制过程中有国内互联网企业参与,有些等级的要求更多地向互联网企业倾斜,运营商需要结合自身需求来选择建设规范标准。目前主流运营商或者互联网企业的数据中心都是按照 Uptime Tier Ⅲ+或 GB 50174的A级标准来建设的,而按照这个等级建设数据中心需要巨大投资。
针对数据中心承载的各类业务系统,尤其是互联网应用、IDC和公有云业务等,考虑到业务在安全性、重要性等方面有所差异,建议可考虑根据可用性进行分类、分级,为用户提供不同等级的服务,同时也可以对数据中心基础设施的配置进行相应调整,对可用性指标要求低的业务系统,适当降低建设标准,从而降低建设成本。
随着云计算和大数据技术的引入,对业务连续性衡量的标准已经从单纯 IT 领域的容灾备份上升到了保障业务持续运行的层面。在成本允许的情况下,建议对非强一致性的业务应用进行分布式架构改造,不仅可以实现业务规模的负载均衡,有利于业务规模的扩展,也同样起到了灾备作用,保证了业务的连续性,降低了灾备成本。对于实现同城多活数据中心,包括传统的“两地三中心”(裸光纤距离不超过 40 km的情况下),在原有基础设施基础上可以适当考虑降低建设标准。
[1] 工业和信息化部. 数据中心设计规范: GB 50174 [S]. 2015. Ministry of Industry and Information Technology. Design specification of data center: GB 50174 [S]. 2015.
[2] 工业和信息化部. 互联网数据中心技术及分级分类标准: YD/T 2441[S]. 2013. Ministry of Industry and Information Technology. Technology and classification criteria of internet data center: YD/T 2441[S]. 2013.
[3] 工业和信息化部. 互联网数据中心(IDC)工程设计规范: YD 5193[S]. 2014. Ministry of Industry and Information Technology. Engineering design specification of internet data center(IDC): YD 5193[S]. 2014.
[4] 宋保维, 李彩霞, 毛少勇, 等. 并联系统可靠性分配的模糊层次分析法[J]. 火力与指挥控制, 2009, 34(12): 151-153. SONG B W, LI C X, MAO S Y, et al. Fuzzy hierarchical analysis for reliability allocation of parallel system[J]. Fire Control and Command Control, 2009, 34(12): 151-153.
[5] 郝晓峰. 复杂机械系统可靠性分配最优分配方法的研究[D].沈阳: 东北大学, 2008. HAO X F. Research on optimal assignment method for reliability assignment of complex mechanical system[D]. Shenyang: Northeastern University, 2008.
[6] 李丹, 刘方明, 郭得科, 等. 软件定义的云数据中心网络基础理论与关键技术[J]. 电信科学, 2014, 30(6): 48-59. LI D, LIU F M, GUO D K, et al. Fundamental theory and key technology of software defined cloud data center network[J]. Telecommunications Science, 2014, 30(6): 48-59.
[7] 孙振正, 龚靖, 段勇, 等. 面向下一代数据中心的软件定义存储技术研究[J]. 电信科学, 2014, 30(1): 39-43. SUN Z Z, GONG J, DUAN Y, et al. Research on software defined storage technology for the next-generation data center[J]. Telecommunications Science, 2014, 30(1): 39-43.
[8] 辛晃, 易兴辉, 陈震宇. 基于 Hadoop+MPP架构的电信运营商网络数据共享平台研究[J].电信科学, 2014, 30(4): 135-145. XIN H, YI X H, CHEN Z Y. Design of telecom operators’ network data sharing platform based on Hadoop+MPP architecture[J]. Telecommunications Science, 2014, 30(4): 135-145.
雷鸣(1973−),女,中国移动通信集团设计院有限公司高级工程师,主要从事云计算、IDC领域的规划、咨询、设计等工作。
刘芹(1977−),女,中国移动通信集团设计院有限公司高级工程师,主要从事业务网、云计算领域的规划、咨询、设计等工作。
封铎(1973−),男,中国移动通信集团设计院有限公司高级工程师,主要从事支撑网、云计算领域的规划、咨询、设计等工作。
刘玲(1982−),女,中国移动通信集团设计院有限公司高级工程师,主要从事业务网、云计算领域的规划、咨询、设计等工作。
Research on the availability grading of business systems in the data center
LEI Ming, LIU Qin, FENG Duo, LIU Ling
China Mobile Group Design Institute Co., Ltd., Beijing 100080, China
By analyzing the grading status of data centers at home and abroad and the availability of business systems in the data center, business availability grading recommendations, and business system requirements and configuration recommendations for the data center infrastructure were proposed, thus making the data center infrastructure more rational and reducing the cost of data center.
data center, grading, availability
TN915.02
A
10.11959/j.issn.1000−0801.2017079
2017−01−13;
2017−03−22