我国数据中心布局与建设中的可靠性分析与建议

2021-03-30 15:54张红艳闫一新吴炜冯冠霖
电子产品可靠性与环境试验 2021年3期
关键词:数据中心可靠性建设

张红艳,闫一新,吴炜,冯冠霖

(工业和信息化部电子第五研究所,广东 广州 511370)

0 引言

数据中心作为信息化时代的关键基础设施,为信息数据存储和系统运行提供了平台支撑,是推进新一代信息技术产业发展的关键资源。数据流量的爆发式增长也使我国社会的数据中心需求持续提升。然而,近年来我国数据中心宕机事故频发,造成了严重的经济损失。在此背景下,数据中心的高可靠性逐渐成为人们关注的问题,对于数据中心布局与建设中的可靠性分析也显得尤为重要。

1 我国数据中心发展概况和可靠性简介

1.1 数据中心是信息化发展的关键基础设施

数据中心是传递、加速、展示、计算和存储数据信息的特定设备网络,简单来说就是专业级机房,其组成可分为场地层、设施层、IT硬件和IT软件,如表1所示。按照服务对象的不同,数据中心可以分为企业数据中心和互联网数据中心。在云计算、5G、人工智能、大数据、区块链和物联网等信息技术飞速发展的背景下,数据中心作为科技创新和技术应用的实体,大大地激发了数据要素的潜能,为我国数字经济的发展提供了有力的支撑。2020年3月,中央政治局常委会提出应加快数据中心等新型基础设施建设进度,这为数据中心的发展带来了新契机。随着云计算、边缘计算和超算的推进,边缘数据中心[1]、云数据中心[2]和超算数据中心[3]进入高速发展期,成为数据中心形态发展的新趋势。

表1 数据中心的4层架构

1.2 我国数据中心市场规模和发展空间巨大

信通院数据显示,2019年我国互联网数据中心 (IDC:Internet Data Center)业务的总体营收为1 132.4亿元,预计国内IDC市场规模在2020年将达到1 494.2亿元,同比增长30%以上,远高于全球平均增速。目前,互联网、云计算的高速发展是我国数据中心市场规模持续增长的核心驱动力,例如:在新冠疫情期间,基于云计算的远程教育、远程办公等产生了大量的用户需求。大量资本涌入数据中心的建设和运营市场,例如:中信建投、红杉资本、DCP德勤和中移集团等,极大地助推了数据中心投资建设热潮,大量的大型数据中心投入建设。据预测,我国在2025年将以48.6 ZB的数据量成为全球最大的数据圈,数据流量的爆发式增长使我国社会的数据中心需求持续地提升。

图1 2012-2020年我国数据中心市场规模变化

1.3 我国数据中心分布呈东部多于中西部的格局

数据中心的数量与当地经济发展情况密切相关,我国大部分互联网公司分布在一线城市,有较多时效性高的“热数据”需要处理,因此我国数据中心主要集中在北上广及周边地区,而中西部地区的数据中心建设需求主要面向时效性不高的“冷数据”。目前,京津冀、长三角和大湾区占据了整体市场50%以上的份额,2019年我国大型数据中心按各省市占比来看,广东、上海和北京分别达到21%、13%和10%。但北京、上海和深圳等一线城市近期陆续出台数据中心能耗指标管控政策,对新建数据中心投产规模形成制约。

1.4 数据中心的可靠性要求

数据中心承载着各个行业基础服务的底层保障,通常要求业务无中断,确保没有故障发生,一旦出现故障将会给数据中心的业务带来严重的损失。由此可见,数据中心运行的高可靠性至关重要。可靠性是指产品在规定的条件和时间内,完成规定功能的能力。产品两次相邻故障间的平均工作时间被称为平均故障间隔时间(MTBF),MTBF是衡量产品可靠性的关键指标。

1.4.1 我国数据中心可靠性等级划分

数据中心业务的飞速发展对其可靠性提出了越来越高的要求,特别是服务器、供电系统[4]和网络架构等关键环节的可靠性,因此现有的数据中心都不断努力提高可靠性水平,追求高可靠性等级认证。我国国家标准GB 50174-2017《数据中心设计规范》[5]根据数据中心的使用性质、数据丢失或网络中断在经济或社会上造成的损失或影响程度确定了A、B、C 3个级别,其中,电子信息系统运行中断将造成重大的经济损失或公共场所秩序严重混乱的数据中心为A级;电子信息系统运行中断将造成较大的经济损失或公共场所秩序混乱的数据中心为B级;不属于A级或B级的数据中心为C级。

1.4.2 相关国际标准

在国际上,全球公认的数据中心标准组织和第三方认证机构Uptime Institute的主要标准“Data Center Site Infrastructure Tier Standard:Topology”

和 “Data Center Site Infrastructure Tier Standard:Operational Sustainability”是数据中心基础设施可用性、可靠性及运维管理服务能力认证的重要标准依据。Uptime TIER等级认证基于以上两个标准,是数据中心业界最知名、权威的认证。Uptime TIER数据中心等级认证体系分为Tier I—Tier IV 4个等级,其中Tier IV最高,如表2所示。

从表2中可以看出,最低级的Tier I允许平均每年有28.8 h的故障时间,而最高等级的Tier IV只允许平均每年48 min故障时间。

表2 Uptime TIER等级分类

1.4.3 数据中心可靠性等级的设定

在数据中心的级别设定时,随着级别的上升造价也会随之增加,因此通常在造价和业务要求之间找到平衡点。以金融行业的数据中心为例,瞬时的中断也会导致不可估量的经济损失,因此银行业的数据中心一般设定为A级并参照TierⅢ或TierⅣ设计。

注:在本文第三部分中,数据中心建设的可靠性与1.4中定义的可靠性相一致。而第二部分数据中心布局的可靠性与1.4中定义的可靠性略有不同,前者更多地是指数据中心的安全性、连续服务能力和整体灾备能力。

2 我国数据中心布局中的可靠性问题分析与建议

2.1 我国数据中心布局中的现状分析

2.1.1 宏观层面

2013年工业和信息化部、国家发展改革委、国土资源部、国家电力监管委员会和国家能源局联合发布了《关于数据中心建设布局的指导意见》,指出数据中心的建设和布局应以科学发展为主题,引导市场主体合理选址、长远规划、按需设计、按标建设,逐渐地形成技术先进、结构合理、协调发展的数据中心新格局。

整体来看,我国数据中心正逐渐地形成京津冀、长三角和珠三角等核心区域协调联动,内蒙古、贵州等中西部地区快速发展协同补充的全面发展格局。但当前,我国不同地区的数据中心仍存在供求不平衡的现象。一线城市的数据中心处于相对饱和状态,上架率在70%以上,售卖率在85%以上,由于一线城市的互联网企业、金融企业和政府等客户的需求量较大,目前仍存在“供不应求”的现象,上海市2019年的数据中心机架需求规模超过41万架,而在用数量仅有38.4万架。一线城市指标受限且综合成本较高,一些互联网企业积极布局其他地域,例如:京东将数据中心选址在宿迁,阿里布局张北、广东河源等地。相反,二线城市的数据中心由于骨干网等基础设施、交通和建设运维人才等因素的欠缺,需求未能很好地激发,存在“供过于求”的现象,西部地区的数据中心空置率普遍高于50%。

2.1.2 微观层面

数据中心的合理布局对于其可靠性的提升至关重要,例如:商业银行信息系统对于可靠性、连续性和灾难恢复能力要求极高,数据中心是一项影响信息系统可靠性的关键因素,合理的布局能够有效地提高商业银行信息系统的可靠性。随着数据中心的出现,商业银行的系统应用从全国各地集中到了北京、上海等核心城市进行统一管理,实现了从上而下的标准化统一,提高了总部的管控能力和信息化水平。数据的集中化管理也暗藏着巨大的风险,若公司总部的数据中心出现问题,将会严重地影响其业务运转,2015年5月,杭州市萧山区某光缆被市政施工队挖断,导致支付宝一个主要的机房受到影响,随后全国部分用户约2 h无法使用支付宝。为了降低信息系统服务异常导致的业务中断风险,银监会对各个商业银行的可靠性管理提出了监管要求,明确商业银行应建立多个数据中心并将业务部署在其中,从而提高信息系统对灾难的抵御和恢复能力。

2.2 关于我国数据中心布局的可靠性提升建议

从宏观层面来看,数据中心的建设不能一哄而上、盲目跟风,应当科学规划,统筹全局,重视前期调研和可行性分析,综合评估建设成本、运营成本和用户规模等因素,建设具有高可靠性等级认证的数据中心。同时,数据中心的布局和建设也可以考虑与其他产业融合发展,例如:宝武集团将其软件业务剥离,成立宝信软件,后者现在已成为知名IDC服务商。再如:阿里巴巴的千岛湖数据中心采用湖水自然冷技术,将工业和景观用水与数据中心冷却用水结合,在不污染环境的前提下实现资源的最大利用,在真正意义上实现了科技、自然与城市的完美结合,加上千岛湖天然的优美景色,由此被称为“最美数据中心”。

从微观层面来看,数据中心从区域分布上可分为同城和异地,从数量上可分为双中心、三中心和多中心,大型企业自建的数据中心应当综合地考虑信息系统灾难恢复等级、业务部署方式和管控模式等因素,形成适合实际需求的整体布局规划,从而提高其可靠性,为信息系统的稳定运行提供可靠的场所和灾难恢复的能力。一个典型的案例是在2020年的双11期间,阿里巴巴集团副总裁、基础设施事业群负责人表示,阿里云有五大超级数据中心支持双11的交易高峰,包括南通数据中心、杭州数据中心、乌兰察布数据中心、张北数据中心和河源数据中心,阿里数据中心的整体架构从集中式转为分布式,在出现故障后可以实现1 min发现、1 min定位、1 min恢复,大大地提高了其数据中心的可靠性。

3 我国数据中心建设中的可靠性问题分析与建议

3.1 我国数据中心建设的现状分析

近年来,我国数据中心宕机事故频发,2014年7月20日重庆农商行数据中心发生重大火灾,整个机房全部烧毁,直接损失一个亿以上;2017年4月,拥有“信息黄埔”之称的北京邮电大学校园核心机房着火受损,众多北京高校校园网纷纷崩溃;2018年6月,北京亦庄某数据中心机房柴油机发生起火事故,原因是变电站改造期间限电25%,部分数据中心使用柴油发电机发电。

全球知名的数据中心标准组织Uptime Institute在2018年的调查表明,近年来数据中心提高了能源利用效率,实现了PUE值的降低,但因此牺牲了可靠性,近1/3的数据中心在过去的一年中出现了停电,而这一数据在2017年为25%。导致停机的三大原因是断电(33%)、网络故障(30%)和IT或软件错误(28%)。

面对数据中心的宕机事件,基础设施的冗余备份机制是实现数据中心高可靠性的基础。对于数据中心来说,冗余备份机制涉及的范围很广,从数据中心的外部来看,有传输链路的双路由、供电线路的双路由;从数据中心的内部来看,有网络架构的双路由、服务器的双机热备等。一些企业甚至备份了整个数据中心,主数据中心与辅助数据中心之间存在物理隔离,在两个或多个数据中心复制工作负载和数据,为企业的数据中心使用提供了更高的可靠性。

值得一提的是,近年来虚拟化技术的兴起大大地提高了设备、系统和网络的可靠性。大规模的设备虚拟化建立了资源池,模糊了IT设备之间物理链路的概念,从而在设备异常或链路节点阻断的情况下,不影响整个系统的运行。

从发展趋势来看,我国数据中心建设正经历数字化和模块化转型。数据中心的建设包括规划设计、建造施工、运营维护和改造扩建等。随着建筑信息模型(BIM)和计算流体动力学(CFD)的发展,数字化模拟已经成为数据中心建设乃至全生命周期中的标配,大大地降低了试错成本,提高了数据中心多环节的协同度。传统数据中心漫长的建设周期和业务上线时间无法满足企业的基本要求,模块是集成了供配电、制冷和机柜等功能的独立运行单元,数据中心的模块化可以实现快速部署、分期建设和动态调整,完成了数据中心建设从工地到工厂的转移。模块化设计提高了数据中心的安全性、可靠性,也使得数据中心的建设可以在建筑层面复制,前期阶段是提高建设效率,后期则是提高建设速率,节省运维费用[6]。

3.2 关于我国数据中心建设的可靠性提升建议

面对频发的数据中心宕机事故,应当从数据中心的建设层面做好基础设施容量规划,保留必要的冗余,确保数据中心的高可靠性,同时避免空间资源的浪费。同时应当加强数据中心建设过程中的可靠性提升技术攻关,总结提炼数据中心的可靠性提升整体解决方案,开展应用推广,形成具备推广价值的数据中心建设典型案例,打造标杆,最终推动数据中心的可靠性提升。

此外,目前我国数据中心建设与验收体系还不够完善,应当针对新建、在用数据中心的规划建设、等级评定和风险评估等不同的需求,借助专业机构和平台,在国内数据中心建设过程中推广数字化模拟和模块化建设,并提供咨询培训、验证测试、运维评估和软件测评等全生命周期的第三方技术保障和服务,提升数据中心全生命周期运营的可靠性。

4 结束语

本文介绍了我国数据中心的发展概况与可靠性要求,分别从我国数据中心的布局与建设两方面进行了可靠性问题分析,并提出了可靠性提升的建议,对于今后我国数据中心的合理建设与布局有一定的参考意义。

猜你喜欢
数据中心可靠性建设
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
自贸区建设再出发
可靠性管理体系创建与实践
关于建立“格萨尔文献数据中心”的初步构想
合理使用及正确测试以提升DC/DC变换器可靠性
基于IUV的4G承载网的模拟建设
《人大建设》伴我成长
保障房建设更快了
5G通信中数据传输的可靠性分析