董 雯,吕 威,赵亚晖(.中讯邮电咨询设计院有限公司郑州分公司,河南郑州450007;.中国联通河南分公司,河南郑州450000)
随着物联网、大数据、云计算的发展,数据正在以爆炸性的方式增长。根据市场调查机构Technavio公司的调研报告,中国数据中心市场有望迎来指数级增长,并预计在未来4年,年均复合增长率将接近13%。
近年来,我国数据中心的发展呈现大型化趋势,近3年建成的数据机房中超过10 000 m2的占比均超过30%,而且呈现逐年增多的趋势。随着数据中心规模的剧增带来了建设成本的大幅提高,建设一栋15 000 m2的T3级的数据机房楼平均投资4亿元左右。
由于数据设备的功率密度高,需要配置大量的动力设备,因此供电设施无论在建设成本,还是运维成本中的占比都大大增加。据统计,目前国内大型数据中心大多是按照T3等级建设的,其供电设施建设成本大都占总成本的50%左右(见图1),电费加上硬软件(其中主要是供电设施和空调设施)的运维费用已经占到总运营成本的60%左右(见图2)。
图1 T3级数据中心建设成本分析
图2 数据中心运维成本分析
目前大型数据中心普遍存在的问题是,建设时资本投入巨大,然而建成后供电设施普遍利用率较低,带来设备闲置、损耗增大、PUE居高不下等问题,造成了建设成本和运维成本的浪费。
本文调研了几个大型数据中心,通过对现有情况的调查和研究,找到供电设施利用率偏低的根本原因,通过分析,找到多种方法改善数据中心供电设施利用率,降低CAPEX和OPEX,提高投资有效性,实现供电设施的轻资产、低耗能目标。
为了深入了解大型数据中心的供电设施利用率现状,对某通信运营商的数据中心进行了详细的现场调研和基础数据收集,主要数据见表1。
调查显示,目前数据中心存在的主要问题是利用率低,从机房到服务器的利用率都不高,从表1中可以看出,5个数据中心均已投运超过3年,8栋数据机房楼中加电机架比率超过50%的有6栋,但是供电设施和空调设施利用率超过50%的只有2栋。
通过对数据中心A、B、E的详细现场调研,发现这3个数据中心投运均已超过3年,但是供电设施利用率大部分还不到30%。有的机房虽然机架已经装满,但是电源设备负载率也不高,说明有些机房虽然装了不少机架,但是每个机架中服务器的安装率不高,或者是服务器承载的业务量不高,多种原因导致了数据中心供电设施的利用率偏低。
某互联网公司自建数据中心是在2013年建成并投入使用的,到2015年底机房全部装满,机架安装率也达到设计要求,运行至今,机架平均功耗只有额定功耗的70%,供电设施的利用率也只有70%左右。
某工业用户自建数据中心是在2015年建成并投入使用的,目前机房的空间利用率达到70%以上,机架安装率也基本达到设计要求,运行至今,机架平均功耗是额定功耗的80%左右,外市电、油机、冷水机组等基础设施的利用率是设计容量的60%左右。
为了分析供电设施利用率低的原因,对于不同客户机房的耗电数据进行了收集、整理和分析,试图发现客户类型与负载率直接的联系。另外,服务器承载的业务量与耗电量是什么关系?耗电量低是否由于服务器的业务量较低造成的?因此也收集了服务器的相关数据。
根据对不同类型客户机房的数据收集和分析,整理出了表2,由表2可以找出以下规律。
a)互联网客户的负载率普遍高于其他类型客户,平均运行负载率达到69%,满架平均负载率达到74%,但是各个客户间的差异比较大,低至44%,高达92%。
b)其他类型客户的运行负载率普遍较低,平均运行负载率只有41%,满架平均负载率只有61%。
表2中的“满架功耗”来源于每个机房的现有机架功耗,如果有满架设备,就按照满架设备的平均功耗来计列;如果没有满架设备,则根据现有机架功耗和机架内服务器的装机率计算后得出的数据。
表1 某运营商自建数据中心供电设施利用率统计
表2 不同类型客户机房用电负载率汇总
从表2也可以看出,不同机房机架的满架负载率差异很大,低的还不到50%,高的超过90%。经过分析,认为主要是由于机架内服务器承载的业务量不同造成的,因此调查了几个主流服务器提供商,表2是服务器厂商提供的试验室数据,可以看出,业务量为零时,服务器的耗电负载率大约在50%以下;业务量为50%时,耗电负载率在60%~90%。因业务量的不同,不同厂家不同型号服务器的耗电负载率差异很大,这与表3所反映的情况也是吻合的。
图3示出的是业务量与耗电负载率关系。
但是在实际运行中,业务量和实际功耗的关系,会受到不同机型、配置、散热等多方面影响,与试验室的数据也不完全一致。服务器的额定功耗一般是在较高的温度(45℃或55℃等,各厂家有所不同)环境下测试得出的功耗,而机房平常工况下(25℃左右)满载峰值功耗与额定功耗相差15%~20%,温度越高,配置越高,实际功耗越接近额定功耗。另外,不同机型、不同配置产生的功耗不同也是显而易见的。
表3 业务量与耗电负载率关系
图3 业务量与耗电负载率关系
现网运行的服务器,由于运行工况不同,耗电负载率不同,导致不同机房机架的满架负载率差异很大,并且一般情况下,均达不到服务器的额定功耗。
从表1中看出,五大数据中心中只有数据中心C的2栋机房楼的加电机架比率超过80%,另外4个数据中心的6栋机房楼的加电机架比例都在65%以下,加电比例超过80%的机房楼只占25%。
目前数据中心IT设备运行中存在的主要问题是低负荷率导致的低能效,数据中心所处理的数据量往往浮动较大,很多时间设备都处在较低的工作负荷下,能源利用率下降带来的能源浪费非常大。
从表2中看出,16个机房中运行负载率超过80%的只有2个,满架平均负载率超过80%的只有4个,其中一个主要原因是服务器的平均利用率很低,这是国内外数据中心行业普遍存在的问题。
经过调查分析,造成服务器利用率低的主要原因有以下2个方面。
a)由于技术门槛或资金门槛的限制,未采用云计算技术。除大型互联网公司以外的大多数客户机房还属于传统的数据中心,未采用云计算技术,无法采用虚拟化技术来提高服务器的平均利用率。
b)大型互联网公司已经掌握了云计算技术,但是出于各种原因,在部分机房没有采用,导致服务器的平均利用率依然很低。
当前数据中心正面临资源利用率与应用服务质量之间的矛盾:一方面,在数据中心服务器上同时运行多个应用能有效提高资源利用率,节省成本;但另一方面,多个应用共享资源相互干扰,影响应用的服务质量,降低营收。目前数据中心为了保障营收,而牺牲了资源利用率,造成大量成本浪费。
谷歌的数据中心技术是全世界领先的,但是据调查,谷歌在线应用数据中心的CPU利用率也只有30%,而其离线批处理数据中心的CPU利用率却可以达到75%,有没有可能把这两类数据中心统一起来,使整体利用率提高到75%?当前流行的虚拟化技术可以让多个应用或虚拟机共享一台机器来提高服务器资源的利用率。但是这种共享会带来资源竞争,进而干扰应用程序的性能,影响在线应用的响应时间。快速的服务响应时间是衡量服务质量的关键指标,是让用户满意、留住用户的关键。
因此当前大多数在线服务供应商为了保障用户请求的服务质量,不得不采用过量提供资源的方式,哪怕是牺牲了资源利用率。
对于数据中心来说,通信机房与供电、空调等配套机房面积合理分配,才能保证在通信机柜全部加电投运后,供电设备、空调设备达到合适的负载率,以便最大化地利用机房面积,避免通信机房已经满数量、满容量地安装机柜,但是供电、空调机房面积仍然存在剩余的情况。剩余的动力、空调机房面积由于较零散,往往不便利用。
大规模的数据中心,由于用电容量很大,一般需要自建110、35 kVA变电站,变电站的建设投资不菲,2路市电的引入线路费用更高,两者相加动辄上亿元,如果供电设施利用率低,导致自建变电站的容量得不到充分的利用,浪费投资;另一方面,数据中心一般引入2路市电,按引入市电容量收取的高可靠供电费也是不小的费用。
另外,数据中心内的供电设施、空调设施在总投资中的占比接近70%,如果利用率不高的话,对于投资的浪费是巨大的。
变压器、UPS、开关电源等设备的效率一般都随着的负载率的增高而提升。因此,供电设施的利用率低,会造成设备的效率低,散热量大,增大了空调配置,降低了数据中心的PUE,增大运营成本。
要改进供电设施的利用率,应从数据中心的规划、设计、建设、运行、维护、市场等各个重要环节出发,在规划、设计阶段,引入负载系数,精准配置供电设施;在建设阶段,提倡模块化、标准化的建设方法;在运行阶段,提倡采用虚拟化等提高运行效率的技术;在市场方面,提倡预先找到客户,采用定制化的建设模式。
通过上文的分析可知,服务器的额定功率PSERVER代表服务器的最大工作功率,即在较高的环境温度下,设计满配置(CPU、内存、硬盘等全满配置),CPU、内存和硬盘等设备全负荷100%速度工作时所能消耗的最大功率,而服务器使用过程中这种工况是非常罕见的,因此,如果直接将服务器的输入功率(消耗功率)作为设计功耗,会导致设计功耗偏高,从而导致机电设备配置冗余偏高。但实际运行中,环境温度比较低,也很难保证所有服务器都同时达到较高的工作负载率,因此,在数据中心前期设计容量的规划时,一定需要考虑IT设计功耗系数。
另外,对于不同客户,比如说,互联网客户和普通政企客户,运行负荷率的差异比较大,可以根据客户的类型再引入客户类型系数;同时,还要考虑是否采用云计算,采用云计算技术的机房和传统IDC机房的负荷系数差异也比较大。
在数据中心的规划、设计阶段,一定要充分考虑上述这些因素的影响,具体项目具体分析,采用合适的负载系数,精确配置供电设施和空调设施,提高投资有效性,实现供电设施的轻资产、低耗能目标。
模块化数据中心是将一个大型数据中心分为多个机房模块,每个机房模块的供电设施和空调设施相对独立,各个模块可以根据需求分期建设、平滑扩容,既减少了初期投资,又提高了运行效率。
模块化数据中心的设计思路保证了其制冷、供电都以区域机柜为中心,其气流组织、供电配置都以区域为中心,对其余区域互无影响,因此可最大化地匹配不同客户的单机架功耗、安全等级等需求,保证数据中心的供电设施和空调设施能够高效、安全运行。
但是毕竟有些大型数据中心的基础设施无法实现全系统的模块化,如变配电系统、冷冻机组等,主要是由于单系统容量比较大无法按照单个机房来划分系统,或者能够划分系统但是会大大增加建筑面积和投资。因此需要充分考虑投资有效性和运行损耗,对于占用投资大,损耗高的系统尽量做到全模块化,每个模块与机房匹配,分期建设;对于占用投资小,损耗低的系统可以根据情况选择合适的建设规模,做到部分模块化,每个模块可以匹配几个机房或楼层,也能实现分期建设。
与模块化相关的另外一条建议就是实现标准化。针对各个机房模块的不同机架功耗,不同设计等级,将模块化的电源系统、空调系统等基础设施尽量统一成几种类型,分别适应不同的需求,实现按需配置,分期建设,快速实施。
大数据时代,业务的需求是不确定的、难以预测的,并呈爆发式、井喷式发展,数据中心的基础设施建设只有满足快速上线、灵活部署的要求,才能匹配大数据时代的业务发展。传统数据中心建设周期长,架构僵化,并不能很好地适应大数据的发展特点。采用模块化、标准化的建设模式,可以短时间就完成交付,弹性建设,帮助数据中心运营商快速在市场上抢占客户,增强了数据中心服务产品的市场竞争力。
采用标准化与模块化相结合,一次规划,分期建设,大楼主体及基础水电一次性建设完成,机房模块和配套基础设施则按需灵活部署,不但提高了供电设施利用率,同时有效降低了CAPEX和OPEX。
定制化数据中心也是数据中心的主要建设模式之一,主要根据数据中心用户如大型互联网企业、金融机构、云服务提供商等提出的具体需求,通过定制化的规划、设计、系统集成、运营管理一系列服务,从而实现数据中心从整体上端到端、系统化、精细化地适应客户需求,达到动力系统、空调系统等基础设施与客户机房设备的最佳匹配,在供电设施利用率、运行效率等方面大大优于传统数据中心。
相对于传统数据中心,定制化数据中心,需要预先找到用户,再按需建立。根据客户的需求来定制化建设数据中心,对于建设方来说,改进了供电设施利用率,高效运行、绿色节能;对于用户来说,不用再费心寻找合乎要求的数据中心,达到了最大的满意度。
因此采用定制化,也是改进数据中心供电设施利用率的一种有效方法,未来的应用会更加广泛。
“虚拟化”就是通过将一些应用从物理机迁移到虚拟机,并通过整合服务器和存储设备的方式来提高服务器的使用率,提高运营效率。
举个例子来说,服务器虚拟化的原理是,客户可将4个20%运行效率的服务器合并成一个80%运行效率的服务器。以表4中的基础数据来计算,虚拟化前后服务器的节电量可以达到60%以上。同时,服务器的数量也可以大大减少。
表4 虚拟化前后服务器节电量估算
当然,以上的计算数据比较理想,在实际中数据中心可以通过虚拟化节省30%~40%的电费开支。
6.6.1 采用数据中心基础设施管理(DCIM)工具
可以采用数据中心基础设施管理(DCIM)工具实现对供电设施利用率的进一步改进,DCIM工具采用统一的平台同时管理动力、空调等基础设施以及IT设备,并通过数据的分析和聚合,最大化数据中心的运营效率,提高可靠性。
智能管理、高效运营的DCIM工具能够实现数据中心多层级、精细化能耗管理,通过多种报表精确定位能源额外损耗点。基于大数据分析,输出节能优化方案,构建绿色数据机房。
6.6.2 精确配置服务器
从上文的分析可以看出,服务器的平均利用率很低,这是国内外数据中心行业普遍存在的问题。未采用云计算是其中的一个原因,另一个原因是所选择的服务器与实际应用没有很好地匹配,人们往往倾向于购买最新和最强大的技术,导致服务器的处理能力非常强大,远远大于实际需求,长期在低负载率下运行。
因此合理配置服务器和网络平台的大小也非常关键,这就需要对应用和网络流量的细节进行深入了解,再制定所需服务器的精确规格,采购性能匹配的服务器。如果需求规模较大,在综合评估了服务器的性能、耗电和总拥有成本后,也可以考虑采用定制服务器。
在习近平总书记所作的十九大报告中,明确提出“加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点,形成新动能”。当前,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。掌握与运用大数据的能力正日益成为衡量国家和地区经济社会发展程度的重要标志。
未来几年,随着大数据与实体经济深度融合的加快,数据中心将会获得空前的发展。云计算、虚拟化等技术正不断地为数据中心的发展带来新的推动力,并正在改变传统数据中心的模式。因此,更加需要关注供电设施的优化,应用灵活的规划设计与自动化工具来保证数据中心与业务目标保持一致,来应对大数据时代的新挑战。