文|安真
Facebook数据中心建设模式分析
文|安真
F a c e b o o k于 2011年发起开放计算项目(OCP,Open Compute Project),并不断更新其版本,试图让其定制的服务器、服务器电源形式以及三联柜模组能够成为市场主流的标准产品,并相应更改传统数据中心的供电供冷架构,推动服务器行业和基础设施行业的产业链发生巨大调整,从而改变现有的市场格局。
Facebook如此行为的动机和意义何在?他推行的数据中心会不会成为数据中心建设的典范和趋势?应该如何评价OCP的价值?本文围绕Facebook数据中心场地基础设施的架构,系统梳理分析了OCP的特点,发现Facebook的数据中心简单实用,具有很多独到之处,值得研习。
(一)Facebook定制服务器的配电架构简介
Facebook的数据中心没有使用市场在售的标准服务器,而是定制了特殊的服务器。这种服务器的电源形式与传统服务器存在一些差别,这是其开放数据中心的基础,也是其配电系统改革的支撑。
Facebook的服务器的供配电系统更简单,传统配电系统原有的UPS(包括整流、逆变等多项功能)及其相关的开关、电池、旁路等复杂的电气架构和控制系统统统不见了,供配电系统只剩下市政电源、柴油发电机、变压器和连接线缆了。很明显,这种电气系统大大减少了电力输配路径的多次交直流转换,减少了系统的组件、降低了系统的复杂程度,在大大降低成本的同时,也减少了电气损耗,为节能做出了一定贡献。
(二)Facebook定制服务器配电架构的可靠性分析
这让天天讨论可靠性的电气工程师们大吃了一惊,这种系统,可靠性能有保证吗?可是,我们研究一下Facebook的公开材料,就会发现Facebook并不承认他的供电架构会降低可靠性,其提供的可靠性计算见下图:
在Facebook公开的计算书中,我们可以看到,在基础数据基本相同的情况下,传统数据中心是4个9,OCP则是6个9,OCP的可靠性明显高于传统机房。这个计算结果引起了不少从业人员的怀疑。果真如此的话,传统的UPS不是白设了吗?是他的计算有问题,还是他不会算,抑或是算错了吗?
理论上,他的可靠性计算是没有问题的,可靠性计算原理和方法都是正确的,其对比也沿用了数据中心常规的对比方法,即只比较了场地基础设施电气系统的可靠性。这种对比是针对传统机房的,对比计算中不涉及服务器等硬件设备,因为在传统算法里大家默认使用的是同样的、可靠性相同的标准服务器。的确,当服务器的可靠性对结果的影响是相同的时候,我们确实只需要对比基础设施侧的系统架构,这会让问题变得简单一些。
但是,我们需要关注的是Facebook的服务器改变了,供电架构中的电池以串联的形式出现在系统的最后一级配电中。也就是说电气系统里最容易出故障的电池,被他组合在服务器里了,电池没有在他的供电系统内出现,也不属于上述供电系统可靠性的计算范围,所以,在他的计算过程中,没有体现出类似电池这种本应降低他的可靠性的组件。而传统方案里很多隔离电池、防止电池故障扩大到服务器的技术措施在计算中反而成了降低可靠性的复杂组件。
针对这种场景,只对比场地基础设施供电系统的可靠性,而不考虑电子信息系统的硬件设备的电源系统就显然不公平了。事实上,传统方案中,电池故障通常不会引起服务器或配电系统的中断,因为后一级的交直流转换、ups旁路、电气开关等组件都可以将故障的电池从系统中隔离出来,供配电系统很少会因为电池故障而中断。但Facebook特制服务器则不同,电池直接挂在最后一级的配电系统上,电池故障很容易扩展到服务器,导致服务器故障甚至宕机。众所周知,数据中心电气设备里最容易出故障的组件是电池,数据中心的很多故障都是因为电池故障出问题才引发的。综上,我们可以推断,Facebook服务器的真实故障率应该会高于传统数据中心。
(三)Facebook定制服务器配电架构的技术支撑分析
当然,Facebook的技术专家也不是不知道OCP的风险,但是,Facebook为什么还要坚持使用和推进呢?原因很简单,这么做,便宜。
的确,OCP的电气架构简单、高效、经济,可以大大降低建设成本和运维费用。Facebook又拥有强大的软件能力和领先的IT技术,有信心弥补其在可靠性方面的不足。也就是说Facebook的IT技术,特别是软件方面的高水平足以掩盖场地基础设施和IT基础设施的不足。服务器故障率高,并不意味着他的业务中断率高,其强大的IT技术保障,完全可以做到业务的快速转移,几台服务器的宕机,一两个模块的宕机,甚至失去一个数据中心,都不会大范围地影响其业务的行进,IT技术有能力迅速将业务从有故障的设备迁移到正常的设备上,甚至从一个DC转移到另一个DC中。站在客户体验的角度,客户甚至不知道他的业务曾经中断和迁移,不知道为他服务的IT设备已经从瑞典迁移到了美国。
同国外先进的数据中心相比,国内数据中心的IT技术能力特别是软件能力还有一定差距。我们从不断曝光的挖掘机挖断光缆,设施被雷电击中等事故导致长时间的服务中断都可以推断出,国内这些所谓的互联网巨头,并没有足够先进的技术能力,能够让业务及时从故障点迁移,因此局部故障往往会引发业务的中断,给企业带来巨大的负面影响。为了减少和避免类似事件的发生,数据中心只能在基础设施层面加大配置,用来提高可靠性。尽管企业需要为这些复杂的设施增加很多拥有成本,但也不敢轻易减配。
此外,某些金融行业和重要企业的总部级数据中心,业务重要程度很高,数据中心的运营不会把降低成本作为优先战略,他们不会采用这种服务器,也不会采用这种基础设施架构,国内如此,国外同样如此。
(四)Facebook定制服务器对行业的影响
Facebook的这种革新,固然能够降低自己的成本,但是显然不符合IT制造商的利益,对传统的生态链是有一定冲击的,小规模的订单是不足以让服务器供应商放弃标准服务器的生产,而接受这种非标产品的研发和定制。即使接受非标订单,价格也不会有优势。这也是Facebook愿意和广大企业分享他们创新的动力所在,他们希望能够有更庞大的订单,让更多的服务器制造商参与进来,让这种服务器价格降低,有点类似团购的性质。Facebook甚至希望这种服务器成为标准服务器,让尽可能多的服务器制造商充分竞争,以便获得更多的利益。
Facebook的服务器做法在业内也不算独创,google的做法也很类似,国外也还有很多运营商和互联网的机房,都在尝试这种做法。国内ODCC制定的天蝎计划也在尝试这样的套路。大家思路类似,细节各有千秋,都在尝试让数据中心变得更简单更经济。
总之,Facebook通过服务器的变更,让场地基础设施可以接受更简单的配置,让定制型服务器具备了实现标准化、模块化的基础;在业内大力推进OCP,渴望他们的服务器能够做为行业标准固定下来,并被更多的企业所接受。这种供配电的架构背后是需要有强大的IT技术做支撑的。
Facebook对业界的另一个贡献就是大胆使用风侧自由冷却,率先在大规模数据中心里放弃风管送风,将空调系统与建筑隔墙实现了完全融合。
(一)传统风侧自由冷却技术说明
直接风侧自由冷却是数据中心能耗最低的冷却方案,它对节能的贡献也是公认的。冷却方式与PUE的对应关系如下图所示(下图数据仅供参考,具体项目尚需重新计算):
尽管直接风侧自由冷却(直通风)并不是什么高新技术,但使用这种技术的数据中心客户并不多,主要原因有两个,一是环境难以精确控制,二是建设条件受限。室外的高温高湿会给服务器带来更多的故障,也会影响服务器的使用寿命,要想做到送风稳定、均匀和精确,就需要配置过滤系统、机械制冷系统和复杂的控制系统,这样会增加很多拥有成本。建设条件引发的困难就更难对付了,建筑场地、风管尺寸、风阀设置、产品采购等问题,都可能成为具体项目无法推进的理由。这些困难给很多试图采用直通风冷却的客户带来了巨大的挑战。
我们来看看传统的风侧自由冷却,大体布局是这样的:
图中的方案是以直通风AHU为主,水冷冷水机组为辅的风侧自由冷却方案。图中只画了一套AHU作为示意,事实上,一套完整解决方案需要一大堆定制的AHU,每台AHU都需要繁杂的风管系统,并配有新风阀、回风阀,阀门开度需要严格的自控协调才能实现送风的精确控制(大面积的风阀控制很难做到精准)。为了风管的实施,还需要在墙上开启无数的孔洞。这些可能漏风的孔洞又会给冷却效果和运营维护带来很多麻烦。当数据中心面积较大时,这么多的风管就更难布置了,有些时候,靠近中心区域的冷风引入和热风排除的路径都很难找到。此外,风侧自由冷却和气体消防也存在很多不兼容的地方,如果采用气体消防,风管穿越保护区域的时候,就不得不采用大量的防火阀,无疑会加大数据中心的投资和操作风险。在中国,还有空气质量的问题,比如严重超标的PM2.5和含硫量,也会引起初投资和运维费用的增加。
(二)Facebook风侧自由冷却技术说明
复杂庞大的设备和技术风险,让传统的直通风自由冷却技术变得很难推广。一向不肯在基础设施上投钱的Facebook当然不愿采用。既想有风侧自由冷却的节能效果,又想降低拥有成本,还不能太复杂,面对这些问题,Facebook是怎么做的呢?
Facebook通过调整服务器内部的布局、高度以及CPU数量,提升了IT服务器的功能,同时通过改善空气流通路径以降低风阻,可以让服务器安装直径更大的风扇,以提高通风量和风扇效率,这些技术措施尽可能的优化了其服务器自身的散热能力。当然,Facebook的数据中心选址也会尽量避免炎热的低纬度地区。
从服务器的角度来看,为了让自己的数据中心彻底告别机械制冷(Facebook的数据中心只有一个配备了DX冷却盘管),能做的好像也只有这么多了。每年的炎热季节,Facebook只能放宽进风条件,靠蒸发冷却进行适当的降温,然后让自己的服务器接受考验了。
建设条件的问题,怎么解决呢?Facebook采用了一个新颖大胆的创新方案,他抛弃了所有的AHU,采用无风管型通风系统,通过设置风墙,让风扇和建筑隔墙融为一体,其过滤、喷淋设施也和建筑隔墙融为一体,巨大的建筑走廊取代了风管。换句话说,定制的框架型风扇、湿膜冷却、过滤器像砖块一样,被砌筑在隔墙里,成了建筑隔墙的一部分。这样,他的系统不再出现麻烦的AHU、风管、风阀、孔洞;墙体不需要那么多砖块,空调系统也不需要钣金外壳,可谓节材到了极致;建设工序也变得更简单了。
同电气系统类似,Facebook的空调系统简单而又实用,不需要风管风阀、也不需要AHU,AHU的各个功能段被演进放大成了由一个个框架组成的墙体,这种形式不但投资低廉,而且施工简单,不需要砌墙然后再开孔,不需要排布风管,不需要特别精确的控制,调试也变得很简单,建设速度当然会更快捷。
(三)Facebook风侧自由冷却技术存在的问题
凡事有利必有弊,这种做法带来的麻烦就是,没有精确控制的送风,导致环境温湿度很容易失控。据说Facebook的数据中心确实因为湿度过高,出现过云雨的现象,导致大量服务器出现故障。此外,经常处于高温高湿下的服务器,即使没有马上发生故障,也会影响其使用寿命。鉴于互联网公司配置的服务器往往为经济型产品,更换周期也比一般企业要短,且随着IT产业的进步,服务器更迭换代速度很快,成本持续走低,因此服务器的寿命和故障就变得不是硬伤所在了。
这种方案的另一个弱点就是庞大的通风设施无法把IT区域分隔成若干个小房间,整个IT区域好像大型仓库一样,没有门,没有走廊。这种做法看起来很省钱,但会给管理造成很多麻烦,比如,人流、物流、IT运维、机电运维的路由交叉如何避免,比如局部事故如何避免扩散到整个机房等。此外,如此巨大的空间,是无法使用洁净气体进行消防的,一旦失火,其影响力度和面积都会很大。
总之,Facebook采用无风管的风侧自由冷却技术,在业内算是极大规模的应用,在数据中心冷却行业的确是一种大胆创新。这种方式最大的特色是建筑和冷却融合的一种新方式,而不是采用了某些革命性的新产品。直接风侧自由冷却的能耗很低,无风管系统的经济性也是显而易见的,但是,系统会带来一定的可靠性问题。同电气系统类似,这些问题在Facebook眼中,是可以依靠强大的IT系统去弥补的,他们有把握让基础设施简化引发的所有问题最终不会影响业务的连续性。这对于绝大多数成本优先的数据中心来说,IT技术还没有强大到这种程度,因此也不具备这种方案的实施条件。对于那些安全优先的数据中心就更没有必要采用这种方案了。
理论上,对任何一个工程来说,快速部署都不是问题,想要快,只要肯投入,一定是可以解决的,无论是工程方式还是产品方式都有很多成熟可行的技术措施。Facebook通过简单的基础设施架构、相对适宜的建设地点,重复的建设方案,让快速部署不需要投入太多就能实现。
(一)采用简单的基础设施架构,实现快速安装
Facebook数据中心部署速度之快在业内是出名的。数万平米的数据中心,十来个月就可以试运行了。Facebook数据中心能够快速上线投产的最重要的原因就是简单。
建筑本身没有传统的数据中心繁复,没有太多的隔墙,不需要结构降板,不需要架空地板,也没设置复杂的综合管架。
机电设施也比传统数据中心简单很多,其配电和制冷系统需要安装的组件,特别是只能现场制作的复杂组件,远远少于传统的数据中心。比如不需要冷机、UPS,空调机组等设备,也就没有连接的管路、阀门、线缆等工程内容。即使是那些需要安装的设备也属于重复性非常高、安装要求相对简单的设施(如定制的框架式风扇、湿膜加湿模块、框架式过滤模块等),这样就更容易实现工厂定制和快速安装。
瑞典的lulea是Facebook第一个不在本土的数据中心,建造管理相对困难,加之气候寒冷,可施工的季节短暂,数据中心可以快速部署的优势就显得更为重要。为此,Facebook定制了大量的预制组件,包括土建设施,机电设施,这些部件采用现场拼装的方式进行建设,大大提升了建设速度,取得了不错的效果。
(二)选择适宜的建设地点,实现快速建造
Facebook选址特意避开了土地资源相对匮乏的地区,这样可以采用经济性更好的单层钢结构的形式(尽管土地利用率较低),这在地广人稀的海外是非常多见的,是大规模厂房最简单最常用的土建模式,这样的建设方式的另一个好处就是它让施工作业面变得非常宽,无疑给部署速度带来了很多灵活性。
国内很多数据中心往往建在地价很高的城市,因为用地条件受限,只能采用多层建筑,投资会增加,方案选择也会受到一定局限。加之系统复杂,从设计到服务器上线往往高达24个月以上。有些建设甚至长达好几年,的确会限制企业的IT发展。很多企业也会因此放弃自建数据中心,而是采用随用随租的方式,利用第三方的数据中心完成自己的IT业务。
(三)采用基本类似的建设模式,实现快速复制
Facebook已经建成了四个数据中心,并投入使用,现在正在建设和规划其他的数据中心。
重复建设类似的工程,当然容易建得又快又好。Facebook的几个数据中心建造模式就基本雷同,都采用了定制的服务器设备、三联柜模组和供电模块,也配备了基本相同的供电供冷架构。他们都放弃了UPS,放弃了冷机,采用了直通风自由冷却这种散热方式。这给设计实施、产品采购、运维管理带来了极大的方便。先前工程的所有经验和教训都可以借鉴,确保越做越好。作为会多次采购的大客户,更容易获得性价比较高的商品;此外,对运维的好处则更是发挥到极致,数个数据中心的运维管理非常相似,运维机制可以完全照搬,运维演练流程,常见故障处理和判断,如何改进,如何评比都可以借鉴。
仔细研读Facebook的数据中心,我们可以得到如下启示:
(一)Facebook数据中心的可靠性保障更多依赖IT层的技术优势,而不是局限在场地基础设施。
数据中心业务的最大特点就是不能中断,一旦中断会造成重大损失。对绝大多数企业来说,基础设施是其可靠性的第一道防线,他们需要复杂可靠的基础设施来实现IT不宕机、业务不中断的需求。
反观Facebook,其数据中心的基础设施简单粗放,价格低廉,如果去做uptime认证,只能达到T1或T2的级别。但是,Facebook通过IT技术的管理和运用,弥补了基础设施方面的很多不足,数据中心整体功能还是能够满足其业务需要的。数据中心的性价比明显提高了。
关于性价比的另一话题就是传统的两地三中心和新兴的异地多活模式。为了保证业务的连续性,重要的数据中心必须考虑灾害发生时的业务转移,从一主一备两中心到两地三中心,再到异地多活多中心,这几种方式各有千秋,目前大型数据中心采用最多的就是两地三中心和异地多活。两地三中心的架构,相当于一套数据承载在三个数据中心之上,数据的备份相当于1+2,即3N配置,可靠性当然高,但投资也会很庞大。异地多活的架构,相当于让N+1个数据中心承载全部生产任务,当某一个数据中心发生故障时,其他的数据中心可以自动接管全部业务,从而保证业务的连续性,整个数据的备份相当于采用了N+1的架构。这种架构从经济上看当然更划算,但对业务迁移和资源配置的能力,特别是远距离的执行能力是一个巨大的挑战。如何选择,肯定要根据业务特点、业务规模、业务的重要程度、IT软硬件的架构等多因素平衡决策,绝不会全凭成本。
企业的战略方向不同,关注要点也不同,决策机制和结论也会有很大差异,数据中心完全仿效Facebook的模式进行建设显然是不现实的。尽管如此,我们还是要看到,当IT技术进步到了一定程度,对基础设施的依赖就会降低,所以未来的数据中心基础设施的可靠性要求应该会持续走低。
(二)Facebook的开源和简约风格,让数据中心建设变得更快更省,运维也更简单更高效,这些举措逼迫传统的基础设施供应商必须重新思考应变策略。
Facebook的数据中心取消了UPS和机械制冷,让供电供冷系统变得非常简洁,只剩下油机、变压器、风扇、冷却湿膜和风口等简单设施。基础设施的投资规模、运行费用、运行管理难度都会大大下降。这样的数据中心,业主自身的话语权很强,建设方案很明确,对产品的需求很清晰,几乎不需要花费额外的时间做研讨。作为传统基础设施的供应商,在这种项目里,不能使用标准产品,没有引导能力,没有技术门槛,产品功能又简单,要想参与,那就只能做他们的加工厂,采用非标定制的方式,降低利润诉求了。
基础设施的要求越简单,供应商的引导能力就越弱。随着IT行业的不断进步,未来的数据中心很有可能会进一步降低对可靠性的要求,对环境的要求也会进一步放宽。当Facebook的数据中心完全放弃常规的供冷供电产品,想要为他服务的基础设施供应商就必须重新定位,重新深挖自身价值了。
(三)Facebook的建设方案不能适合所有的项目,特别是他的空调方案不能适合全球。
虽然能够满足他自己的业务需求,但是Facebook的建设方案需要很多特定条件,但很多项目是没有办法完全照搬的,比如:未来不确定的项目不适合(供电架构只能针对定制服务器);需要分期建设的项目不适合(大空间无风管送风,分期困难);服务器昂贵且环境要求高的场景不适合(直接风侧自由冷却,无风管送风,无机械制冷,控制难以精确,湿热季节无法避免送风条件超标);采用标准服务器的项目不适合(供电架构只能针对定制服务器);改造的项目不适合(Facebook的空调方式决定必须要建筑先行);建筑面积受限的项目不适合(需要大空间送回风,空间利用率不可能太好);炎热地区不适合(无法实现全年无机械制冷);干旱地区不适合(没有水源,无法采用蒸发冷却);土地昂贵地区不适合(需要大空间送风,不宜采用多层建筑);室外空气质量不好地方不适合(含尘、含硫等)。事实上,瑞典lulea究竟适不适合也很有争议,因为离海边太近,空气中含有的Cl离子,据说已经对服务器有影响了
了解了Facebook的数据中心,如果你是数据中心的使用者,看到又便宜又简单的基础设施建设方案,却不敢学,不敢用,内心或许会很焦灼,怎么办呢?只能从顶层设计做起,改善IT能力才是王道。
如果你是场地设施从业者,看到复杂的数据中心已经成为一个粗糙的大工厂,可能会担心满腹经纶无用武之地了。的确,那些平时侃侃而谈的容错、在线维护、分布式冗余,模块化UPS、连续制冷等,在风墙面前好像都是洗剪吹了。没办法,这个世界唯一不变的就是变化。好在,IT的进步不是一朝一夕的事,绝大多数的非互联网企业也暂时不会考虑这种极端的建设方式,我们还有时间来思考我们的未来。
最后,总结一句,Facebook的数据中心建设方案,真的很快很便宜,但绝大多数数据中心是很难采用的。正是因为如此,我们无法完全照搬Facebook的建设模式,我们还是需要继续探讨更适合我国国情和现状的数据中心建设方案和模式。
作者单位:华为技术有限公司