数据中心的关键技术与发展

2013-08-09 08:22崔海东
电信工程技术与标准化 2013年6期
关键词:数据中心基础设施服务器

崔海东

(中国移动通信集团设计院有限公司,北京 100080)

随着社会各领域信息化水平不断发展,数据中心作为信息化的载体,重要性不断凸显。

巨大的需求使得数据中心正面临前所未有的挑战。高效、低成本、灵活、可靠、可扩展、绿色等都是数据中心演进的关键词,传统数据中心已经无法满足发展需要。在节能减排、云计算及IT技术的促进下,新一代数据中心正在迅速发展中。

1 数据中心概述

1.1 数据中心内涵[1]

数据中心在一个场所中聚集大量IT设备(服务器、存储设备和网络设备),实现数据信息的集中处理、存储、传输、交换和管理。数据中心的涵义有狭义和广义之分。狭义的数据中心主要指容纳IT设备的建筑物及建筑物内设施。广义的数据中心既包括建筑物及设施,也包括安装于内的IT系统,是将服务于公众或特定用户的业务系统与数据资源进行集中、集成、应用的场地、工具、流程的有机组合。

1.2 数据中心发展阶段

数据中心的发展大致经历了几个阶段。早期,计算机房是数据中心的原型。在运算委托时代,复杂、昂贵的主机系统安装在机房中,形成了最早的服务提供中心。随着个人计算机的普及,分布的计算资源有效促进了计算机应用和互联网诞生。互联网规模不断扩大、客户机/服务器计算模式逐步普及、Web服务不断丰富,应用委托模式日渐成熟,导致了互联网数据中心(IDC)快速兴起。可以说互联网推动了数据中心的发展。

随着信息化应用的不断拓宽,应用和数据集中成为一种趋势,集中了的应用和数据资源催生了数据和信息高度共享的数据中心。数据中心形成了IT集成和应用环境,成为数据计算、网络、存储的中心,成为各种IT应用的提供中心,实现了基础设施、业务应用和数据的统一运行维护管理。数据中心的建立成为IT应用与发展的里程碑。

1.3 数据中心架构

数据中心一般包含如下关键部分。

(1)基础设施系统:包括机房基础设施系统和IT基础设施系统。其中机房基础设施包括机房、供电系统、消防系统、空调系统、安防系统和布线系统等,IT基础设施系统包括网络系统、计算系统和存储系统等。

(2)IT应用系统:包括信息资源系统、应用支撑系统和具体的各种IT应用。信息资源系统包含各种结构化数据和非结构化数据,应用支撑系统提供各种平台服务。

(3)运维管理体系:提供数据中心的网络管理、资源管理、业务管理、运营管理等功能。

(4)安全防护体系:包括安全管理和安全技术。数据中心由于聚集了海量应用和数据,安全成为突出问题。一个完善的安全体系是数据中心正常运转的条件。

1.4 数据中心基础设施的业务价值

数据中心的价值是由IT应用体现的,而数据中心基础设施的业务价值则是由基础设施对IT应用的支撑所体现。

随着IT应用系统的集中化发展,IT应用对于数据中心基础设施的需求越来越体现在以下方面:连续运行的高可用性、快速响应需求变化的灵活性以及在全生命周期内建设和运营的总拥有成本(TCO),即

要整体提升数据中心基础设施的业务价值,就必须从提高可用性、灵活性以及降低总拥有成本3个方面入手。

1.5 数据中心发展

伴随着云计算、大数据等新技术、新应用的涌现,从数据大集中到多业务整合,数据中心的规模化发展成为未来发展方向之一。除了小型特色数据中心外,大型乃至超大型数据中心成为发展重点。

规模发展的同时,数据中心也成为能耗大户。减少数据中心能耗不仅能降低运营成本,更是企业社会责任的一种体现,以节能环保为目的的绿色数据中心成为趋势。

数据中心的“大”不仅体现在面积大、服务器多,还体现在业务种类多、业务处理量大、数据资源大。因而数据中心适应业务变化和发展的灵活性,又称为“弹性”,成为数据中心必备特性,是提升数据中心业务价值的重要抓手。

大规模、绿色、弹性成为数据中心发展需要面对的问题。没有一种单一的技术能完全解决这些问题,因而需要使用系统工程的方法,通过综合治理才有成效。

2 支撑规模发展的技术

大型数据中心是伴随着IT集中化和互联网业务高速发展而产生的。企业的IT应用从分散部署走向集中化,驱动了大型企业数据中心的建设。互联网业务,尤其是移动互联网业务的飞速发展,各类互联网业务对基础设施提出了巨大需求,驱动了大型互联网数据中心的发展。数据中心的规模发展从量变带来了质变,对基础设施提出了新要求。

2.1 云计算技术

云计算技术具有鲜明的技术特征[2]。云计算系统具有低成本、大规模特点,以低成本运算单元取代传统大型IT系统设备,降低IT系统的建设和扩容成本,同时通过软件技术实现大量低成本IT硬件单元协同工作,保证高可靠性。云计算系统具有平滑扩展能力,具备高度的扩展性和弹性,可以方便、快速地增加或减少资源。云计算系统具有资源共享能力,可提供多种形式的计算、存储、网络能力资源池,可为多种上层应用提供服务,同时实现资源的自动分配与管理。

由于大型数据中心的集中化、整合特性,其所承载的IT系统不能采用传统的烟囱式建设方式。烟囱式系统建设方式会导致资源难以共享、利用率低、标准程度差,建设和扩容成本难以控制。云计算技术的出现,可以云化数据中心需要承载的IT系统,使得建设和发展规模化数据中心成为可能。

利用云计算技术和模式,数据中心将成为云计算数据中心,形成私有云、公有云或混合云。云计算的IaaS、PaaS和SaaS服务模式成为数据中心IT系统规划的蓝图,同时也是数据中心业务模式创新的源泉。基于IaaS,数据中心可以升级传统的资源类出租业务,提供弹性资源出租,实现按需服务;基于PaaS,数据中心可以在传统增值服务基础上,提供有特色的能力服务;基于SaaS,数据中心可以深化服务内容,进一步提高收益水平,打造差异化竞争能力。

2.2 服务器技术

服务器设备是数据中心IT基础设施的核心之一,提供了数据中心的计算能力。大型数据中心对服务器的数量、安装密度、性能和成本都提出了新要求。

大型数据中心往往规划安装多达上万台服务器设备,因而可安装密度成为服务器发展驱动力。数据中心服务器按照安装方式划分有塔式服务器、机架式服务器和刀片式服务器。机架式服务器具有节省空间、较高密度、便于集中维护和管理等优势,是目前数据中心通用服务器的主流。为了提高安装密度,刀片式服务器、高密度服务器的使用越来越多,甚至它们的使用方式已经受限于机房的供电和空调能力。

服务器性能,特别是PC服务器处理性能的不断提升支撑了大型数据中心发展。现有x86处理器已经集成了多核、多线程技术,发展到单CPU封装16核,能够极大提高数据中心的计算能力。此时服务器的I/O延迟、I/O带宽逐渐变为应用的计算瓶颈,因此采用新的I/O技术和磁盘技术成为发展方向。

由于数量大,大型数据中心对服务器设备的成本比较敏感。在柔性制造技术不断成熟之下,通过选择低成本的产品组件、有针对性的削减非常用配置、共用冗余和容错措施来制造应用定制服务器,可以达到降低制造成本的目的。在Facebook的OCP(Open Compute Project)中开源了服务器的核心设计技术,其定制化服务器,不依赖于单机性能,通过水平扩展实现高吞吐率;只保留最基础的硬件冗余和容错,不强调服务器单机的可靠性,通过软件实现IT系统的高可用性,与同类标准化产品相比,据称成本降低了28%。

2.3 网络技术

传统和小型数据中心中,由于业务密度低,对网络需求较为简单。大型、云计算数据中心中,网络是IT系统联通的基础,IT应用将网络视作一种资源,对网络提出了更高要求,网络的功能和性能将决定数据中心服务交付的性能。

以太网是数据中心网络的基本技术,更高的网络带宽是实现大型数据中心的物理基础。目前基于IEEE 802.3ba(40/100 Gbit/s以太网标准)的网络产品的逐渐应用,解决了流量密集环境的宽带需求,数据中心内部的同步大流量、备份大流量、虚拟机迁移大流量等将不再出现瓶颈。另外,基于优先级的流量控制IEEE 802.1Qbb、增强传输选择IEEE 802.1Qaz、拥塞通告IEEE 802.1Qau等新协议也增强了以太网的功能。

云计算数据中心中应用的服务器虚拟化技术对网络提出了新的功能要求。首先是虚拟机的交换问题。为实现虚拟机之间以及虚拟机与外部网络的通信,必须存在一个“虚拟以太网交换机”,IEEE 802.1Qbg(EVB)等提供了解决方案。其次是虚拟机的动态迁移要求扁平2层网络的支持。传统大型数据中心的网络在汇聚层以上往往设计为3层路由方式以控制网络区域半径,即使是2层网络也需要配置生成树协议消除2层环路从而导致收敛慢等问题。目前一些增强2层技术和大2层技术已经实际使用。增强2层技术通过堆叠/集群等方式将两台或多台物理设备虚拟成一台逻辑设备,原有设备的控制平面和转发平面整合为一个整体。大2层技术(例如Trill、SPB)利用类似3层路由概念计算出2层网络路径,实现2层交换,同时使得2层网络具有了和3层网络一样的高扩展性和高可靠性。

2.4 存储技术

大型数据中心的数据存储需求具有海量、高性能、高可用和可管理等特征。随着大数据应用的日渐增多,对数据中心存储系统提出了更高要求。

分级存储是应对海量数据存储的基本技术。分级存储是指根据数据不同的重要性、可用性、访问频次和存储成本等指标,将数据分别存放在相应的存储设备上。分级存储基于数据价值级别判定,将不经常访问的数据自动转移到较低存储层次,减少非重要性数据在一级磁盘所占用的空间,释放出较高成本的存储空间给更频繁访问的数据,从而提升整个系统的存储性能,获得更好的性价比。分级存储系统一般分为在线存储、近线存储和离线存储3级存储方式。

云存储是应对数据中心大数据的新技术。云存储是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的系统,一般包括块存储、文件存储、对象存储和表存储4类。云存储继承了云计算技术的一般优点,除了较难支撑事务频繁的关系型数据库外,在扩展性、可靠性、高性能、易维护、低成本等多个方面都优于传统的数据存储方式。

2.5 安全技术

大型数据中心聚集了大量资源和应用,安全问题更加突出。由于安全是系统性问题,涉及从基础设施到上层应用乃至运维管理的所有方面,数据中心的安全必须从体系建设入手,明确顶层设计后,针对性地采取各种安全技术措施、制定安全管理制度、实施安全运维。数据中心安全体系的设计可以遵循有关的标准和指南。

对于云计算数据中心,信息安全的基本属性与安全需求并未变化,涉及信息资产、安全威胁、保护措施等的信息保障安全观依旧有效,云计算中的安全控制机制与传统IT环境的安全控制机制没有本质的不同。但是需要注意一些未积累实践经验的潜在风险,包括共享资源池可能引起的全局故障、多租户环境的安全隔离不完全、多系统共存和资源池的动态化导致的安全策略的复杂性、虚拟化技术带来的新安全威胁和入侵点、虚拟机的剩余信息保护、虚拟资源内部之间的安全管控等问题。

2.6 网管技术

由于数据中心采用的还是IT设备,所以一般的IT网管技术手段仍然适用。但是当数据中心的设备规模达到成千上万台后,单机上的小概率事件变成了必然事件,硬盘、CPU、内存、主板、电源等故障造成“硬”故障可能会时有发生,此外“软”故障也很难发觉,这就带来了OSS难题。所以大型数据中心的OSS方案需要创新,可能的思路在于联合物理层、操作系统层和应用层协同管理。

2.7 分布式技术

规模化的数据中心必须考虑备份和容灾,其中远程备份与容灾可以说是分布式数据中心的原型。对于传统数据中心的IT系统,常常采用基于数据库的复制技术、基于智能存储的远程数据复制技术等方式实现IT系统的容灾备份。目前双中心IT系统、三中心IT系统(例如运营商的业务支撑系统)已经非常成熟,只是成本代价较大。

云计算技术的应用为构建分布式数据中心带来了新选择。基于虚拟化技术的快速迁移技术,简化了系统的备份与重构。一种基于云存储和虚拟化构建分布式数据中心的思路为:首先建立云存储环境,将用户的业务数据存储在云存储环境中,依靠云存储环境的分布式特性来保证在一个节点故障时存储服务的持续服务能力;其次采用虚拟机镜像方式对用户的业务代码和运行环境进行异地备份,并通过周期备份来保证准同步;当意外发生导致主用中心无法为用户服务时,启动异地的虚拟机系统并通过修改DNS等方式将用户业务请求引导到异地中心。

更为激进的方式是基于应用层分布式架构实现分布式数据中心,这种方式甚至能够降低对单个数据中心的可用性要求。对于那些由互相独立、没有数据一致性要求的并发请求处理所组成的一类业务,在实现一个广域分布式全局统一视图数据服务(例如基于一个广域分布式文件系统,或广域分布式数据存储服务,或广域分布式Memory Cache集群)的基础上即能构成分布式应用。对于数据一致性分布式业务,可以构建统一的数据服务层,将分布式存储的数据统一为单一视图。目前,基于传统的关系数据库模型的大规模分布式数据库的研究与开发也在不断前进。Google已经提出了新一代全球级分布式数据库Spanner的原理,宣称Spanner是可扩展、全球分布式的关系数据库,支持同步复制和外部一致的事务,使用一个被称作TrueTime的基于GPS和原子钟实现的时间API为实现读写的外部一致性和基于时间戳的全局读一致提供支持。

2.8 园区规划技术

传统数据中心的建筑呈现为单体建筑物,或者仅是机房楼中的一层机房。大型数据中心由于规模大,单体建筑不能满足机房、电源系统和空调系统的需求,常常呈现为一个园区。园区规划成为大型数据中心发展的前提。

大型数据中心园区首先要做好生产要素规划,根据工艺需要进行园区空间布局和服务载体设计。园区建筑设施需要包括IT基础设施运行区域、运维支持工作区域、客户操作区域、动力机房区域、空调机房区域和附属设施等。

大型数据中心园区还需要做好信息化规划。作为一个系统综合体,园区信息化包括了物业管理信息化、访客信息化、公共设施管理信息化等内容,应积极采用物联网技术实现智能园区。

3 绿色数据中心技术

绿色包含了“绿色节能”和“绿色环保”两个含义,是数据中心发展到一定阶段的必然需求。

数据中心属于能耗密集型产业,大规模数据中心能耗更是巨大。在全社会倡导节能减排和企业降低运营成本的背景下,如何节约能耗,建设绿色数据中心,成为数据中心建设和运营者关注的焦点。

数据中心的建筑和建筑内设施、加上IT系统设备规模量大,采用绿色环保材料可以为环境保护作出贡献。欧盟颁布的RoHS2002/95/EC标准规定在电子和电气产品中严禁使用6种有害物质,在数据中心建设时应优先选取符合RoHS标准的产品。本文主要讨论绿色节能技术。

3.1 绿色指标

数据中心能耗是指数据中心内各种用能设备消耗的能源总和,不仅包括IT设备能耗,还包括空调、供电等辅助系统的能耗。绿色网格组织采用电能利用率(PUE,Power Usage Effectiveness)表征数据中心的能源效率指标,PUE=数据中心的总用电量/IT设备的总用电量,其含义为在数据中心总输入电能中,有多少电能被馈送到IT设备上。PUE值越小,意味着节能性越好。

从PUE定义看出,PUE实际上与IT设备的效率没有关系,只与空调、供电系统的效率有关。IT设备能效比定义为IT设备每秒数据处理流量或每秒数据吞吐量除以IT设备的功耗。选用的IT设备的能效比越高,意味着IT设备每消耗单位电能,所能处理的数据量越大。较高的IT设备能效比可以大幅降低所需配套的空调和供电系统的容量及功耗,从而达到节能、节省投资和节省机房安装面积的目的。

3.2 IT基础设施的节能

选用能效比高的IT设备是数据中心节能的源头。以服务器为例,服务器绿色节能技术一直是各设备厂商着力发展的重点,服务器都在采用更加节能的部件,例如可根据负载大小动态调整主频的处理器、更加节能的内置存储、智能的电源和风扇等,同时像刀片式服务器在结构上就具备了能耗低、占地面积小、管理简单等优点。一些服务器厂商还可提供服务器能耗管理软件、整机能耗封顶技术和服务器传感器技术等。

更深层次的IT设备节能挖潜就需要采用深度定制方式。以Google对服务器硬件的定制为例,其服务器设计选择低成本和低功耗的CPU和元器件,自主开发精简的主板,优化配置并删除冗余和容错组件;服务器的供电直接采用高压直流接入,内置12V电池,并采用高效率的电源模块和电源转换方案;采用开放式机箱设计,机柜内置专业设计的风道和散热设施;采用自动监控和诊断功能,实现基本故障的自动排除和自动诊断。基于定制设备,Google和Facebook数据中心的PUE值可达到1.1以下。

云计算技术也能为IT设备节能做贡献。通过虚拟化技术努力提高IT设备利用率,在相同业务需求条件下可以减少物理设备数量,间接降低PUE。

为尽可能利用自然冷源,放宽IT设备能够容忍的温湿度范围,在高温环境下运行也是节能的重要手段。ASHRAE在2011版本中推荐温度范围为18℃~27℃,推荐的湿度范围为大于5.5℃的露点温度的相对湿度、小于60%的相对湿度和15℃的露点温度。在可以保证IT设备正常运行的条件下,放宽的环境要求可减少机房制冷、加热、加湿、除湿的耗能,从而降低PUE。

3.3 机房基础设施的节能

机房基础设施的节能是除IT基础设施节能外的最重要方面,需要从选址、建筑、供电、通风与空调等领域系统的、因地制宜的综合考虑。

空调耗能占有机房基础设施耗能的最主要部分,是否可以使用自然冷源成为能否大幅降低PUE的关键,因而选址成为数据中心规划建设的首要考虑因素。在工信部联通[2013]13号文中,就数据中心的布局导向作出了明确要求,对于新建超大型数据中心,重点考虑气候环境、能源供给等要素,鼓励超大型数据中心,特别是以灾备等实时性要求不高的应用为主的超大型数据中心,优先在气候寒冷、能源充足的一类地区(气候寒冷,最冷月平均温度不大于-10℃,日平均温度不大于5℃的天数大于等于145天;能源充足,发电量大于用电量;地质灾害较少)建设。

在数据中心建设初期,对建筑自身的节能环保考虑是迈向绿色的第一步。数据中心机房设计要采用隔热、保温、隔音、防辐射方案,同时避免使用有害、易挥发、易老化变形的建筑材料。

空调领域已经积累了大量节能措施最佳实践。大型数据中心中大型的冷水机组普遍规划采用;从风机到水泵,各种变频技术已经得到普遍应用;各种免费制冷方式日益受到重视,从新风方案,到轮转换热、热管、蓄冷等节能技术的推广应用成为热点。在末端方式上,行级制冷、置顶式、水冷门等技术给用户更多选择。机房内基于CFD的气流设计与管理,冷热通道封闭与隔离技术,提高了系统效率。随着技术的发展,充分利用能源的三联供技术、热回收技术也成为数据中心新的发展趋势。

供电系统也应综合采取各种节能措施。例如采用高效、节能的供电设备;变压器、UPS电源设备深入到负荷中心,合理选择线路路径;进行无功补偿优化,进行谐波治理;供电质量允许时,UPS采用经济运行模式;IT设备支持时,采用高压直流供电系统;采用全分散供电模式等。另外,对于大型数据中心园区,可根据条件采用绿色能源为一些辅助设施供电。目前,一些新技术如磷酸铁锂电池已有试点,飞轮UPS在国外已有应用。

4 支撑弹性服务的技术

用户对数据中心已经从“资源型”转变为更高层次对服务的需求,即向“服务型”转变,服务成为数据中心的灵魂。而基础设施业务价值中的灵活性则要求数据中心具备服务弹性。数据中心的服务弹性可以分解为基础设施的弹性、IT应用系统的弹性和管理弹性,这些弹性的实现需要模块化技术、资源池抽象技术和多租户技术等的支持。

4.1 模块化技术

模块化技术针对基础设施而言,有不同层次的实现方式。

一种模块化方法是将数据中心分形迭代分解成为一个基本单元并保留核心部分,该单元在外部电源接口、空调接口和网络接口的支持下即成为可用的基础设施。典型实现如集装箱式数据中心或室内模块化数据中心。

另一种模块化方法是设置功能模块,每个模块具有独立功能、统一的输入输出接口、不同区域的模块可以互相备份,通过相关模块的排列组合形成一个完整的数据中心可用单元。

模块化的好处是使得数据中心具有了基础设施级别的弹性,可以提高机房利用率、降低建设成本、加快建设速度。

4.2 资源池技术

资源池是云计算数据中心的核心部分,是资源能力的提供者。资源池系统提供数据中心的各类资源,包括计算资源、存储资源和网络资源。资源池的弹性依赖于将资源抽象形成逻辑资源,进而在资源管理系统的支撑下,实现资源的按需分配和动态调度。

虚拟机动态迁移能力是发挥资源池弹性的基础。一个用例为工作日开始时,对计算资源的需求从最小量开始增长,虚拟机可以迁移至其它更大能力的设备上或者分配更多的虚拟机以满足需求。工作日结束时,对计算资源的需求将降低,可将虚拟机迁回原来的服务器,关闭不需要的资源,以简化管理并降低供电成本。

网络虚拟化能力也是资源池弹性的可选功能。最新的软件定义网络(SDN)技术基于流来控制流量,易于对底层网络的物理拓扑进行抽象,能够在逻辑上对网络资源进行分片或者整合,从而满足各种应用对于网络的不同需求。

4.3 多租户技术

租户是指拥有独占且隔离的、专有使用策略、SLA保证、可统计和可计费的资源服务单元。多租户是一种软件架构技术,实现对于多用户环境,在保证各用户间数据隔离性的前提下,如何共用相同的系统或程序组件。以多租户为基础的业务模型是IT应用系统SaaS服务弹性的重要特征。

多租户环境中的多个应用运行在同一逻辑环境下,需要通过技术手段来保证用户间的隔离。多租户技术需要支持不同租户之间数据和配置的隔离,从而保证每个租户数据的安全与隐私,还需支持用户对诸如界面、业务逻辑、数据结构等的个性化需求。性能定制是多租户技术面临的难点,如何为不同租户在同一套共享资源上灵活地配置性能,同时每个租户还有自己的用户,这对系统的性能和扩展性提出了挑战。

与虚拟化技术相比较,多租户技术还处于发展阶段。在面对大量用户使用同一类型应用时,如果每一个用户的应用都运行在单独的虚拟机上将占用大量资源,管理难度大大增加,多租户技术则成为这种场景下相对经济的解决方案。

5 结束语

本文分析了支撑数据中心规模发展的一些关键技术、实现绿色数据中心的关键技术和支撑数据中心弹性服务的一些关键技术。应该注意的是,在数据中心规划建设中,需要分析拟建数据中心的全生命周期特点,为落实采用各种关键技术提供依据,从而保障数据中心的可持续发展。

[1] 林小村,马玉林,翁小云等. 数据中心建设与运行管理[M].北京:科学出版社,2011.

[2] 张为民,唐剑峰,罗治国等. 云计算深刻改变未来[M]. 北京:科学出版社,2010.

猜你喜欢
数据中心基础设施服务器
酒泉云计算大数据中心
农业基础设施建设有望加速
公募基础设施REITs与股票的比较
浅析数据中心空调节能发展趋势
通信控制服务器(CCS)维护终端的设计与实现
关于建立“格萨尔文献数据中心”的初步构想
振动搅拌,基础设施耐久性的保障
中国服务器市场份额出炉
得形忘意的服务器标准
充分挖掘基础设施建设发展潜力