黄峰
(上海仪电电子集团公司,上海 200233)
分布式云数据中心架构及管理关键技术
黄峰
(上海仪电电子集团公司,上海 200233)
目前业界流行的云计算旨在解决单个云数据中心的问题,而无法解决多个云数据中心之间资源共享、统一管理、提升业务服务质量的问题。为此,提出了分布式云数据中心(DC2)的概念及架构,并研究了分布式云数据中心的管理及服务的关键技术。分布式云数据中心能将传统数据中心的分散、分层、异构架构,改为全扁平式、统一资源管理的分布式云数据中心架构,从而将多个不同地域、不同阶段、不同规模的单体云数据中心所有资源,通过逻辑集中进行统一管理、统一运营,最终使云数据中心更高效、更可靠、更绿色。
分布式云数据中心(DC2) 数据中心即服务(DCaaS) 管理即服务(MaaS) 网络即服务(NaaS) 存储虚拟化 网络虚拟化
Network as a service(NaaS) Storage virtualization Network virtualization
当前,云计算对于IT行业来说是一个巨变,就像用电网代替本地发电机一样。数据中心(data center,DC)的架构及其管理模式也随之带来了挑战与巨变。一方面,在传统架构下,数据中心层级多,站点数量多,管理复杂,运营成本高;且IT资源使用效率低,能效比低,服务质量很难保证。而另一方面,单体的云数据中心尽管使用了存储虚拟化、计算虚拟化、网络资源虚拟化等一系列先进的云计算技术,但各云数据中心单体间无法将各自资源池化,从而达到更有效的资源统一管理与弹性调度。
本文在充分研究了全扁平式、统一资源管理的分布式云数据中心架构优点的基础上,对其管理即服务的关键技术做了深入的探索。
数据中心(DC)在维基百科给出的定义是“一整套复杂的设施,它不仅仅包括计算机系统和其他与之配套的设备(例如通信系统和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置”。
数据中心从20世纪90年代的传统数据中心(IT资源集中化,计算能力增强),21世纪初的云数据中心(虚拟化提升IT利用率),发展到现今的分布式云计算中心(物理分散、逻辑统一),历经三代。我们可以把分布式云数据中心看作为数据中心3.0。
1.1 传统数据中心(数据中心1.0)
传统的数据中心(数据中心1.0)为企业提供IT基础设施与应用服务,办公信息化大大提升了社会的工作效率。传统的数据中心运营商一般为企业提供主机托管与主机租赁服务。由于IT资源的烟囱式设计、僵化的IT架构等原因,数据中心运营商面临以下困难与挑战。
①高能源消耗,低资源利用率。传统数据中心所支付的电费已超过购买服务器设备的费用。
②运维效率低、维护成本高。传统数据中心70%以上的IT预算被用于现有系统的维护而不是建设新的IT系统。
③平台支撑能力差,业务上线周期长。传统数据中心缺乏统一开放的平台,无法实现资源的统一调度,业务部署基础配置复杂,新业务上线周期长。
1.2 单体云数据中心(数据中心2.0)
云计算技术的出现颠覆了传统数据中心行业,它的按需使用、资源共享、绿色节能、快速业务部署等优势,弥补了传统数据中心的缺点。单体云数据中心具有以下特点。
①超大规模性。Google云计算中心已经拥有数百万台服务器。
②虚拟化。云计算支持用户在任意位置使用各种终端获取应用服务。用户无需了解、也不用担心应用运行的具体位置。
③高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障云服务的高可靠性。
④简化管理。在云数据中心,管理人员通过云管理软件可以统一管理、调度各种规格的虚拟机,无需关心它们所运行的服务器的硬件差异。
⑤绿色节能。传统数据中心的能源使用效率(power usage effectiveness,PUE)一般为2.5~3.0。单体云数据中心可以降低至1.5,甚至更低。
1.3 分布式云数据中心(数据中心3.0)
云计算数据中心的建设已成为当今企业信息化建设的主流模式,但目前的云数据技术还在着重解决单个数据中心内部的问题。随着全球化的深入发展,以及区域经济的电费、网络与土地价格的差异,越来越多的集团企业有跨地域建设云计算中心的需要,跨区域、各层级的数据中心应运而生。这些众多的数据中心仍处于烟囱式的建设和管理状态,各个数据中心之间各自为政。其具体表现为以下三点。
①广域网带宽成本高。数据集中在总部数据中心后,企业的所有分支办事机构用户日常办公终端均需要通过接入企业广域网来访问总部业务应用,广域网的传输数据流量骤增。而在广域网的传输流量中,70%以上的流量均来自于日常的病毒、补丁库更新、文件传输、软件推送等IT基础类业务。
②分支机构用户业务访问体验差,服务等级协议(service level agreement,SLA)保证困难。受限于广域网的带宽与传输时延,企业分支机构对总部的业务应用访问体验较差,特别是一些对传输时延敏感的业务应用(如虚拟桌面、多媒体视频等),分支机构用户对企业IT服务满意度会大幅下降。
③管理复杂,运营成本高。由于各层级的数据中心承载的业务类型不同,软硬件系统运维管理需求及容灾备份保障策略也各不相同,不利于各层数据基础设施资源的统一管理和协同管理,降低了各层数据中心实现全局管理的维护效率。
因此,单点的云数据中心方案已经不能满足客户的需求,而只有从整个数据中心集群的架构入手,解决各个数据中心之间的协同运行、统一管理和调度问题,才能从整体上解决集团IT系统的利用率、管理效率和业务体验难题。分布式云数据中心正是为了应对这个整体数据架构的挑战而生的。
2.1 分布式云数据中心技术架构
图1 分布式云数据中心的拓扑示意图Fig.1 Schematic diagram of the topology of distributed cloud data center
分布式云数据中心不再局限于解决单个数据中心的效率,而是将这三个单体数据中心看成一个有机整体,围绕跨数据中心管理、资源调度和灾备设计,包括实现数据中心云资源迁移的云操作系统、多数据中心统一资源管理和调度的运营运维管理系统以及软件定义数据中心能力。分布式云数据中心可极大地提升多个数据中心整体的运作效率和可靠性,降低集团用户的资本性支出(capital expenditure,CAPEX)和运营成本(operating expense,OPEX),降低网络时延,极大地提升最终使用者的体验。
分布式云数据中心总体架构如图2所示。这里的分布式数据中心管理中心负责承载整个数据中心的统一管理、备份、安全和全局数据共享,以及依托这些数据进行初步商业智能(business intelligence,BI)运营成本(operating expense,OPEX)分析与挖掘。管理中心用以支撑各服务化的虚拟数据中心(virtual data center,VDC)。
图2 分布式云数据中心的总体架构Fig.2 Overall architecture of distributed cloud data center
2.2 分布式云数据中心DCaaS
在数据中心2.0,通常将云计算数据中心的服务类别分为以下三类,如图3所示。
①软件即服务(software as a service,SaaS):将软件作为服务,如Microsoft Office 365。
②平台即服务(platform as a service,PaaS):将平台作为服务,如Microsoft Azure。
③ 基础设施服务(infrastructure as a service,IaaS):将基础设施作为服务,如Amazon。
图3 云计算的服务类别Fig.3 Categories of the cloud computation services
IaaS、PaaS、SaaS都是数据中心系统中某一个部分提供的单独服务。随着当今业界对服务要求的不断提高,企业用户更希望得到从管理、平台、IT资源、基础设施的端到端服务。分布式云数据中心提供了一种更敏捷的数据中心服务模式:可运营的数据中心,即数据中心即服务(data center as a service,DCaaS)。与单体云数据中心相比较,分布式云数据中心在 IaaS层,DCaaS不但能够提供基础设施即服务(IaaS),还增加了网络即服务(network as a service,NaaS)、管理即服务(manage as a service,MaaS)。
DCaaS实现异构资源统一管理,资源池化共享。DCaaS包含以下三个部分。
①资源共享,业务隔离。将离散资源整合成统一资源池,对应用屏蔽差异、虚拟资源、硬件资源进行统一管理。
②异构平台统一管理。支持第三方虚拟化平台管理;同时还需要兼容业界著名公司,如VMware、KVM等。
③自动扩容即插即用。物理服务器接入系统,从发现到加入资源池管理全过程自动化完成;新增物理服务器自动在云管理系统中注册并接受管理。
3.1 分布式云数据中心核心M aaS
较单体云数据中心的IaaS层服务而言,分布式云数据中心能提供DCaaS服务,给用户提供的管理服务不再是如一般云数据中心那样分散的、孤立的运营运维系统,而是一个统一、多功能的一体化管理系统。这是分布式云数据中心与单体云数据中心最大的区别。因此,分布式云数据服务中心的核心就在于MaaS,它负责对多个数据中心的资源做统一管理与调度,并具有对各种服务(DCaaS、IaaS、NaaS)使用者的管理功能。对于租户、VDC的租户,提供管理自己所租用的IT资源,IaaS的租户可以在线申请、扩容、延期资源。
分布式云数据中心的核心理念在于:物理分布、逻辑统一。其中,逻辑统一有两方面的含义。
①对所有数据中心及其资源都进行统一管理、调度、运维支持,并实现分权分域的管理。这需要对分布式云数据中心提供统一的运维管理平台。
②当需要分布式云数据中心对外提供服务时,我们需要提供统一的运营呈现界面、统一的运营支撑流程。这需要分布式云数据中心通过统一的运营服务平台。
3.2 M aaS服务关键技术
相对于传统的互联网数据中心(Internet data center,IDC)和单体云计算中心,分布式云计算中心对管理提出了更高的要求。在MaaS服务中,不同租户需要对应用、机房、计算、存储、网络等资源做到端到端的管理,因此自动化和网路自动化是MaaS的关键。
3.2.1 MaaS数据中心自动化
数据中心包含复杂的计算、网络等资源,大型的数据中心无法单纯依靠手工维护。自动化带来了实时的或者随需应变的基础设施管理能力,它是分布式云数据中心的基础。
3.2.1.1 服务器自动化
这些乐手中,樟树年最高。一千岁,对人来说,实在太长,要十几代人的接力才能活出它的模样。十几代前的祖先,对后人来说,只是一个概念,甚至连概念都是模糊的。一般情况下,人能够记住的不过四代,再往前,或许只是家谱上的一个符号罢。
服务器自动化需考虑以下五个方面。
①软件安装。集中管理服务操作系统,批量安装多种操作系统,实现跨越操作系统的统一服务器管理,为物理、虚拟和公共云基础设施提供支持。
②补丁管理。集中管理服务器补丁介质。
③系统配置。在各种操作系统批量地、自动地进行参数调整。
④巡检和合规检查。通过规则对服务器或网络的关键配置进行检查,及时发现配置基线的偏移。
⑤自动巡检。自动收集软硬件信息并生成报表。3.2.1.2 网络自动化
网络自动化需考虑以下四个方面。
①配置和网络拓扑发现。自动发现和采集网络设备的配置。
②网络策略配置。自动批量下发路由表和防火墙策略。
③操作审计。自动记录所有对网络设备的变更,并提供回退机制。
④巡检和合规检查。通过内置的合规性检查策略,对系统、设备等进行自动化的合规检查。
3.2.2 MaaS管理系统
MaaS为多数据中心管理,其功能如下。
①将传统的分散、分层、异构的数据中心架构,升级为物理分散,逻辑集中的统一资源管理的分布式云数据中心。
②将不同地域、不同阶段、不同规模的数据中心,混合为一个跨数据中心的“逻辑资源池”,全局容量管理。
③跨多个数据中心的资源统一管理及调度,策略化的高效资源管理。
按照上述MaaS功能,分布式数据中心MaaS管理系统主要包括管理门户、运营管理、IT服务管理、资源管理、IT运维管理、基础设施管理六大部分。MaaS管理系统架构如图4所示。
图4 MaaS管理系统架构图Fig.4 Architecture of the MaaSmanagement system
“工业4.0”也被称为继机械、电气和信息技术之后的第四次工业革命,它是德国联盟教研部与联邦经济技术部联手推动的《高技术战略2020》十大未来项目之一。从内容来看,“工业4.0”项目主要面向两大主题,一是“智能工厂”,重点研究智能化生产系统及过程,以及网络化分布式生产设施的实现;二是“智能生产”,主要涉及整个企业的生产物流管理、人机互动以及3D技术在工业生产过程中的应用。
分布式云数据中心架构,可以将世界上不同地域、不同规模的数据中心的所有资源通过逻辑集中进行统一管理、统一呈现、统一运营,从而为跨国企业的全球不同地域子公司或众多外包企业实现包括设计、生产、物流、市场和销售等所有环节在内的高度复杂的全生命周期的全自动化控制和管理,最终达到智慧制造的云制造理念。
云计算的发展日新月异,目前的云数据中心技术还在着重解决单个数据中心内部的问题,但随着全球化的深入发展,越来越多的集团企业有跨地域建立分支机构的需要,各区域、各层级的数据中心也应运而生。这些众多的单体数据中心各自为政,管理复杂,运营成本高,资源无法得到有效的应用,以及数据中心层次过多时SLA难以保证高质量的服务。通过分布式云数据中心架构,将多个不同地域、不同阶段、不同规模的数据中心的所有资源通过逻辑集中进行统一管理、统一运营,从而能更充分有效地利用各运营商已有资源,支撑ICT服务能力的高速发展。分布式云数据中心使数据中心更加高效、可靠、绿色,从而实现高效的IT治理,节省所有成本(total costownership,TCO),给客户带来高可靠性、稳定性的SLA服务。分布式云数据中心是一个划时代的云数据中心架构。
[1]Hwang K,Fox G C,Dongarra JJ.云计算与分布式系统——从并行处理到物联网[M].北京:机械工业出版社,2013.
[2]Joysula V,Orr M,Page G.云计算与数据中心自动化[M].北京:人民邮电出版社,2012.
[3]Amokrane A,Zhani M F,Langar R,et al.Greenhead:virtual data center embedding across distributed infrastructures[J].Cloud Computing,IEEE Transactions,2013(6):36-49.
[4]ZhaniM F,Zhang Q,Simon G,et al.VDC planner:dynamic migrationaware virtual data center embedding for clouds[J].Proceedings of IFIP/IEEE Integrated Network Management Symp,2013(5):27-31.
[5] Chowdhury M,Rahman M,Boutaba R.Vineyard:virtual network embedding algorithmswith coordinated node and linkmapping[J].IEEE/ACM Transactions on Networking,2012,20(1):206-219.
[6]切富兰克林二世.云计算-无处不在的数据中心[M].北京:国防工业出版社,2013.
[7]祁伟.云计算:从基础架构到最佳实践[M].北京:清华大学出版社,2013.
[8]刘鹏.云计算[M].2版.北京:电子工业出版社,2012.
[9]Rhoton J.云计算-企业实施手册[M].北京:机械工业出版社,2011.
Framework of the Distributed Cloud Data Center and the Key Technologies of Management
At present,the popularized cloud calculation in professional field can solve the issue of individual cloud data center,but cannot solve the issue among multiple cloud data centers,such as resource sharing,unified management,and upgrading the quality of business services.Thus the concept and architecture of distributed cloud data center(DC2)is proposed,and the critical technologies formanagement and services of the distributed cloud data center are researched.The distributed cloud data center can change the traditional data centers with scattered,hierarchical and heterogeneous architectures into distributed cloud data center with a whole flat architecture and unified resource management.The solution proposed makes all the resources in multiple individual cloud data centers located in different regions,different stages,and different scales integrated logically for unified management and operation,to reach the status of higher efficient,more reliable and more environment protection for cloud data center.
Distributed cloud data center(DC2) Data center as a service(DCaaS) Management as a service(MaaS)
TP302+.1
A
修改稿收到日期:2014-03-17。
作者黄峰(1957-),男,1987年毕业于上海交通大学仪器仪表专业,获硕士学位,高级工程师;主要从事自动化控制技术研究。