基于云计算的行业化数据中心架构分析

2015-01-03 06:21李晶晶张永超
数字通信世界 2015年9期
关键词:虚拟化数据中心服务器

李晶晶,徐 丹,张永超

(中国交通通信信息中心,北京 100011)

基于云计算的行业化数据中心架构分析

李晶晶,徐 丹,张永超

(中国交通通信信息中心,北京 100011)

随着云计算的发展,私有云和公有云相结合的技术对支撑和推动行业信息化的发展具有重要作用。本文通过分析行业化数据中心的必要性和需求,总结出建设行业化数据中心的意义和架构设计,提出了一个介于企业级和互联网之间的行业化数据中心的模式,既满足不同地域的信息资源集约化需求,又满足行业特点的专业化业务需求。通过对基于云计算的行业数据中心发展进行分析,总结出其建设的意义和初步架构,旨在为行业信息化发展迈向新台阶,提供一个可供参考的建设方案。

云计算;数据中心;行业化;架构

1 行业化数据中心建设的必要性

1.1 数据中心现状分析

早期的数据中心主要作为大型计算的计算机房,结构复杂、电力要求高、运行环境苛刻,需要专业的运维人员进行维护。随着微型计算机的普及和网络技术的发展,C/S(Client/Server)计算架构的出现,数据中心则主要承载服务器运行和计算的职责,运维人员可以通过客户端的微型计算机进行运维工作。

互联网时代,基于互联网为企业提供服务器等计算机设备的托放服务,为用户提供场地、电源、通信带宽,系统硬件的购置、系统软件的安装、系统的运行维护。随着客户需求的不断提高,虚拟化技术的发展和网络带宽的加大,IDC则又提供了计算和存储资源的出租、网络管理、安全管理、系统运维和数据备份等相应的服务,在提升企业IT运维的专业化的同时,又大大减少了IT运维的成本。

未来新一代数据中心则较传统数据中心具备如下特征:虚拟化、整合、绿色节能、安全、自动化、性能优化。其中,虚拟化是新一代数据中心最重要的特征,它将打破IT用户和IT资源之间的束缚,让复杂的系统简化。虚拟化是影响新一代数据中心发展的重要技术之一,其优势在于有效地提高了数据中心的利用效率,降低了投资成本,整合、优化了现有服务器的资源和性能,可以灵活、动态地满足业务发展的需要。虚拟化让数据中心所承载的基础设施资源可以像水、电一样随意取用。与虚拟化紧密相连的商业模式是云计算,云计算的核心就是虚拟化资源共享。

但是不难看出,数据中心的概念仍然被人们限定在支撑IT的运行环境和基础设施的层面上,很难向上提升到信息服务和业务应用层面。即便新一代数据中心,也难满足客户对自身行业特性的数据中心需求。当然,广义上的数据中心的概念不可能解决所有各行各业的实际需求,也不具备解决实际需求的专业性,因此,在广义上的数据中心概念上,结合具体行业需求抽象出一种细分行业的“行业化数据中心”概念,从而论证其解决行业信息化方面的可行性。

1.2 行业化数据中心建设的必要性

(1)支撑和促进“智慧行业”建设的迫切要求。目前,在横向各区域或大型企业内部,实现了许多诸如“智慧城市(企业)”的信息化系统,能够将共享数据的集中管理与共享交换,有效支撑了区域性的智慧化建设。但在纵向各行业体系中,数据中心体系建立的少之又少,差距非常明显。为此,亟需建立以行业数据中心为引领、国家属地两级数据中心联动的行业数据中心体系,全面提升行业信息资源交换共享水平,为“智慧行业”建设提供必要的信息资源保障。

(2)推动行业数据资源高效集约交换共享的迫切需要。从业单位和企业投入大量的IT成本已建成的信息系统和数据中心,需要在行业内进行共享交换才能盘活数据资源。建立行业数据中心将提供集约、高效、安全的技术支撑和机制保障,避免基础共享数据的重复采集,大幅减少对数据交换软件的重复购置,提升行业信息化建设实施的整体能力和水平。

(3)支撑行业管理、宏观决策和公共信息服务的迫切需要。从行业政府主管部门来说,为履行好行政审批、现场执法、诚信评价等涉及对跨区域流动对象的管理职能,各级主管部门普遍需要便捷、准确地获取管理对象的基础信息。行业宏观决策也迫切需要有涵盖全行业、综合各领域的权威数据作为支撑。为此,启动部级行业数据中心建设,建立形成“全面、及时、准确”的基础数据库和主题数据库,实现一数一源、一数多用,满足管理部门和社会公众综合查询需求,并为行业宏观决策分析应用提供数据支撑。

(4)提高基础支撑环境利用效能的迫切需要。云计算成为信息技术发展趋势,迫切需要结合现有行业信息化系统,采用虚拟化、硬件模块化等新技术,实现网络、存储和计算资源的统一分配和调度管理,提升系统建设开发效率,降低整体能耗水平,提高基础支撑环境利用效能。

综上所述,在各行业内推广行业化数据中心的建设,符合政府、从业单位在产业化发展的要求,因此,有必要进一步探索行业化数据中心的建设。

2 基于云计算技术的行业化数据中心总体框架

在我们明确了行业化数据中心的建设意义后,下面探讨下行业化数据中心建设的路径和总体框架。

2.1 行业化数据中心运营机构的选择

既然是行业化数据中心就应该在行业内选择数据中心承建机构。选择的机构建议具备如下特点:

(1)行业内具有全局代表性的从业机构。所谓行业数据中心,应站在全行业的高度,能与行业各产业角色有接触切面,运营机构应该在行业内具有代表性。如国家行业主管部门直属的机构或行业相关协会为最宜。在交通运输行业,我们选择的是“国际移动卫星地面站”作为行业数据中心的运营机构,其作为交通运输部的直属事业单位,同时肩负着全行业的卫星通信业务,以及地面网络的接续业务,所以具有行业全局代表性。

(2)行业内具有资质的运营机构。拥有全网互联网数据中心(IDC)运营牌照,拥有优越的地理位置、电信级的机房环境、完备的安全防护系统、丰富的网络资源、专业的工程师队伍、完善的管理制度、丰富的信息通信系统运营经验,面向全国行业内提供机房租赁、机架出租、系统租用、系统代维等信息通信系统托管代维服务。

(3)物理与数字化资源相对丰富。针对全国性行业内数据中心在未来发展过程中,未来满足新的机构介入,节点不断增加,扩大容量,建立灾备中心等扩展需求。需要运营机构具备丰富的物理空间、电力保障和网络及应用资源。

图1 基于云计算的数据中心总体框架

2.2 基于“行业云”的数据中心总体框架

作者认为基于云计算的行业数据中心总体框架大致划分为三层,第一层也是最底层是基础设施即服务层(IaaS)层,主要解决服务器等计算资源、网络资源、存储资源的虚拟化。第二层是平台即服务PaaS层,主要是构建操作系统之上的各类应用系统的平台或中间件运行环境,方便各类应用可以快速开发和部署。第三层是最顶层的应用即服务SaaS层,它主要解决各类应用系统以SaaS模式进行软件共享租用服务需求。整体框架如图1所示。

2.2.1 云计算的基本特点

云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。

云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。

云计算拥有明显的特点:一是低成本;二是虚拟机的支持,使得在网络环境下的一些原来比较难做的事情现在比较容易处理;三是镜象部署的执行,这样就能够使得过去很难处理的异构程序执行互操作变得比较容易处理;四是强调服务化,服务化有一些新的机制,特别是更适合商业运行的机制。

云计算的体系结构由5部分组成,分别为应用层、平台层、资源层、用户访问层和管理层,云计算的本质是通过网络提供服务,所以其体系结构以服务为核心。

图2 云计算体系结构

2.2.2 构建数据中心的基础设施即服务(IaaS)环境

如今,有许多企业级数据中心都在采用服务器虚拟化技术。这对企业有很大影响,特别是在如今困难的经济状况下,服务器虚拟化可以给企业在服务器硬件、机架空间、能源消耗以及冷却等方面节省很大的开支。如果他们再进行虚拟机的部署,那就要比物理服务器整合带来更大的效果。

服务器的虚拟化一般分为“一虚多”和“多虚一”两种模式,适应不同的应用场景。其中,国内服务器虚拟化目前多以“一虚多”模式为主,是将一台物理服务器虚拟成多个逻辑主机拥有独立的操作系统,提供多主机的服务。最主要目的是为了提高效率,力争让所有的CPU都跑到100%,力争让所有的内存和带宽都占满。那么“多虚一”的模式则恰恰相反,是因为鲜有能够满足一项大型高性能计算任务的主机,而将多台低性能的主机虚拟成一个Super Computer,完成高性能计算,此场景多以Google等互联网应用在分布式计算方面应用居多。

那么针对常见的“一虚多”的服务器虚拟化模式来说,业界有多种成熟的虚拟化软件可选,包括VMware和Hyper-V,以及国产的浪潮等基于开源虚拟化软件重构的平台等。如何使用虚拟化软件在此文中不做详细阐述,但无论使用什么虚拟化架构,都有以下原则需要引起注意。

⊙ 使尽可能多的主机服务器符合标准。选择那些可以满足虚拟机资源需求的服务器,随着虚拟机需求的增长,这些服务器的性能也要提高。

⊙ 对虚拟工作负载进行辨别和分类,明确每一种工作负载需要哪些资源。

⊙ 在主机服务器上创建多个虚拟网络适配器,既可以满足性能冗余,又能将虚拟机隔离开来。

⊙ 制定相应的原则来对虚拟机进行管理,为产品虚拟机提供任何其需要的资源,如有必要,从非产品环境中调用相应的资源。

⊙ 基于各种原则来分配虚拟机的部署任务。

⊙ 针对具有大量I/O读写需求,以及特殊板卡需求的服务器,需要慎重选择虚拟化,建议采用物理机以服务的而形式发布到网络里,提供给调用的主机使用,避免特殊硬件和板卡的部署限制。

⊙ 留有空闲服务器来支持业务高峰时的总做负载,制定相应的虚拟机迁移规则,使其只支持产品虚拟机的运行。

以上会使数据中心主机服务器上的虚拟机密度实现最大化,同时也可以提高物理服务器整合比率。

2.2.3 构建数据中心平台即服务(PaaS)环境

PaaS层实现对系统软硬件资源的快速虚拟化封装并按照用户的需求在不同的层次上进行动态提供,在多用户、多应用和多资源混合的云计算平台中,实现动态、自适应和高效的资源与应用管理、调度和优化。

PaaS层将现有各种业务能力进行整合,可以归类为应用服务器、业务能力接入、业务引擎、业务开放平台,向下根据业务能力需要,测算基础服务能力,通过IaaS提供的API,调用硬件资源,向上提供业务调度中心服务,实时监控平台的各种资源,并将这些资源通过API开放给SaaS用户。三层架构中,PaaS是业务核心能力的直接体现。

我们可以为数据中心PaaS层选择一些常用的软件平台和常用的中间件系统作为基础运行环境,包括J2EE和.Net运行环境、数据库运行环境,以及一些数据交换中间件等环境。

2.2.4 构建数据中心的软件即服务(SaaS)模式和环境

SaaS(软件即服务)也称为软件运营服务,是用户获取软件服务的一种新形式。它不需要用户将软件产品部署在用户本地服务器上或网络内,而是按某种服务水平协议(Service Level Agreement),直接通过网络向专门的提供商获取自己所需要的、带有相应软件功能的服务。软件运营服务通常可以分为两大类,即工具型软件运营服务与管理型软件运营服务。SaaS模式采用了按需租用的模式,通过应用网络托管的方式,有效地降低了用户的建设、维护成本,提供了更低的应用门槛。SaaS模式完全颠覆了传统的软件许可证购买的方式,以全新的按需付费的方式为SaaS用户带来了更有竞争力的消费模式。

那么对于行业数据中心来说,主要聚焦行业内信息化托管,因此可以抽象出一些具有共性、通用的应用系统以SaaS模式提供服务构件行业内的SaaS平台要实施以下步骤。

(1)分析提炼共性应用系统的需求。由于SaaS模式为不同用户提供的是一个统一的平台,像一个大容器一样,所以用户租用平台的私有软件功能。因此,这个平台需要业务逻辑、技术架构具有一定的共性。对于行业化的专业共性需求来说,这一点是互联网IDC所不具备的条件。作者建议两类应用适合进行SaaS模式搭建。一是各机构的管理和办公通信类应用,因为各机构对办公的需求和互联通信的需求基本相似,具有业务无关性。诸如:OA系统、邮件系统、视频会议和即时通信等应用需求。二是行业共性专业应用。此类应用一般站在整个行业的高度,服务全行业,各机构对其需求具有共性,所以此类应用多以行业主管政府和协会业务相关性较大。以交通运输行业为例,交通运输部与海事局或行业协会主导的行业数据查询包括资质核验、地理空间信息、从业人员管理、运输设备与厂商查询等,以及网上行政办事大厅等应用都具有共性。北京国际移动卫星地面站作为交通运输行业的数据中心,则自主运营着诸如“船岸通信”和邮件相关系统,同时也为海事用户提供船位报等地理位置服务。

(2)选择或研制可支撑SaaS模式的“容器”平台。数据中心需要选择相应的软件平台具有一定的成熟度,同时具有可伸缩性,随着租赁用户的不断增大能够支持分级分层纵向扩展,也支持新用户的不断加入的横向扩展。

(3)定制各类用户的私有软件空间。平台应具备不同用户使用起来像是企业自身的专用软件一样,从UI表现到数据管理,从权限分配到报表视图等都具有一定的“私密性”,保证用户的数据安全和个性化需求。

(4)系统运维。SaaS平台软件具有统一运维、分级运维的功能,可以针对整个平台进行全局运维,也可以对某个租赁用户的软件部分进行针对性的运维,保证不对其他用户产生影响。

2.2.5 构建“大数据”的计算服务环境

随着行业数据中心应用的增多,移动互联数据的积累,以及行业用户对数据消费的时效性要求增高,海量的数据计算将成为行业数据中心的一项重要服务。

图3 基于GFS的NoSQL存储架构

以Google为例,作为全球最大的全文检索搜索引擎,存储的数据量和每天管理的数据量达到了PB级。因此,Google在内部采用了有别于传统的数据管理技术Hadoop。Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储,Hadoop实现了一个分布式文件系统HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上,而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,这样可以流的形式访问文件系统中的数据。Google使用了HDFS,MapReduce,BigTable三项核心技术来解决数据的存储和管理。其中,MapReduce是基于文件系统之上的并行编程模型,BigTable是Google开发的大规模非关系型数据库(NoSQL)。那么,以HyperTable为例,我们了解下基于分布式文件系统之上的NoSQL架构是如何工作的,如图3所示。

分布式存储和NoSQL架构一般包括三层节点:

(1)NoSQL空间节点。NoSQL提供高可用粗粒度的锁管理服务以及存储小量meta数据。在客户端创建文件或目录时,可以通过它来获得互斥锁或共享锁,在不同的服务器上分布式运行副本来实现服务的高可用,通过分布式一致协议来实现一致性。

(2)Master节点。Master负责所有的meta操作,比如创建表、删除表;监测RangeServer的失效,并在失效后为客户端重新分配服务的RangeServer;负责各Rangeserver之间的负载均衡。虽然是单Master提供上述服务,但是通过Standby的方式实现高可用。

(3)RangeServer。RangeServer负责表数据片段的管理,处理对表数据的读写请求。它能够处理成千上万的表数据片段。在Master的管理下,进行数据片段在Rangeserver之间迁移(比如:在新增RangeServer后,将部分数据片段迁移到新server上,实现服务的伸缩性扩展)。

以上的一个分布式存储和计算的架构是否适合所有大数据量的应用呢?作者认为基于Google的大数据处理架构是有一定适合场景的,它适合数据量级大,但每个数据元素结构和处理逻辑相对简单,才可以适合以Key Value的方式进行数据表达,同时,便于用MapReduce进行切片式分段并行计算处理。以交通运输行业数据中心为例,运输工具的实时经纬度位置数据,通信回话数据都具有结构简单,但数据海量的特点,对齐进行分析和计算需要耗费巨大的系统资源,因此,我们建议此类数据的服务应该采用Linux系统搭建基于Hadoop的分布式存储和运算集群环境,以供各行业用户有次需求时,可以随时迁移至该平台上,满足海量数据的存储于计算服务。

3 结束语

行业化数据中心可以有效弥补 “企业级数据中心”和“互联网数据中心IDC”在行业专业化服务的空缺,站在行业全局的角度可以纵向聚焦各行业的公共IT和数据服务。它为各级行业行政主管部门提供政务数据共享与交换平台,构建行业权威的基础数据库,为全行业提供公共服务,为行业各从业机构提供集约化的信息化托管和运维服务,符合行业特点的数据资源服务。

采用云计算技术构建数据中心,可以降低数据中心用户对IT资源的投入成本,最大化地利用行业共用基础设施。采用平台和软件即服务模式,可以为降低用户在使用应用系统的门槛,提高数据中心各系统的“高内聚低耦合性”。通过数据仓库的建设可以规范行业数据的管理,建立各主题数据资源目录,以及实现主题间数据资源的共享与交换,为数据挖掘与分析打下基础。

建设行业化数据中心的服务对各行各业信息化的发展具有巨大的推动作用,同时采用云计算和数据仓库技术构建行业数据中心具有科学和创新性,因此,作者建议各行各业关注建设基于“行业云”行业化数据中心的建设,以满足各行业自身对信息化和数据资源的整合与共享服务的需求。

[1] 袁玉宇.云计算时代的数据中心.北京:电子工业出版社,2012

[2] 王克照.智慧政府之路(大数据云计算物联网架构应用).北京:清华大学出版社,2014

[3] 王星.大数据分析:方法与应用.北京:清华大学出版社,2013

[4] (美)黄铠,(美)福克斯,(美)唐加拉.云计算与分布式系统:从并行处理到物联网.北京:机械工业出版社,2013

[5] (美)埃尔.云计算:概念、技术与架构.北京:机械工业出版社,2014

[6] 郑叶来,陈世峻.分布式云数据中心的建设与管理.北京:清华大学出版社,2013

Analysis of Cloud-based Industry Data Center Architecture

Li Jingjing, Xu Dan, Zhang Yongchao
(China Transport Telecommunications & Information Center, Beijing, 100011)

With the development of cloud computing, the combination of private and public clouds plays an important role in supporting and promoting the development of industry informatization. This article, through analyzing the necessity and demand of the data center, sums up the significance of constructing data center and its architectural design, puts forward a model which falls between enterprise-level and Internet-level. It not only satisfies the intensiveness of information resource in different areas, but also meets the special demand of professionalism. The analysis of the development on cloud-based industry data center, sums up the significance of its construction and preliminary architecture, aims at providing a referencable construction scheme for the development of industry informatization.

cloud computing; data center; Architecture

10.3969/J.ISSN.1672-7274.2015.09.013

TN919

B

1672-7274(2015)09-0053-06

李晶晶,女,1982年生,河北沧州人,工程师,长安大学工程硕士,主要研究方向为卫星通信及网络与信息化。

猜你喜欢
虚拟化数据中心服务器
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
通信控制服务器(CCS)维护终端的设计与实现
关于建立“格萨尔文献数据中心”的初步构想
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
中国服务器市场份额出炉
H3C CAS 云计算管理平台上虚拟化安全防护的实现
得形忘意的服务器标准
计算机网络安全服务器入侵与防御