田绵石
(中国铁路总公司 信息技术中心,北京 100844)
新一代数据中心架构及其智能监控系统的研究与探讨
田绵石
(中国铁路总公司 信息技术中心,北京 100844)
本文对数据中心的演变与发展历程进行了综述,分析了新一代数据中心的内涵和属性,提出了符合铁路信息系统运营服务要求的新一代数据中心架构,并对数据中心智能监控系统的作用、主要特征进行了分析与研究,提出了智能监控系统的体系框架,确定了智能监控系统建设与发展的主要技术路线。
数据中心;架构;智能监控
近年来,随着业务大集中与数据大集中的发展推进,数据中心成了IT界的热词,对数据中心的研究成为时下热点。但数据中心的特征与属性,数据中心与传统意义上的机房的区别,以及如何发挥数据中心的核心价值,都需要进行探讨与研究。本文从数据中心的演变与发展历程入手,理清数据中心,尤其是新一代数据中心的职能、属性和涵义,研究并提出新一代数据中心的架构,重点对新一代数据中心的智能监控系统进行研究,以其为建设好与运营好数据中心提供一些借鉴和思考。
数据中心的演变在一定程度上代表了信息技术的发展历程。数据中心历经单台主机系统、计算中心、信息中心、运营服务中心等4个阶段的演变,其核心属性也相应的经历了由物理设备、科学计算、信息支撑到现在的运营服务4个阶段的演变。
近年来,新一代数据中心的概念浮现出来,新一代数据中心的研究重点不仅是运营服务的保障技术,还重点研究数据中心的节能环保,如何降低PUE(数据中心整体用电量与计算机设备用电量的比率)是新一代数据中心研究的最热门话题。云存储、云计算、高性能统一网络等新技术在新一代数据中心中也将得到普遍运用。因此新一代数据中心的属性又增加了“绿色”、“云”等标签。
至此,不难看出数据中心与机房的区别了。在《电子信息系统机房设计规范》(GB50174-2008)中对“电子信息系统机房”的术语解释是:“主要为电子信息设备提供运行环境的场所,可以是一幢建筑物或建筑物的一部分”。因此,机房的核心属性是场所。数据中心的核心属性是运营服务,数据中心是由机房物理设施、IT基础设施、部署的业务信息系统、运维保障体系等构成的一个有机整体。机房是骨架,IT基础设施是血肉,运维保障体系是灵魂,最终目标是为企业的业务提供高质量的IT运营服务。因此,数据中心不仅是规模更大、档次更高的机房,而是数据中心的内涵和外延都发生了巨大变化。要想实现数据中心的运营服务功能,高水平的运维保障体系是关键,只有实现了高质量、全方位的运维保障,数据中心才能提供不间断的富有效率和效益的运营服务,这是与机房的本质区别。
铁路新一代数据中心的运营服务属性更为显著。上世纪七十年代,铁路信息系统的正规化建设发轫于全路的十八点统计系统,当时的信息系统架构属于扁平集中式,当时的数据中心具有典型的计算中心的特质。上世纪九十年代中后期,以货票系统三级建库和客票系统为代表的两大信息系统的建成,标志着铁路信息系统架构实现了分级存储转发式,各级数据中心具有典型的信息中心的特征。从2010年开始,随着互联网售票、货运电子商务、新一代客票系统等面向社会用户服务的高度集中式信息系统的投入运营,铁路信息系统步入了数据大集中式的建设模式,此时的数据中心呈现出了现代意义上的数据中心属性,即数据中心具备了运营和服务的属性。铁路数据中心,尤其是总公司级的数据中心,不仅承担着铁路运输组织、经营管理方面的信息化支撑,还直接承担着为社会提供客货运服务的任务,其运营服务的属性更为显著。运营服务包括数据存储、数据传输、数据发布、运行维护等。今天,数据中心已经成为了保持铁路企业核心竞争力的关键IT资产。这一变化,决定了铁路数据中心要以高水平的运维保障体系为核心来构建数据中心总体架构。
稳态下的数据中心架构应由物理基础设施、IT基础设施、运维保障体系这3个自下而上的层次构成,最终目标是为所支撑的业务系统提供精良的集中式的IT运营服务。新一代数据中心总体架构如图1所示。
3.1 智能监控系统的地位和作用
图1 新一代数据中心总体架构
运维保障体系是发挥数据中心运营服务价值的关键和核心。只有精良的基础设施而运维管理不到位,数据中心难以高效运行。当前建设的数据中心由于设施复杂、庞大,信息系统之间的勾连繁多且相互作用关系难以理清,当出现问题时如果没有运作有效、精细管理、反应快速的运维保障体系,越是高档次的数据中心往往越是问题的多发地,故障恢复时间就越长。这也正是IT运营者和IT管理者的共同困扰的问题。但是,由于研究目标的相对确定性和相关技术标准的相对成熟性,当前数据中心的研究多聚焦于物理基础设施和IT基础设施这两层。能够帮助数据中心实现高效运营服务的运维保障体系的研究相对较少。
运维保障体系中,智能监控是基础,流程与管理是规范,人是实施主体。由于新一代数据中心在物理规模上更为庞大,在设备设施方面更为复杂,部署在IT基础设施上的信息系统的技术环节以及各个子系统之间的关联关系也是越来越多,因此,数据中心为业务系统提供的整体运行环境是更为复杂,甚至是多变的方向发展。在这种情形下,靠人的经验与知识,靠传统的分散化的监控系统是无法胜任日益复杂的运行维护与技术保障任务的。因此,更为自动化、智能化的数据中心监控系统就显得格外重要,其在运维保障工作中将发挥关键作用,在运维保障体系中处于核心地位,其作用是不可替代的。
3.2 智能监控系统的特征
监控系统的发展经历了相当长的过程,甚至早于机房的产生。随着TCP/IP技术的发展和网络系统在信息化领域的运用,基于信息技术的网络监控在IT领域最先成熟起来。网络监控是网元级的,后来出现的网络流量监控也是对网元参数进行提取而实现的。由于网络监控维度的限制,后来出现了面向业务的监控,监控结果的展示也更加形象化、直观化。当前,面向业务全流程的监控应该是今后的研究重点。另外,对监控结果进行智能化的关联以实现异常现象的快速定位,以及对监控数据的趋势化分析与预测则是体现智能化的重要方面。
通过分析监控系统的发展变化,结合业务系统对数据中心所提供的运营服务的质量要求,智能监控系统应具备以下特征:
(1)监控范围全面化:要涵盖数据中心物理基础设施、IT基础设施、部署的信息系统等方面的监控。
(2)监控粒度精准化:要细分到板卡、模块、接口、进程等最小监控对象。
(3)监控维度多样化:要从设备、资源、业务全流程甚者用户体验等多角度进行综合监控。
(4)监控展示直观化:监控结果要以图像化的、直观的方式进行展示,要组合运用声光电、三维立体技术进行展示。
(5)监控结果关联化:对数据中心设备设施类的静态数据和系统配置类的动态数据进行全生命周期管理,将监控结果自动与静态数据、动态数据、知识库进行关联,以实现快速定位和排障。
(6)监控趋势分析与预测:对监控数据进行分析,提出趋势性预测,并根据预测进行提前防范。
智能监控系统的最终目标是要实现主动预防、准确定位、快速处置,达到自动化、智能化运维水准,为数据中心提供精良的IT运营服务。
3.3 智能监控系统的体系框架
如上节所述,智能监控系统具备6大特征:其中,前4个特征代表了监控自动化水平,后2个则是监控智能化的典型特征,是对前4个特征的提高和升华。
围绕这6大特征,来构建智能监控系统的体系框架,确定智能监控系统的组成部分以及各个组成部分之间的相互关系。
3.3.1 监控范围
监控范围全面化、监控粒度精准化、监控维度多样化从监控的广度、深度、维度3方面对智能监控系统进行了表述。在监控广度方面,应涵盖物理基础设施、IT基础设施、各个信息系统的监控;在监控深度方面,应深入到模块级、接口级、进程级,数据采集粒度要精准;在监控维度方面,应从设备角度、资源角度、业务流程角度、用户体验角度多维度监控。近年来,直接面向社会用户的互联网售票相关信息系统投入运营,网上售票业务涉及网站登录、余票查询、选票、下单、支付、出票、结果通知等多个相互关联的步骤,每个步骤又涉及多个子步骤,任何一个环节出现问题都会直接影响售票业务,因此,对于铁路信息系统的监控来说,面向业务全流程的监控以及面向用户体验的监控显得尤为重要。
3.3.2 监控展示
监控展示直观化从外在表现方面对智能监控系统进行了描述。由于监控系统的最终使用者是人,因此一套有效的监控系统其外在展示一定是简单直观的、形象的、便于观察和易于判断的。而简单直观的、图形化的,甚至是三维立体的小、精、专的监控系统得到了业界的普遍认可。由于监控数据的类别、数量都异常庞杂,监控展示直观化的实现难度是非常大的,要求对监控结果要有精准的提炼和展现,展示结果既不能丢失重要的监控数据,又要突出重点,运用图形、声光电等技术全方位形象化的展现重点监控数据。
3.3.3 监控结果
监控结果关联化是整个监控系统的提高和升华,是最终体现智能化水平的关键,也是技术实现难度最大的一个环节。所谓监控结果关联化,就是要求监控系统能将监控到的非正常数据与监控对象进行正确关联,自动定位出异常情况在系统中的物理位置、逻辑位置、可能影响的业务系统及哪个业务流程,影响的程度,以及应该采取的处置措施。实现了这一点,才能说监控达到了智能化水准。当前的很多监控系统为运维人员提供了海量的监控结果数据以及对应的报警信息,在监控系统的协助下,运行维护工作实现了由被动补救到主动出击的转变。但由于没有实现监控结果的智能关联,运维人员面对这些海量的监控数据仍无法快速定位问题,而且随着监控对象的增多,系统之间的勾连复杂度越来越高,定位问题的难度反倒越来越大,导致故障恢复时间过长,故障影响仍然较大。要实现监控结果的智能关联,就要求我们要事先建立并动态维护资产类的静态数据、配置类的动态数据、问题分类的知识库,这样当监控到非正常数据后才能定位出物理位置和逻辑位置。同时还要先实现全面化、精准化、多样化的监控,如业务全流程的监控,当监控到非正常数据后才能定位出是哪个业务系统、甚至是具体哪个业务流程受到了什么程度的影响。由此可见,监控结果关联化是实现智能监控的标志性特征。
3.3.4 监控趋势分析与预测
关于监控趋势分析与预测,类似于专家系统,就是监控系统能对同类的监控数据进行自动统计与分析比较,给出预警类趋势预测,帮助数据中心运营者提早防范。
综上所述,智能监控系统的体系框架如图2所示。
图2 新一代数据中心智能监控系统体系框架
3.4 智能监控系统的关键技术
智能监控系统的体系框架是一个整体,是由多个耦合程度不一的功能模块(子系统)所组成。
物理基础设施方面的监控主要采用数模转换技术采集现场的温湿度、电量、影像等模拟量,并进行图形化展示。物理基础设施监控应包括场地环境、供配电、门禁等方面的监控,并应将代表数据中心物理能力的空间、电力、冷量这3要素纳入资源监控范畴,即不仅监控状态是否正常,还要监控这些资源的占用情况,以便数据中心管理者能够对这些资源进行管控和调配。在直观化展示方面,应增加数据中心机房空间的三维立体展现功能,能按实际比例和实际场景进行缩放。此外,应运用热学原理和红外技术直观化的展示数据中心机房空间的热量分布。
IT基础设施方面的监控主要采用TCP/IP技术、代理机制、轮询机制采集被管对象的监控数据。目前,IT基础设施监控在业界基本成型,主要包括网络与安全、存储与服务器、系统软件、数据库与中间件等方面的监控,已精细到了线路、模块、接口、进程等颗粒度,并将带宽、CPU、内存、连接数等纳入资源管控范畴。需要注意的是,应增加用户体验方面的监控,尤其是面向社会服务的网站的访问速度、响应时长等的监控。
业务信息系统方面的监控主要采用代理机制对重要进程的状态进行监控,需进行客户化定制。业务信息系统的监控需向业务全流程监控的方向发展,尤其是互联网售票类的面向社会服务的业务,其全流程监控的意义更为重大。全流程监控不仅能让运维技术人员,也能让业务管理者全面掌握业务信息系统的运营情况,如果全流程监控做得直观化、形象化,还能促进业务部门更为深入的使用信息技术。
要实现监控结果的自动化关联,必须要建立并动态维护3个数据库:资产类的静态数据库、配置类的动态数据库、知识库。其中,静态数据库和动态数据库构成配置管理数据库,这是智能监控系统对异常情况进行问题自动定位的依据和基础。知识库是智能监控系统对定位后的问题自动给出解决建议的依据和基础。当然,配置管理数据库和知识库需要持续不断的进行更新和完善,且这两类数据库要根据权限建立严格的访问控制机制。
监控趋势分析和预测主要是对海量的监控数据(包括正常数据和异常数据)进行统计分析,产生预测报告,为数据中心运维者和数据中心管理者提供预防性的建议。
智能监控系统本身其实就是一个相当庞大复杂的信息系统,且其重要性应不低于重要业务系统。因此为保证智能监控系统的可靠性和独立性,智能监控系统在条件允许的情况下应独立组网,带外监控,并应按重要信息系统的等级进行容灾,包括设备冗余、数据备份、应用级本地灾难恢复、访问控制安全防护。
数据中心的智能监控是提高数据中心运维水平的核心要素,是发挥数据中心运营服务价值的关键。当前,云计算、虚拟化甚至虚拟数据中心在新一代数据中心中将逐步得到运用,业务系统也要求数据中心应更加敏捷,业务部署应更加灵活,这些新的特点都会给智能监控系统带来一定程度的挑战,加大了技术实现难度,这都需要我们今后逐步探讨。
[1] 李吉梅, 宋铁英. 信息系统服务质量评价研究综述[J]. 情报杂志, 2007(4):26-29.
[2] 沈智鹏. 论电力企业数据中心的架构设计[J]. 科技促进发展 2011(4).
[3] 蔡森炎,徐 畅,任勇毛.云计算环境中的数据中心网络架构设计[J]. 科研信息化技术与应用,2012,3(3):20-28.
[4] 林海雄. 数据中心环境监控系统[J]. 建筑电气, 2009(12).
[5] 中华人民共和国工业和信息化部.电子信息系统机房设计规范GB50174-2008[S].北京:中国计划出版社,2008.
责任编辑 徐侃春
Architecture for new-generation data centers and its Intelligent Monitoring System
TIAN Mianshi
( Information Technology Center, China Railway, Beijing 100844, China )
This paper fi rstly addressed the evolvement and development of data centers, analyzed the attributes of new-generation data centers, raised the architecture of new-generation data centers which was suitable for railways Information Systems’ requirements, analyzed the importance and main characters of intelligent monitoring system, proposed the architecture and typical technical route of Intelligent Monitoring System.
data center; architecture; Intelligent Monitoring System
U285.4∶TP39
A
1005-8451(2014)07-0034-05
2014-01-25
田绵石,高级工程师。