探索面向服务的数据中心运维新模式

2018-08-01 18:07陈栋
中国信息化 2018年7期
关键词:运维数据中心监控

陈栋

一、以面向服务为原则,构建信息资源的逻辑云图

近几年,河北地税系统各类数据和业务逐步由市级集中过渡到省级集中,在数据中心部署的各类信息系统间的关联关系日益复杂、支持运行的硬件数量不断增加,对安全性、可用性与连续性依赖程度越来越高,给运维管理工作带来巨大压力。因传统的运维模式“重点轻面”,偏重于对单一设备资源的监控和事件处理,缺少对全局性影响的分析和预估,被动运维事件多,主动预防工作少,易产生扩散性影响,造成严重损失,已不适应新形势的需要。

为此,河北地税在深入总结分析运维现状的基础上,大胆创新、勇于尝试,以数据中心内部信息资源间的关联关系和数据流向为主线,以面向服务为原则,按照信息资源在服务过程中的定位来划分服务层次,建立起覆盖数据中心全部信息资源的“四层一树”逻辑云图。在实施过程中,按照自下而上原则将信息资源横向划分为基础设施、设备资源、数据存储、系统软件四个服务层面,其中又细分了动力配电、空调新风、消防安全、网络系统、信息安全、计算主机、数据存储、应用软件等11个服务单元。同时,以全部24个业务系统和17项对外数据及应用服务为主线,自顶而下构建支撑每个业务系统的软硬件资源树型拓扑,呈现逻辑清晰的业务系统服务支撑架构。

通过构建以服务为对象的信息资源逻辑云图,将业务系统之间、设备资源之间的服务关系紧密衔接起来,使逻辑拓扑一目了然,为运维监控管理工具的整合确定了方向,方便了流量分析、服务评价、影响度评估等运维管理工作开展,彻底消除了“只见树木、不见森林”的弊端。

二、以先进技术为依托,集中管控信息资源

实现信息资源的集中管控,是面向服务开展运维工作的前提条件。通过借助先进技术手段,实现了信息资产管理的标准化、物联化和监控展示的集中化。

(一)构建配置管理数据库,实现信息资产全生命周期管理

将机房各类信息资产(服务器、中间件、数据库、网络、业务系统)进行整合,采用全生命周期管理方式,详细记录信息资产从需求、规划、采购、上架、运行、维保、下架、报废的全过程。通过应用配置管理数据库,对各类设备资源提供服务关联配置,使之成为一条完整的关联链,涵盖了设备及软件资源的各项配置信息,当其中一项服务或者设备告警时,可第一时间对其相关联的服务进行排查。通过采取全生命周期管理和使用配置管理数据库,彻底解决了因应用不断拓展、机房设备不断添加和升级,而导致机房管理难度增加、管理混乱的情况,实现了机房设备管理的标准化,为各项监控工具的信息整合提供了基础平台。

(二)利用二维码技术,实现信息资产的物联

由于二维码具有储存量大、可追踪性高、抗损性强、备援性大、成本便宜等特性,成就了其作为信息标识载体的核心地位。河北地税汲取物联网思路,以信息资产管理和配置管理数据库为依托,以二维码标签为载体,为每个设备贴上了独有的二维码“身份证”。运维人员通过手机专用软件对二维码进行扫描,即可查看设备的相关信息,实现快速、准确的设备信息获取,提升了工作效率,减少了故障设备排查时间,最大程度保障运行安全。例如,通过手机扫描一台服务器的二维码可获取到该设备的编码、设备型号、硬件配置、主要用途等基本信息。经手机专用软件的认证授权后,可进一步查看该设备在信息资产管理和配置管理数据库中的详细信息,不仅包括该设备自有的软硬件配置信息,还可按照“四层一树”原则查看与其关联的其他服务单元信息,实现了设备管理的高效性、透明度和智能化。下一步,河北地税将在现有功能基础上拓展机房巡检功能,进一步完善运维掌上工具。

(三)通过三维展现平台,集中监控信息资源和应用服务

根据业务系统部署逻辑,按照“四层一树”原则,利用三维展示平台,虚拟构建机房各类实体,将各类管理工具、监控系统整合到可视化管理系统中,并由各个自动化、智能化系统提供实时监控数据,使其具有高度的可视化、可操作性,生动且具体的展现了数据中心每个资源的监控指标,使运维人员通过运维屏幕监控机房各项系统的运行情况,实现了资产可视化、容量可视化、管线可视化、监控可视化等功能。同时,通过各种终端(手机等)展现,进一步满足一体化全息监控和管理需要,实现了“全天候无人值守”机房。通过三维展现平台,不仅可以按照业务系统维度逐层展现关联资源运行状态,也可根据某个资源查看其关联的其他资源及所服务的顶层业务状况,为快速定位资源故障和影响度分析提供了帮助。

三、以科学管理为手段,构建运维新模式

“三分技术,七分管理”,以“流程标准化、反应快速化、资源弹性化、管理自动化”为抓手,积极构建数据中心运维管理新模式。

(一)制定标准化、自动化的数据中心运维管理流程

严格遵守总局制定的《税务信息化系统运行运维管理公用规范》,并参照工信部发布的ITSS服务标准和国际通用的ISO20000等运维管理方式,结合实际情况,建立了相关的运维管理标准化工作体系。通过监控与运维管理技术平台的融合,将监控告警信息自动接入运维管理平台,运维事件在运维管理平台处理后才可关闭告警,有效地将人员、技术和资源要素连接起來,快速发现事件问题并指导运维人员按标准流程处理,切实做到“有事记录、有事可查、有事到人”,对运维工作起到了有效的支撑作用。

(二)保障业务系统服务稳定,开展全流域监控分析

机打发票管理系统于2012年部署上线,与核心征管系统、税库银等系统均有数据交互,且做过多次升级完善,但仍有基层反映系统响应慢、偶尔中断情况。我们在排除软硬件故障的情况下,还需投入大量的人力去还原分析,无法追踪且不易判断,给运维工作带来不小压力。按照面向服务的运维原则,以支撑发票管理系统的树型拓扑的信息资源为监控目标,采用全流域监控分析的方法,通过专业监控工具实时抓取数据包从终端发出到返回所经过的信息资源耗时和资源占用情况,进行自动化比对分析,以此发现潜在问题,涉及终端系统、网络传输、安全设备、负载均衡、中间件、数据库等多个环节。经过数据采集和比对分析,发现了因两项不常用查询业务的数据库脚本编写不规范,造成脚本长时间过多占用数据库资源导致其他服务响应缓慢的问题,以及个别基层单位网路丢包及终端落后等其他资源问题。

以业务系统服务为主线的全流域监控分析方法,不仅能及早发现潜在的软件设计与编码问题,还有利于对各类信息资源的承载情况进行综合分析,为后续资源配置工作提供参考。

(三)利用统计分析方法,提升数据中心服务单元能力

数据中心运行是动态的,通过各类监控工具可以记录每时每刻的变化,当发现异常时,及时将告警通知运维人员,或者软件自动启用备用系统,确保数据中心继续稳定运行。大多数情况下,海量的监控数据要么被遗弃要么沉睡下去。从优化资源配置、提升服务能力的管理角度出发,探索性的将各类监控数据进行了数据整合,利用统计分析方法对各类服务单元进行使用频率、资源占用和影响度进行趋势分析,为日常运维管理决策依据。例如,在去年的季度数据分析中,我们发现一列机柜的温度值长期高于其他机柜,为其提供冷风服务的机房空调也是满负荷运转,照此以往将不利于柜内设备散热并导致服务效能下降,为此维护人员及时调整了该列机柜柜内设备的数量和间距,确保散热均匀。

四、找准面向服务的切入点,运维管理水平显著提升

探索面相服务的数据中心运维管理的初衷是构建致力于降低 IT 成本、提高业务影响力、改进服务质量、管理风险和提供透明度的统一运维管理新模式,使数据中心可根据业务服务需求高效地执行和管理技术与流程,从而快速提供创造更大业务价值的新服务,兼而能以更低的成本支持现有的服务。通过近几年的探索和实践,河北地税面向服务的运维管理已初具成效:一是实现了全部信息资源的标准化、动态化管理,共梳理软硬件资源信息千余条,杜绝了“设备无人认领,资源找不到归属”的弊病;二是通过集中监控运维,整合了7个监控工具,总结梳理监控盲区21个,新增关联告警事件36类,大幅提升了专业监控工具自身的监控能力;三是构建了27个业务系统树型拓扑,当监控捕捉到各个服务层次的监控事件时,通过拓扑的影响路径推算,快速分析影响范围,区分出根源事件和表象事件,有效的解决了在日常运营、应急处理和优化分析方面的管理效率问题,日常事件处理效率提升50%以上;四是充分利用整合的监控数据进行统计分析,通过可视化手段展现数据中心能耗、空间、承重、流量等统计信息,不仅可以快速直观地为新增设备寻找合适的上架空间,还为资源配置提供了數据参考,提高了部署、更新和容量扩展效率,使数据中心具备足够的敏捷度。

结束语

虽然河北地税在数据中心运维管理方面的探索取得了一点进步和成绩,但与总局和信息技术行业的要求相比,与其他单位的成功经验相比,还存在一定差距。在数据中心运维管理上,河北地税将加快完善云计算和物联网时代数据中心运维管理的一体化、网络化和智能化进程,为进一步提升信息化对税收事业的支撑能力不懈努力。

猜你喜欢
运维数据中心监控
关于间接蒸发冷机组在数据中心中应用的节能分析
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
2018年数据中心支出创新高
通信电源监控系统在电力通信中的应用
2017第十届中国数据中心大会榜单
GPS/DR/GIS技术在基于GSM—R列车监控系统中应用
侦察兵
电子政务甲方运维管理的全生命周期
1-Wire在家庭监控网络中的应用