马寅生, 丁 昊
(中国建设银行股份有限公司,武汉 430074)
数据中心的供配电、暖通、给排水、消防、安防等基础设施系统是保障各种应用业务不间断运行的基石,但是长期以来相较于IT业务系统,数据中心基础设施系统的运行管理一直没有受到应有的重视。武汉生产园区作为中国建设银行核心生产基地之一,为切实提升防范金融风险能力,针对园区数据中心基础设施运营管理中的痛点难点,建设了集基础设施集中监控、运营运维、资产和能效管理等功能于一体的基础设施运维管理平台(以下简称“DCIM”,Data Center Infrastructure Management),将三维建模、NFC、大数据分析等技术创新性地运用于运维,实现了基础设施的预防性维护、问题预警、故障处置和结果检查的全流程管控,对资产设备实现了全生命周期器件级管理。DCIM投用后纳管了数据中心基础设施设备6 300多台,监控点位81万点,对UPS、柴油发电机等742台核心设备实现了器件级管理,使故障点精准定位时间缩短75%,设备故障率降低16%。本文主要研究中国建设银行武汉生产园区DCIM项目的建设经验与应用实践。
目前业内在基础设施运维管理方面存在的主要问题包括以下四点。
(1)运维管理缺少全局视图,管理信息割裂。在基础设施运维方面缺少对管理全局视图的研究,即使使用了部分运维工具,也局限于解决单个领域范围内的问题(比如使用流程工具解决流程管理的问题,使用巡检App解决巡检的问题),这种分散的运维工具和系统使完整的运维信息流被割裂到不同的系统中,无法从整体对运维工作、质量进行管控。
(2)运维管理的自动化水平较低。相较于IT业务管理,基础设施的运维事务如维护维修、资产、容量等管理仍依靠手动纸质方式,基础设施系统如供配电、空调暖通的自动化水平较低。
(3)管理精细化水平不够,流程使用僵化。受限于基础设施管理的自动化水平较低,因此无法实现庞大设备资产的全生命周期管理,如对设备实现器件级管理的手段等,难以实现精细化的管理。流程过于繁重,使用僵化,同时流程又没有与对象和任务执行关联,导致实际运维操作完全脱离流程本身。
(4)缺少可视化的监控管理工具。因为基础设施不同于IT设备设施一般位于可见的位置区域,大量的基础设施关键设备设施(如阀门、供电、供水管线等)位于天花板上、地板下甚至地下等隐蔽区域,在没有可视化监控工具支持的时候,对于故障点、影响区域、关联系统的快速定位存在较大问题。
为了能清晰的解决问题,数据中心行业内定义了传统运维向智能运维的变化和演进过程,共分为L0~L4五个阶段,并定义了每个阶段的典型特征。表1所示为各运维阶段主要特点。
各运维阶段主要特点 表1
(1)L0 手工运维:无标准运维流程,依赖个人或团队的经验,运维质量基本取决于运维人员的经验和能力。
(2)L1 规范运维:已经形成标准化流程,可以通过培训等手段对运维团队循环赋能,但普遍存在部分流程过于僵化或部分实践游离于流程之外的问题,运维效率较低,对团队及核心骨干的依赖度很高,运维质量评估难,自动化程度较低,使用简单监控、自动控制等系统辅助运维。
(3)L2 成熟运维:运维流程趋于成熟,运维质量有较好的保障,但运维效率不高,重视运维团队的建设,团队能力通常有较好的延续性,但无法自主优化;辅助系统较为完备,部分核心子系统具备自动化能力。
(4)L3 数字运维(现阶段水平):在L2的能力基础上,建立适用于大型数据中心基础设施运维管理的运维平台,将运维各事项纳入运维平台,管理和驱动运维流程的执行,并对各项运维过程数据进行收集,运维质量可以准确评估,运维效率大幅提升;关键子系统(如配电和制冷)实现自动运维,AI等机器智能尝试在节能、故障预测等特定领域进行探索与实践。
(5)L4 自动运维:基础设施实现自动运维,重复性的工作(如巡检等)基本交由自动化系统实现,分析性事务可由人工智能进行辅助决策,运维效率极高,运维流程复杂度大幅下降,运维人员需求大幅降低,基础设施资源能够根据IT及业务需求变化动态调整,实现少人值守、无人值守。
结合DCIM系统架构图(图1),可以了解如下内容。
图1 DCIM系统架构图
(1)运维平台应是对基础设施运维管理全领域的纳管和优化。不同于一般监控软件或者其他(如流程平台等)关注特定领域的管理事项,运维管理平台应是在梳理清楚基础设施全部管理领域的基础上,对全领域进行纳管,在此基础上以资产对象为主线,将运维的完整信息流通过资产管理对象串联起来。
(2)运维平台应具备运维过程数据的收集能力,并可基于数据做相应的分析和处理。运维的过程数据(包括监控、巡检、流程等)是驱动运维工作转向智能的基础。
(3)强调计划执行检查优化(“PDCA戴明环”,Plan Do Check Action)在平台的整合。主要是解决管理“最后一公里”的问题,要确保所有的计划都有对应的执行,执行的情况可以回溯、检查。运维管理的计划-执行-检查-结果处理优化与整个“PDCA戴明环”是不可分割的。通过系统实现闭环管理,并不断提升执行力,优化工作的各个环节。
在上述的基础上,建设银行武汉生产园区通过建设数字运维平台对数据中心庞大的基础设施系统和设备进行管理,并进一步进行智能运维的探索与实践,以下是部分建设内容的经验总结。
(1)电子巡检
电子巡检功能着力解决两项问题,一是确保巡检质量。通过NFC卡片确保人员必须到达工作地点,通过平台对巡检路线和巡检时间进行约束,确保巡检质量。二是提升巡检效率。通过与后台监控对接,减少抄表的环节,使单次巡检的时间减少了40%,同时更多地将巡检重点放在监控覆盖不到的地方(比如异味、异响等),同时校验监控系统,更好地实现巡检与监控的互补。三是通过系统收集巡检数据,可以方便后期对数据进行分析和检查,不断优化巡检路线、时间和次数等,提升对设备的预防性维护的能力。
(2)全生命周期器件级资产管理
资产对象是运维平台的基础,几乎所有的运维活动都是针对资产对象(如巡检、维修、维护、监控等),资产管理既要解决不全面、不精细的问题,也要对运维的信息流进行有效串联。一是对设备实现器件级管理,消除潜在的隐患。基础设施系统的核心设备普遍生命周期较长,但是其关键部件的生命周期往往较短,以UPS为例,UPS本身生命周期基本是20年左右,但是电容器寿命仅为4年,对这类核心设备实现更精细的器件级管理,在关键部件寿命到期后,系统自动提示更换,提升了管理的精细化水平。二是实现设备从需求、采购入库、使用、报废的全生命周期管理。考虑到核心设备的生命周期较长,因此需要对从需求到报废各阶段的信息统一纳管。
(3)可视化监控
采用可视化监控在出现故障以后可以极大提升应急处置的效率,因为基础设施系统管理的难点在于系统内部和系统之间的逻辑、关联关系多而且复杂(比如供配电系统会影响暖通、安防等相关系统),同时系统设备量大,位置分布广,同时存在关键设备与管线处于隐蔽区域。基于这些特点,可视化监控采用二维和三维相结合的方式实现,通过这两者的结合与互补,可以更全面展现系统的物理、空间和逻辑关系。在发生故障的时候可以迅速从系统和空间层面对故障点进行定位,其故障定位的效率可比传统的方式提升约75%,故障点的平均定位时间可缩短至1min以内。
表2所示为DCIM平台应用效果对比情况。
DCIM平台应用效果对比 表2
运维管理平台、结构化的过程运维数据和自动化是实现智慧运维的基础,但后续还需寻找契合AI等技术的运维业务场景。以下是笔者所在团队正着力推进的两个方向。
(1)从数据收集向挖掘利用转变
运维平台具备了对过程数据的收集能力,在此基础上应考虑挖掘应用场景,从数据的收集整理向挖掘利用方面转变。例如数据中心的空调暖通系统由楼控系统进行控制,楼控系统提取制冷系统的运行参数及运行状态数据后,将数据发送给人工智能平台,通过人工智能对历史数据的学习,训练出PUE优化控制模型。模型固化到推理平台,推理平台根据实时气候条件、IT负载等因素,输出最佳的控制策略下发群控系统优化制冷系统能耗。
(2)从数字运维向自动运维转变
AI在基础设施运维活动中有广阔的应用前景,特别是在设备故障预测方面。运维平台具备了对基础设施数据的收集能力,为AI运用提供了有效的样本数据支撑,能够快速训练出较高准确度的故障预测模型。通过对设备故障的预测,可以把例行的巡检、保养变成更有针对性的运维活动,随着预测准确率的不断提升,最终可以极大地减少甚至取消日常的人工运维。