曹杰
上海宝信数据中心有限公司 上海 200949
随着我国IDC产业发展迅速,数据中心在功能内涵和特征上在持续不断发生着变化,以“安全可靠、节能高效、集约化管理”为标准的新一代数据中心已经成为发展方向,基础设施的高效安全运维日益引起各方的高度关注。数据中心运营管理(Data Center Operation Management,DCOM)产品作为实现数据中心基础设施运维管理的重要技术手段,在信息化建设实践中得到了日益广泛的应用。因此数据中心运营管理DCOM产品的数字化高效率显得尤为关键。本文通过将数字化电子点检引入数据中心运营管理DCOM产品设计中,使用三值同屏校对算法对基础设施运行数据进行多维度诊断处理,较好地实现了数字化运维的可靠性和高效性。
数据中心基础设施运维起源于小型机房运维,早期的机房设备运维主要以手动纸质表单抄表点检为主要工作形式。这种方式的设备点检工作,在机房规模不大设备数量不多时,可以做到定期完成按时归档,必要时也可人工调档核对数据。但是当机房发展成数据中心,甚至是超大数据中心园区规模时,手动纸质表单抄表式点检已远不能满足现场运维工作的要求。于是,如何解决巨量基础设施周期性快速点检,即可以满足现场高效率合规性要求,又能满足后期运维体系管理时的快速审查,成为一个数据中心运维管理信息化建设的核心问题,迫切需要一种高效率、数字化、实时性好、合规又方便的解决方案。
笔者经过现场多次调研以及对现场设备点检工作业务建模,最终设计出一套基于三值同屏校对算法的电子点检方案。所谓设备点检是针对数据中心基础设施的设备,釆用有效的仪器仪表等工具,安排一定周期和频次实施的检查和诊断,记录检查数据或运行数据,评价和判定该设备的运行状况,是预防性维护的数据基础。设备在进入运行期之前,根据该设备未来需要运行维护的要求,为设备日常点检所需识别出检查项内容。在完成电子点检基础运行数据建立之后,围绕着PDCA的数据中心运维管理闭环,电子点检工作从计划、执行、检查到分析,开始持续不断地进行优化提效[1]。本方案所设计的电子点检主要通过建立日常点检工作机制,由各基础设施专业技术专家为设备制定必备的运行数据检查项,可根据运维管理人员组态化建立点检运维工作计划,系统自动生成的点检作业任务和作业标准,由运维人员按部就班实施并跟踪,点检记录实时反馈到系统,并可根据点检记录自动创建事件。其中在设备点检任务中,系统会提供三值同屏的数据校对处理,即设备的动环监控采集值、SCP值和现场运维人员抄见值,同时获取后自动进行联动比对判定,可有效识别是否是动环监控系统数据异常,还是设备本身运行异常等情况,发生上述问题系统会自动创建事件并自动通知运维人员跟踪处理。当设备出现故障时,运维人员可以通过手持移动设备对故障现场进行拍照归档,照片数据会自动关联事件进行流程化跟踪分析。同时本设计方案可实时动态反馈系统运行状态数据和运行参数,动态关联SOP和EOP,帮助运维人员规范、高效地开展各项运维工作。其主要优势是实现了运维人员日常运维工作的规范化和标准化,有效地提高运维工作效率和质量。
在完成了规划电子点检如何执行的规范检查项定义后,为让电子点检可灵活开展多种执行组合,特别地把电子点检计划设计成一个内容可编排模板。允许运维人员对计划的开始时间、执行频率、执行内容、业务专业以及工时耗时等多维度按需规划。对于数据中心所投运的基础设施,按专业划分有电气、暖通、消防和弱点四大主类。不同的分类有不同的点检检查规范,即便是同一专业也有重要和次要设备之分。为确保适用各种可能的点检场景,电子点检计划允许运维人员根据实际需要自定义点检规范项,对未来可能的运维场景有较好的兼容性。
如图1制定计划流程所示电子点检计划在完成规划创建后,根据运维管理流程需要流转各管理岗进行审核确认完整性和规范性。在数据中心基础设施运维管理体系中,设备运维工作涉及运维一线操作人员和运维二线技术人员。电子点检计划通常从运维操作人员发起创建,根据运维现场的管理要求和租约内客户个性要求,形成针对性的定制化电子点检计划。运维二线技术人员从专业角度评估计划的可行性,完成对被检查设备运维管理规范的逐项确认后审核通过。计划通过系统会自动根据编排规则生成所有点检任务,任务会在规划的时间节点按时被激活,动态根据设备实际的运行情况匹配加载相应的点检检查项内容。因数据中心运维现场的设备运行情况错综复杂,为严守UPTime&MO体系规范的有效执行,确保点检工作开展的完整性和灵活性是电子点检的核心要求。如图1任务执行流程所示电子点检任务一旦被激活,会根据运维人员的排班计划,提前推送到各运维人员账号的任务池中。任务的执行允许单人串行模式或者多人并行模式,运维人员可直接受理任务开始检查,也可在运维组长的分派下有序进行,如图2所示受理任务的运维人员只需手持移动设备去现场操作即可。
图1 点检计划及执行流程图
图2 现场电子点检执行图
为进一步提高多人并行点检执行的效率,如图3任务可视化界面所示,系统提供任务待执行区域、任务执行中区域、任务已完成区域和任务未包含区域的显示提示,多名运维人员在相互配合下,可根据楼层空间制定最佳点检任务执行路径,可把单次点检任务执行耗时优化到最优值。
图3 任务可视化界面图
容器化的电子点检计划很好地为每一个机房区域规划点检内容和执行时间,对于运维人员来说无须对具体的点检内容负有记忆负担。手持移动电子点检设备,根据规划执行路径依次对来机房门口扫二维码,微运维App会自动加载对应的点检执行内容。此时运维人员只需根据系统提示,观察现场设备所需确认的运行数值,结合点检规范和检查项要求确认是否正常,一旦现场有异常情况系统会强制要求拍照自动创建运维事件工单开启运维流程管理[2]。
如图4所示电子点检界面主要展示内容有,该设备对应的真实图片,该分类对应房间包含的检查项数量,设备对应的检查项明细内容。检查项如果未开启拍照选择,或者输入的检查值未超出SCP上下线值,拍照按钮不显示,如果检查值异常将显示拍照按钮,必须拍照上传照片后方可提交任务。检查项的检查值输入后,【提交检查】按钮转为可执行状态。提交执行后所有检查值不允许再次更改,系统判定已提交的检查值。电子点检检查项在前期模板化梳理时,允许运维人员配置直接判定参数和复合判定参数。 所谓直接判定参数是指所规定的指标数据会直接用于现场校对处理,而复合判定参数可嵌套进行上下文关联校对,适用于现在设备与设备间存在运行数据相互影响的场景[3]。针对设备的动环监控采集值、SCP值和现场运维人员抄见值,判定使用三值同屏复合校对,算法所覆盖的处理策略如下,处理流程如图5和图6所示:
图4 电子点检三值同屏界面图
图5 检查值判定流程图
图6 监控值判定流程图
当检查值超出SCP范围,系统判定为异常并创建事件。
当检查值超出监控值+-5%范围,系统判定为异常并创建事件。
当检查值未超出SCP范围,但超出监控值±5%范围,系统判定为异常并创建事件。
当检查值未超出SCP范围,未超出监控值+-5%范围,系统判定为正常。
当SCP值为【无】,检查值超出监控值+-5%范围,系统判定为异常并创建事件。
当SCP值为【无】,检查值未超出监控值+-5%范围,系统判定为正常。
当SCP值为【无】,监控值为【无】,系统判定为正常,本次检查只做记录。
如果当前设备的检查项有故障,则在故障列打叉,如果当前设备有未关闭的事件,系统不再创建事件,检查结果为上次检查的未关闭事件。
电子点检任务在计划的管理和推送下,约束着运维人员定期去完成既定的工作,一次任务的执行将同时考察设备的运行是否正常、运维人员的工作是否合规。于是整个电子点检的设计在最后采用服务报告的形式,将任务具体的执行数据汇总加工后推送给运维管理人员。在服务报告数据分析时,运维管理人员会关注几方面的指标,一任务是否按计划准时执行,评价的是运维人员工作的时间合规性;二任务执行中是否有设备出现异常,评价的是间断性的检查确认设备是否正常运行;三设备历史未解决的问题是否依据存在,关注设备已发现问题的持续影响时间;四设备检查记录关于时间按计划完成分布,从报告中可以直观看到检查的有效性和完整性。通过持续对上述四个维度的检查执行情况进行跟踪分析,根据分析结果进一步对电子点检计划进行调优,可符合运维管理规范的同时,不断对运维工作效率提升。
如表1所示,笔者所在数据中心园区有多个4000机柜左右的单体节点,主要客户有电信、移动、联调、阿里、腾讯等各类大型用户,各个数据中心单体实际建设结构均不一样,现场对设备的点检要求也各不相同。在本文所设计的电子点检交付现场应用后,对比原有手工点检的单人模式执行耗时,采样平均值手工点检需要124分钟左右,而数字化的电子点检仅仅需要50分钟左右。在保证点检工作规范性和完整性的同时,运维人员工作效率大幅度提升,并且全面数字化的运维执行和管理,也让现场设备问题的跟踪做到了全流程的管控,很多设备问题可在第一时间被发现,避免了数据中心二次不可逆故障的发生。另一方面,数据中心运维管理的各类体系规范规定,所有运维工作需做到全程数字化记录归档,随时可对历史的检查数据进行调档查询。全面数字化电子点检可充分满足运维规范的落地和执行,为提升数据中心运维管理能级提供强有力的支撑。
表1 手工点检与电子点检单人模式耗时比对表
本文通过将基于三值同屏校对算法的数字化电子点检,应用到数据中心的基础设施运维管理工作中,充分发挥三值同屏校对算法执行效率高、可靠性好的特点,有效提升了基础设施运维工作的效率和质量。将设备的动环监控采集值、标准设定SCP值和现场运维人员抄见值进行多维度组合检查,可实时直观地发现运维现场可能的关联问题。相比同类型的数据中心设备运维管理工具,本文所设计的电子点检方案在可用性方面有独特的创新性,在满足运维管理体系规范的前提,能够结合运维工作现场的复杂运行环境,很好地将各种可能的异常判定情况融合在一起进行校对,实际应用后验证了其有效性和便利性,可广泛应用于各类数据中心运营企业的运维现场。为让现场运维工作能够结合当前运行趋势与历史运行数据进度对比分析,下一步将从电子点检历史数据进行分析挖掘,提炼基础设施运行参数的相关趋势模型,对电子点检三值同屏校对算法做进一步优化提升,实现初步的机器学习辅助后智能化电子点检。