曹 艺
(中车青岛四方机车车辆股份有限公司,山东青岛 266111)
数据中心基础设施智能运维平台是数据中心运维管理的重要组成部分,以智能化的手段解决传统运维过程中人工工作量大、效率低、安全风险高等问题,并具有自主学习、自适应、自优化的特点。目前,越来越多的数据中心都在积极推进基础设施智能运维平台的建设,以期实现对基础设施整体运行情况和资源状态的全方位监测与智能分析,并建立以数据中心基础设施为核心的运营管理体系。
在传统数据中心运维模式中,运维人员通常需要通过对网络设备、服务器、存储设备、应用系统等各类型基础设施的多次巡检和巡检记录,实现对基础设施运行状态的实时监控。但由于传统的巡检方式由人工进行,不仅存在人力成本高、效率低等问题,而且巡检人员常常会出现遗漏和疏忽等现象,造成基础设施管理中的漏洞。在基础设施智能运维平台中,通过智能感知与智能分析技术,能够对设备运行状态进行自动监控,并生成巡检报告和隐患告警等运维信息。同时,平台还能够将数据中心基础设施运行中的各种异常和风险信息及时反馈给运维人员,从而使运维人员可以根据这些数据分析情况做出正确决策。运维人员可以减少大量的工作时间,从而将更多的精力投入数据中心基础设施的日常管理中。基础设施运行状态信息更加全面、及时和准确,也能有效提高运维效率。
基础设施智能运维平台可以对数据中心整体运行状况进行监控,并通过系统日志分析,及时发现影响系统正常运行的事件,进行事件告警。同时,通过系统日志分析,可以实现对服务器、存储设备等资源的状态监控,及时发现资源故障隐患。此外,基础设施智能运维平台还可以通过智能运维系统实现对服务中断风险、安全风险、风险预警等情况的管理。系统能够根据事先设置的触发条件自动生成运维指令并执行,进行各类异常情况的报警处理,从而实现对运维风险的有效管控。通过基础设施智能运维平台的建设,可以将基础设施运维中可能出现的安全风险降至最低限度,有效提升风险预警能力。
基础设施智能运维平台具有广阔的应用前景,可以为数据中心实现运维管理提供决策支持,从而提高数据中心基础设施的运维管理水平,促进数据中心业务发展。基础设施智能运维平台的应用可以将IT与IT外包服务、服务管理和运营管理有机结合起来,通过对IT资源、IT服务的监控和管理,实现对IT资源的可视化、科学化、智能化管理。同时,通过对IT资源使用情况的监控与分析,可以提供对运维效率与成本的精确评估,并为下一步优化提供支持。基础设施智能运维平台还可以与业务系统进行有效整合,从而实现对数据中心基础设施资源的全局掌控、精确预测和分析,为用户提供决策支持。
首先,未将环境监控系统和能耗监控系统进行有效整合,导致环境监控系统和能耗监控系统无法采集到所需的数据信息。其次,未将物理设备、虚拟机、操作系统、网络设备、应用程序等进行全面采集,导致基础设施智能运维平台无法实现对物理设备和虚拟机的全面监控。最后,未将各类设备的实时状态进行全面采集,导致基础设施智能运维平台无法对设备运行状态进行全面监控。
故障定位不够及时是数据中心基础设施智能运维平台应用中存在的主要问题。通常情况下,智能运维平台在发现故障时,往往会通过邮件或短信的形式通知相关运维人员,从而使问题得到快速解决。但在实际的运维过程中,由于用户没有对故障信息进行实时监测,很难及时发现故障,从而造成了大量时间的浪费。为解决上述问题,应在数据中心基础设施智能运维平台中实现故障信息的实时监测。首先,运维人员应定期对基础设施智能运维平台中的相关数据进行收集,并通过短信、邮件或 App等形式及时通知相关人员。其次,当故障发生后,运维人员应通过智能运维平台中的告警功能,及时发现问题并进行处理。最后,当出现大范围故障时,应通过大数据分析技术及时确定问题发生的原因并制定相应解决方案,并在故障排除后加强用户的回访工作。
IT系统监测是数据中心基础设施智能运维平台建设的重点,其主要功能包括IT系统环境监测、IT设备运行状态监测、IT资源情况监测等。具体而言,IT系统环境监测主要是对物理设备的运行状态进行监控,对机房温湿度、进风量、空调制冷/制热状态进行监控,对服务器运行状态进行监控,对网络拓扑结构进行监控,对供电状态进行监控,对UPS电池状况进行监控等。
IT设备运行状态监测是指通过采集服务器、交换机等物理设备的温度、湿度、电压电流等运行参数,通过设备数据管理平台对数据进行存储和分析,进而实现对服务器、交换机等硬件设备运行状况的监控。具体而言,IT设备运行状态监测主要包括4个方面。第一,温度监测。服务器或交换机的温度是影响其性能的重要因素之一,需要通过对温度数据的采集和分析,及时掌握服务器或交换机的工作环境状况。第二,湿度监测。服务器或交换机的工作环境往往比较恶劣,例如较高的湿度、较大的噪声和灰尘等都会影响其正常运行。第三,电压电流监测。服务器或交换机的电源电压和电流会影响其运行效率和稳定性。第四,网络拓扑结构监测。网络拓扑结构是指服务器或交换机与其所连接的主机之间的关系。通过对网络拓扑结构进行实时监测,可以及时掌握服务器或交换机与连接主机之间通信链路的畅通情况。第五,供电情况监测。服务器和交换机所连接主机在使用过程中会产生大量供电需求,因此需要通过对供电情况进行监测,及时掌握主机使用过程中产生的电力需求。
机房环境监测系统能够对机房温湿度、光照强度、烟雾浓度、漏水、供电电压、电流等环境参数进行实时采集和监控。可根据实际情况设置不同的报警阈值,如温度超过报警阈值时自动发出声光报警,当湿度超过报警阈值时自动发出警报,当光照强度超过报警阈值时自动发出声光警报。机房环境监测系统能够实时监控机房环境的温度、湿度、光照强度等参数,并根据设定的告警阈值对数据进行保存或历史曲线查询。支持温湿度数据的实时存储,并可以存储24小时以上,当发生异常情况时,可以实时发出声光报警。机房环境监测系统能够对机房内设备运行状态进行实时监控[1]。设置不同的告警阈值,当发生告警时自动发出声光警报,支持多种告警方式,包括短信、邮件、客户端等。动力环境包括动力空调和UPS设备。通过对动力环境的监控,可以及时发现设备运行中的异常情况,如不正常的温度、湿度、电压、电流等参数,以及不正常的告警信息等。机房环境监测系统能够对机房内的环境温湿度进行实时监控,并通过设置不同的告警阈值,对异常情况进行声光报警。通过对照明系统的监测,可以及时发现异常情况并报警,如设备发生故障时自动发出声光警报。通过对空调设备运行中产生的电流、电压等参数进行监测,可以及时发现异常情况并报警。
对数据中心的能源使用情况进行分析,对数据中心能耗进行科学管控,是提高数据中心能效、降低能耗的关键。通过能源管理系统,能够有效解决数据中心存在的能耗浪费问题,实现绿色节能。在数据中心建设初期,可选择合适的能源管理系统,并制定合理的能耗预算。通过对能源使用情况进行统计分析,可以确定消耗较多能源的设备和环节,为后期制定合理的能源使用计划提供参考。在关键设备和特殊场所,制定重点监测和评估计划,对设备和场所的能源使用情况进行实时监测。通过对重点环节、设备和场所的能耗进行监测、分析和评估,能够及时发现问题并采取措施进行优化管理。
目前,国内一些大型数据中心已建立了完善的能源管理系统,在节能降耗方面取得了一定成效。在数据中心建设初期,可以将能耗指标纳入管理系统进行监测、分析和评估。同时,还可以结合机房环境优化方案、制冷系统优化方案等技术手段,实现对数据中心能耗指标的有效管控。随着数据中心规模的不断扩大和用电量不断增加,各数据中心在建设初期均已制定了较为完善的能耗预算计划。当数据中心规模扩大到一定程度后,由于整体能耗预算不足,可能出现不同区域、不同设备之间的能耗不均衡问题[2]。对此,可通过对整体能耗情况进行分析和评估,确定是否需要调整能耗预算计划。在具体实施过程中,还应充分考虑不同区域、设备之间的差异性,以确保各项能源指标均能得到有效管控。
基于数据中心基础设施智能运维平台的多维数据分析功能,可对机房环境、电力、消防、UPS、配电系统等设备进行全面监控,并根据监控到的运行状态和告警信息,自动生成数据分析报表,为机房运维人员提供多维数据分析与辅助决策支持。例如,对某数据中心机房环境温度、湿度、电压电流、功率因数等数据进行实时监控与分析,发现机房内的某个空调的温度过低或过高,系统会自动报警提醒管理员进行处理,避免发生设备因温度过高而烧坏的情况[3]。同时,对该机房电力系统运行状态进行实时监控与分析,发现机房内某个开关设备故障时会自动报警提醒管理员及时处理。另外,对某台 UPS电池异常放电情况也会进行实时监控。
数据中心基础设施智能运维平台建设需要把握几点功能定位。第一,系统整合,实现统一管理。通过对设备和业务系统的全面监测和集中管理,实现对 IT基础设施设备状态、应用运行情况等的全面监测和统一管理,为数据中心基础设施运维工作提供技术支持。第二,以人为本,实现主动服务。通过对基础设施设备的实时监测和智能预警,实现对数据中心基础设施设备状态的主动发现、主动服务,提高运维效率和效果。第三,智能运维,提升管理水平。通过对数据中心基础设施设备状态、应用运行情况等全面监测和统一管理,建立健全运维工作机制和制度体系,全面提升数据中心运维管理水平[4]。
数据中心基础设施智能运维平台应包含基础设施监控、资源管理、应用管理和用户管理四大功能模块。其中,基础设施监控模块主要对物理设备的运行情况进行监测,为基础设施运维提供数据支撑;资源管理模块主要对基础设施运行状态进行监控,包括数据中心基础设施资源(包括物理资源、虚拟资源以及虚拟网络)的实时状态,并提供报警提示功能;应用管理模块主要对应用的运行情况进行监测,包括应用服务状态、业务状态以及用户信息等;用户管理模块主要对用户进行信息收集、信息发布等工作。
从技术角度来看,数据中心基础设施智能运维平台应具备海量数据的接入与处理能力,完整的数据采集、存储、处理、分析能力,以及展现能力、高并发能力。从应用角度来看,数据中心基础设施智能运维平台可以对故障进行预测,在故障发生前进行预警提示。对资源进行统一调配,实现自动化运维,实现自定义配置和配置模板化管理。通过可视化展现和分析手段,实现故障的定位和根源分析[5-7]。从用户角度来看,数据中心基础设施智能运维平台应具备应用管理员、IT运维人员、业务人员、系统管理员等角色。
在当前时代背景下,合理应用数据中心基础设施智能运维平台具有重要的意义。需要结合当前实际情况,了解数据中心基础设施智能运维平台应用优势和问题,并掌握能耗分析、系统检测、总体架构等一系列应用要点,保证数据中心基础设施智能运维平台有效应用,推动其可持续发展和进步。