数据中心告警事件全面自愈方法及系统研究

2021-12-02 09:12陈瑞冷迪李英
电子元器件与信息技术 2021年9期
关键词:器件数据中心关联

陈瑞,冷迪,李英

(深圳供电局有限公司,广东 深圳 518000)

0 引言

伴随着经济的发展,人类社会用电量越来越庞大,智能化设备及信息系统采集数据越来越多,伴之而来的是数据量不断膨胀的数据中心。数据中心的构成比较复杂,处理的信息涉及设备、器件较多,且相互之间具有很强的关联性,因此必须要及时有效的处理数据中心的告警信息,这还包括要告警信息的甄别与收敛,不能错失任何一条告警信息的解决机会,但也应尽可能减少在无效告警时间上浪费时间与资源。由于物联网的出现使得数据中心告警信息量越来越大,结合大数据与机器学习手段打造一个数据中心告警事件全面自愈系统是既有效又节约时间与资源的解决办法。

1 数据中心告警事件与自愈

数据中心是一个数据核心交通枢纽,而各色各样的边缘数据中心就像一个个星罗密布的小枢纽,不仅需要适应各种运行环境,还对设备功耗、成本、空间、软硬件集成与优化、自动化部署与运维有着极高要求,需支持联接、数据、管理、控制、安全、应用等的协同。数据中心组成设备众多,设备间的连接复杂[1]。一般情况下,数据中心连接有多条工作链(即同一系统下),而每一工作链均包含有对应的器件,如大一点的天线、服务器、交换机、路由器及PC端等,又或者小一点的CPU、电源、磁盘、内存卡、电容、电阻、继电器、传感器等,而这些器件之间工作关系紧密,每一个器件的工作参数的变化都会对同一系统下的相关联器件产生一些影响(特殊情况下会达到很大影响),这些影响轻者包括改变器件的工作参数,重者烧坏或损坏相邻器件,而对整个数据中心而讲,损坏器件是小事,虽然成本会增大,但如果影响整个系统甚至整个数据中心的工作而导致整个系统或者整个互联网数据中心无法正常工作,随之而来的经济损失更是无法想象。

对于数据中心的安全与稳定性,常规的考虑主要是从其拓扑结构与传输协议出发,这两方面可能会造成一些无法避免的数据告警,对于这一部分告警与实际的被检测设备、信息内容关系不大,需要从数据中心的设计上进行考虑以解决告警信息。传统的数据中心的拓扑结构是树形拓扑,但因为这种结构对设备要求高、容错性差等原因已经不再适合现代要求,现在的数据中心主要采用是以交换机为核心和以服务器为核心的拓扑结构,新的拓扑结构很大的提高了数据中心的稳定性,但依旧存在一些难以处理的技术问题。数据中心的数据传输协议是以TCP协议为主的,从协议角度出发,数据中心会出现TCP Incast问题即因交换机缓冲区溢出造成的数据吞吐量急速下降,为此许多数据中心采用多路径TCP传输模式甚至定制协议的方式进行数据传输。由于物联网技术的发展,数据中心不再单纯的使用传统连接方式进行数据传输,传统无线因为带宽、穿透力等技术性问题可能引发一些告警,5G技术的出现使得这些问题得到了极大地改善,但依旧存在一些问题,在一些特殊场景物联网传输数据还是要依赖于短距离传输网络,因此在处理告警信息时应当予以甄别[2]。

当数据中心出现事件告警时,数据中心是否能够有效地甄别与收敛告警信息并进行自愈,是一个数据中心安全可靠的重要标志。对于一个数据中心来讲,应当实时监控数据中心的系统下所有器件的运维数据,并进行有效地存储,一方面是为了存档留据,另一方面是为了进行大数据挖掘与智能分析比对。通过事先设置的运维数据阈值或者智能分析出的数据阈值比对来判断该大数据中心的系统下的器件是否产生告警事件。经过数据的比对判断,如果发现确为器件告警,一方面要根据预设屏蔽策略对告警事件进行屏蔽,另一方面要根据预设收敛策略对告警事件进行收敛,以获得最终的有效告警事件。总而言之,一些告警事件能够被系统自动处理,只需存档加入日志信息即可,可不进行告警提示,这部分告警事件会屏蔽;对于多次出现的同样的告警事件,应当对这些告警事件进行收敛,即采用告警提示等级加重的模式告知相关人员进行处理,避免一些重要性较低的告警占用大量的带宽与处理资源,影响重大事件告警的发出[3]。

与环境比较稳定的工作内容的告警信息处理不同的是,对于电网相关的告警信息,大部分无法通过智能化设备进行智能处理。因此数据中心获取到有效告警事件所对应的器件信息,从器件信息中解析出对应的工作人员,并将有效告警事件及器件信息及时发送给对应的工作人员是非常重要的工作。当获取到与该器件相关联的设备的信息后,系统应当与工作人员都将逐一对与该器件相关联的同一系统下的设备进行检测,当然这一过程更多依赖于系统。得益于物联网的发展,现阶段设备与器件信息都比较全面,获取的信息可以包括设备的ID号、名称、工作时长等。而对关联设备进行检测,包括检测工作电流、工作电压,工作功率、温度和工作时长的情况,以判断工作电流是否大于安全电流,判断工作电压是否大于安全电压、判断工作功率是否大于安全功率、判断设备的温度是否过高等等。

在进行告警设备相关联的设备信息获取与排查时,首先是设备的供电电源的排查,其次是与告警设备具有点相连的设备,然后是与告警设备存在数据交互的设备。检查之后,判断这些设备是否已经濒临告警或者收告警设备影响即将产生告警。如果监测结果符合设定的阈值,系统则将接近产生故障或告警(或者即将产生故障或告警)的设备的信息一同发送给工作人员,使得工作人员关注这些关联的设备,提前预知这些设备会产生告警并处理[4]。

2 数据中心告警事件处理系统

基于数据中心系统下所有器件的告警事件处理,应当采用多接口与每一器件连接,实时获取每一器件的操作事件,并记录每一器件的告警事件。实现单一器件产生告警事件,对所有器件或者相关联器件均需进行详细检测,以免因为某一器件产生告警事件而漏掉与之相关联的器件产生告警事件,从而有效避免不必要的事故发生,一方面提高安全性,另一方面避免器件的损坏,降低运维成本。

基于数据中心的告警事件的全面处理系统包括检测、告警判断、告警屏蔽、告警收敛、信息解析、第一收发、关联设备获取、关联设备检测、关联设备判断和第二收发等模块。其中,检测模块用于实时监控数据中心的系统下所有器件的运维数据。告警判断模块用于通过运维数据判断该大数据中心的系统下的器件是否产生告警事件。告警屏蔽模块用于在确定有产生告警事件时,根据预设屏蔽策略对告警事件进行屏蔽。告警收敛模块在确定有产生告警事件时,根据预设收敛策略对告警事件进行收敛,以获得最终的有效告警事件。再次要说明的是,一些告警事件能够系统自动处理,因此这些告警事件会屏蔽,而如果属于多次同样的告警事件,则对这些同样的告警事件进行收敛。

信息解析模块用于获取有效告警事件所对应的器件信息,从器件信息中解析出对应的工作人员。第一收发模块用于将有效告警事件及器件信息发送给工作人员。关联设备获取模块用于获取与该器件相关联的设备的信息,这一关联设备获取模块具有可以用于获取为该器件供电的电源的信息、获取与该器件电连接的设备的信息、获取与该器件有进行数据传输的设备的信息。关联设备检测模块用于逐一对与该器件相关联的设备进行检测。关联设备判断模块用于判断与该器件相关联的设备是否接近产生故障或告警的条件[5]。

第二收发模块用于在确定关联设备产生故障时将接近产生故障或告警(或者即将产生故障或告警)的设备的信息一同发送给工作人员,使得工作人员关注这些关联的设备,提前预知这些设备会产生告警,提前处理。在一些实施例中,先判断产生有效告警事件的器件是否为发热器件(如电源、电阻、电阻或其他发热器件),如果是,关联设备获取模块获取位置与该器件相邻的设备的信息。因为器件如果发热而产生告警事件,这势必会影响该器件的周围的设备,因此需要对这些相邻设备进行检测。在另外一些实施例中,获取与该器件相关联的设备的信息的步骤具体还包括:获取与该器件的型号相同的设备。应理解,如果某一器件发生告警事件,说明这种型号的器件容易出故障,因此对相同型号的器件进行检测,能够避免同样的告警再次发生。此外,获取与该器件相关联的设备的信息的步骤具体还包括:获取与该器件同时正在工作的设备的信息,又或者获取与该器件同时正在工作且位置处于预设范围内(即距离比较近的)的设备的信息。

由此逻辑获取与该器件相关联的设备的信息的步骤具体还包括:获取系统中的同一信号经过的所有设备的信息,如某一信号经过第一器件、第二器件、第三器件、第四器件......第n器件进行处理,而当第三器件发生告警事件时,则获取与该器件相关联的设备的信息的步骤具体包括:获取第一器件、第二器件……第n器件的信息,以使得对第一器件、第二器件……第n器件进行检测。

3 结语

信息化时代数据中心的地位越来越重要,在输配电系统中尤为突出。由于输配电网络中的信息设备、信息点多且复杂,产生事件告警的频率极高,对告警信息的来源与潜在问题进行分析甄别,实现一个能够告警自愈的数据中心告警自愈软件系统,可以很好的提升数据中心工作性能。

猜你喜欢
器件数据中心关联
酒泉云计算大数据中心
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
旋涂-蒸镀工艺制备红光量子点器件
基于云计算的交通运输数据中心实现与应用
面向高速应用的GaN基HEMT器件