张杰
摘要:我国信息技术经过快速发展,在各行各业中有着重要应用。例如,大数据、云计算、区域链、人工智能和物联网等新技术在人们生产生活中的应用越来越广泛。这些新技术的应用极大地推动了社会发展,而在此过程中,数据中心是不可或缺的。因此,数据中心的数量越来越多,规模也越来越大。这就对数据中心的运营和机房基础设施的运维管理提出了更高的要求。因此,提高数据中心运营水平非常重要。基于此,本文对数据中心一体化智能运维管理平台的建设进行了研究。
关键词:数据中心;一体化智能运维;管理平台
引言
中国信息技术的发展进入了“智能+”阶段。大数据、云计算、物联网、数据块链和人工智能等新技术在生活各个领域的应用离不开数据中心的支持。数据中心机房的数量和规模不断增加。总面积超过10万平方米、安装容量达数万台的机房非常普遍,这也给数据中心的运行以及计算机机房基础设施(包括电力、冷却、不间断电源、空调和安全系统)的运行和维护带来了困难。同时,云计算、人工智能、物联网、大数据等新技术在中国的应用趋于成熟,为实现智能数据中心运营和维护管理奠定了技术基础。
1数据中心运维管理技术概述
随着数据中心不断发展,其运维管理技术也在不断发展。通过研究,其发展可以分为三个阶段,分别是被动运维阶段、主动运维阶段和智慧运维阶段,具体分析如下:①被动运维阶段。在这一阶段,运维管理的流程还没有完全建立,相关技术手段还不成熟,主要通过人工现场巡检的方式对数据中心机房进行检查,通过手工对机房和设备的信息进行记录。②主动运维阶段。在这一阶段,相关工作人员针对供配电、制冷、不间断电源和空调等配备了遥测、遥控模块,建立了集中式远程监控平台以及事件、应急和变更等标准管理流程,使运维体系不断完善,运维管理水平不断提高,平台化、可视化和流程化的管理也得以实现。当前我国数据中心的运维管理基本上处于这一阶段。③智慧运维阶段。在这一阶段,物联网、大数据和智能技术等的应用实现了人、技术、流程和数据四要素的有机融合,此阶段的数据中心运维管理特点是自动化和智能化。
2数据中心基本设备的运营管理
数据中心基本设备(DCIM),一种国外开发的概念,但对dcim的概念存在不同的看法。他们有不同的机构和观点。但是,基本的总体思路是DCIM不是一种软件,而是一种管理模式和工具。根据IT的潜在作用,它可以将it设备与其他关键设备连接起来,为数据中心管理人员提供高效、高质量的运营服务。DCIM在总体框架的基础上,必须依靠一整套管理工具和平台,包括具体的软件、硬件设备、传感器设备等。以完成对数据中心联系系统的全面管理。此类管理侧重于站点的基本设备和IT基础设备,其主要目标和功能是科学合理地控制数据中心的成本、事件流程、模型预测、容量规划、集中监控、智能管理等,作为信息技术和设备管理的集成。
3数据中心智能化运维管理的需求
数据中心智能化运维管理应满足以下几方面需求。①可用性要求。在机房内应有备用电力、空调设施。当电力或者空调设施出现故障后,备用电力、空调设施会自动运行,保证机房能够保持正常运转。②安全性要求。在出现火灾等突发的安全事件后,系统可以对这些问题进行准确判断,并且能够自动报警,采取可以实行的应急措施,将安全问题造成的影响降到最低,保证机房运行安全。③经济性要求。企业经营的最终目的是营利。因此,保证机房运行的经济性能是非常重要的,这就需要降低能源的损耗,要求数据中心的智能运维管理系统能够根据环境温度对制冷机组的运行方式进行智能调节,根据热点区域对出风大小进行智能调节以及对照明系统进行智能调节,降低能耗。
4数据中心运维管理智能化技术的实现途径
4.1分析预测智能化
所谓智能分析和预测,是指通过在服务器上基本应用SMATR信息和Syslog信息等各种类型的信息,IT部门需要在各种实例上做好监控和实践工作。在场景功能中,它可以使用LR或GBDT模型合理地预测服务器中常用组件故障的可能性和时间,并通过相应的措施防止故障,从而增强整体it体系结构。此外,对于产品和调整,可以通过预测标准容量来实现动态阈值、阈值趋势和瓶颈点的收集、分析和预测,并通过基于it系统容量预测的智能技术来实现模式开发。
4.2机器学习建模与预测
以“局部热点”事件为例,机器人通过学习建模,将引发机房内局部温度上升的火灾、空调系统和IT系统等相关要素特征化。基于这些信息,机器人可以判断各参数和温度上升之间的关系,并根据这些关系建立数学模型。在实际的运行过程中,若出现了上述热点事件,机器人将获取的各要素数据与历史数据进行比对,验证系统出现的问题,并对事件的起因进行分析,启动控制程序对事件进行控制。在整个控制过程中,机器人会对该热点事件进行持续性侦察,根据实时结果来决定下一步措施,直至热点事件消失。
4.3一体化智能运维管理平台
当前,大多数数据中心都采用了动态环境监测系统、集中it监测系统(网络管理系统)、服务管理系统和自动化操作工具等操作和维护管理系统,以帮助操作和维护人员实现标准化和高效的操作和维护管理。但是,这些运行和维护管理系统是由不同专业的运营和维护人员管理和使用的,这使得IT很难快速发现计算机机房环境或设备运行障碍所导致的IT系统故障。此外,每個系统的数据都是分布式的,使得很难实现每个系统运行状态的相关性分析和趋势预测。因此,建议在数据中心建立一个集成的智能操作和维护平台。该集成智能运行维护平台集成了数据中心相关监控、巡逻检测、服务管理、自动运行等系统,并利用人工智能等技术,实现运行维护管理系统的趋势分析、故障预警,甚至自动运行和控制功能。它收集与机房有关的集中监控系统、运行维护服务管理系统、检验系统和自动操作系统的信息,集中存储和处理,应用大数据技术进行分析和预先评估,并向每个系统发送控制指令或向运行维护人员发送警报信息。
4.4智能机器人的应用
数据中心的大部分运维工作都是重复性的,包括设备的定时开关机、系统日志的审查和审计以及数据的备份和恢复测试等。对于这些工作中的大部分工作内容,智能机器人都可以通过远程操作完成,这样不仅效率更高,还可以有效降低错误率,提高运维工作的质量。在大型数据中心机房的运维管理工作中,巡检的工作量比较大,比较容易出现漏检问题,而通过智能机器人巡检的方式代替人工巡检,可以有效解决这方面的问题。智能巡检机器人应用了很多先进技术,包括机器视觉、自动跟随、激光雷达导航、远红外热成像以及多传感融合等。基于这些先进技术,可以实现对数据机房内的设备和环境的不间断巡检,包括报警指示灯、温度、噪声、异味以及仪表读数等。一旦出现问题,工作人员可以迅速报警,从而实现故障的快速排除。
结束语
智能技术的发展给数据中心的运行和维护技术带来了新的活力。构建集成的智能运营和维护管理平台可以提高数据中心的可用性,降低运营成本,提高运营和维护效率,为新一代数据中心的智能运营奠定良好的基础。当前,智能运行和维护管理技术的应用仍处于探索的初级阶段,需要系统、全面、细致地分析实际情景和应用程序需求,不断论证和改进数据中心的智能升级和转换方案。人们认为人工智能、数据中心智能和无人技术等新技术将会在拐角处相等。
参考文献
[1]李俊林.浅谈数据中心设备及机房的智能化运维管理[J].数字通信世界,2020(02):284.
[2]赵刚,杨大雷,朱献忠.设备远程智能运维平台架构设计探讨[J].宝钢技术,2019(06):27-30.
[3]郝峻.数据中心基础设施智能运维探讨[J].电信技术,2019(11):51-55.
[4]程少良.数据中心智能运维管理平台的建设研究[J].计算机产品与流通,2019(10):127.
[5]李嗣喜.浅谈数据中心的人工智能管理与运维[J].计算机产品与流通,2019(01):123.