智能数据中心机房管理研究与创新

2022-09-20 02:57宋国柱景超王堃武海文
现代计算机 2022年14期
关键词:温湿度机房运维

宋国柱,景超,王堃,武海文

(山西农业大学软件学院,太谷 030801)

0 引言

数据中心是智慧校园的核心,是学校信息化建设提供可靠服务的基础保障。数据中心机房设备的运维,高校管理员一般采用运维管理系统,如著名的Zabbix开源运维管理系统,它能实现设备告警、软件告警、资产管理等功能,可解决数据中心机房在运维过程中的一些问题,但系统没有自主学习功能,不能对设备进行预警,也不能对环境中的噪声、粉尘等因素进行监测,更不能完成无人值守和无人操作等功能。

随着学校业务应用的不断扩展,数据中心的资产设备越来越多,专业化程度要求越来越高,数据的安全性越来越重要,如何保证数据中心安全稳定、持续高效地运行是智慧校园运维中面临的突出问题,主要表现在以下几个方面:

(1)运维人员缺乏,专业化程度高。高等农业院校信息化建设与管理部门数据中心专业运维人员普遍缺乏,一般均是身兼多职,没有专门的机房设备巡检人员,造成机房巡检只是在特殊时间简单查看。

(2)巡检不及时,运维效率低。机房设备发生故障时,往往不是第一时间知道(有可能已故障好几天,尤其是在假期),当运维人员出差在外时,故障得不到及时处理,影响业务的正常运行。

(3)存在巡视盲区,安全隐患多。7×24小时运转,机房用电负荷大,网络设备多,电池漏液,线路老化,空调故障,发电机运转等,人工巡视无法全面覆盖,都是消防安全隐患的突发点。

(4)机房值班,辐射强危害大。机房噪音大,辐射强,对人体危害大,专业要求程度高,发生故障时要及时排除,但并不是任何值班人员都有权进入机房并进行操作,即使值班也不会定时巡检机房的所有设备,因此达不到值班应有的要求和效果。

(5)各监控系统相互孤立,故障溯源困难。动环监控系统、消防监控系统、门禁系统、视频监控系统、设备运行监测系统、软件运行监测系统等往往是相互孤立的,无法进行数据共享,数据中心的监控(包括软件、硬件及数据)是被分散在几个系统中,每个系统由不同的管理员负责,无法集中在一个平台上进行查看、汇总并分析,当发生故障时无法综合各方面的告警信息进行故障的分析处理,无法有效提升故障排除效率。

基于数据中心机房运维的现状及面临的突出问题,采用机器人技术与人工智能技术,提出了基于智巡机器人的智能数据中心机房管理设想,智巡机器人不仅可以对网络设备进行全天候巡检和排障,及时发现并解决诸多问题以提高检查效率,还可以针对涉密区域、高风险区域等人工巡检难以开展的区域进行监控和诊断,实现数据中心机房智能化运营,真正实现数据中心的无人值守,打造人工智能时代的新型数据中心。

1 系统架构

1.1 系统架构设计

智巡机器人以机器人技术为硬件主体,以AI图像识别技术为算法核心,通过路径规划完成自动行走,通过视觉系统完成机房的检测巡视、故障灯识别、仪表盘识别等,通过红外传感器实现机房设备温度监控,通过声光、气体传感器实现火灾等隐患的排查等,系统架构设计如图1所示。

图1 智巡机器人系统架构

1.2 系统功能

智巡机器人由移动APP、管理平台、识别感应装置、行走装置和机械平台五部分组成,各部分的功能如下。

(1)移动APP。实现移动端随时远程查看机房现场、远程控制机器人、查看告警信息等。登录APP并进行身份识别,识别成功后根据用户的权限可查看告警信息、远程实时图像、语音交互(根据不同的权限,执行的动作会有所不同)、远程控制机器人(需最高权限)和在线升级等。

(2)管理平台。实现智巡机器人识别感应装置、行走装置及移动APP接口。

(3)识别感应装置。包括自主导航(如路径规划、扫描建图、SLAM算法、点/路径/区域设置和OTA等)、导航传感器(如3D摄像头、激光雷达和机械防撞传感器等)、工业传感器(如监测有害气体、温湿度、PM2.5、噪声、烟感等)和运算平台(如深度学习、图像识别、YOLOV5算法、设备管理及驱动管理等)。实现一:根据规划的路径,利用3D摄像头、激光雷达及机械防撞(使机器人具有避障功能),控制智巡机器人按设定的路径行走,同时使用3D摄像头不仅可以远程查看机房,还可以识别行走过程中的仪表盘、故障灯等;实现二:在线监测(包括行走和静止状态)机房中有害气体、温湿度、PM2.5、噪声、烟、电力、UPS、漏水等,如当机房中有害气体量达到设定的阈值时,机器人可自动开启排风装置,并且此时若有工作人员刷门禁进入时,提示工作人员,当降到设定的阈值时,关闭排风装置。

(4)行走装置。根据识别感应装置中的条件控制机器人行走及操作,行走装置包括有线/无线网络设置、电源管理(监测电量并进行智能充电)、在线升级硬件固件程序等。

(5)机械平台。主要包括机器人行走所需硬件,如滚轮、步进电机、电池等。

2 系统特点

2.1 智能巡检

智巡机器人可以对本地服务器、存储、空调、配电柜、消防设备等的指示灯、数字仪表、指针仪表、开关等元件工作状态进行7×24小时实时监测,结合研发的图像识别算法,对设备状态进行识别告警,实现7×24小时无人值守;通过加载各类采集单元,如有害气体、PM2.5、噪声等,可获取运维管理人员无法发现的异常情况;通过与现有平台对接,如动环监测、门禁系统、运维管理平台等,在进行数据共享的同时,实现大数据的分析统计。

管理员可根据日常巡检需求,通过智巡机器人管理平台中的常规巡检策略功能,灵活设定每日不同任务的巡检次数、每次巡检时间及巡检中遇到特殊情况被打断等情况的应对方式,也可将单日的巡检计划延伸为更长时间周期内的自动执行计划,让机器人根据计划自动执行机房日常巡检任务,提高机房巡检频次和维度。

2.2 移动环境检测

智巡机器人可自动采集、监测数据中心机房各项环境数据指标,如:

(1)温湿度监测。主要监测机房内温湿度,保障网络设备在符合标准的环境下运行,温湿度测量范围:±0.8% RH,10~30℃;测量极限:0~100%RH,-50~100℃。

(2)噪声监测。主要监测来自机房内服务器和高速运转设备的噪声,即时监测硬件设备的运行情况,测量范围30~120 db,最大误差0.5 db。

(3)空气质量监测。主要监测机房内空气中的粉尘浓度,防止粉尘浓度过高降低电路与元器件绝缘性能,腐蚀电路板缩短设备寿命,防止堵塞防尘网,影响IT设备散热效率;监测并量化每立方米空气中PM1.0、PM2.5、PM10的数量。

(4)有害气体监测。主要监测电缆电线燃烧前挥发的毒性气体,提前预防对硬件设备造成的腐蚀,特别是机房内服务器、UPS配电柜等,如可监测硫化物等有害气体的浓度。

(5)烟雾浓度监测。与数据中心烟雾报警系统对接,可同步监测烟雾浓度发出预警及告警信息。

2.3 随工录像

随工录像即机器人根据管理员下发的任务确定设备位置信息,引导运维管理人员(包括设备维修厂商技术人员、技术外包人员等)至指定位置并进行录像。在一定程度上解决单位人员随工陪同耗时问题,释放无谓的人力投入,让本单位人员投入更多的精力去关注机房建设规划等更有意义的事情,提升数据中心整体运行效率。

2.4 远程协助

当机房设备出现故障并发出告警信息而运维管理人员不在现场时,运维管理人员可远程控制机器人到故障位置点,通过控制机器人的速度、转向及摄像头旋转与变焦操作查看故障具体信息,分析原因。若是软件系统问题,运维管理人员可通过堡垒机登录系统解决;若是硬件问题,可与现场人员通过视频或语音进行实时交互加以解决。

2.5 参观迎检

通过设置导览剧本,控制机器人根据预设的既定路线,引导参观考察人员进入指定地点进行自动语音讲解并执行相应的动作,也可与参观考察人员进行简单的语音交互。

智巡机器人具有7×24小时设备巡检、移动环境监测(如温湿度、噪声、空气质量、有害气体及烟雾等)、随工录像、远程协助及参观迎检等功能。

3 巡检内容

智巡机器人根据巡检内容进行定时、不定时的巡检,巡检内容如表1所示。

表1 机器人巡检内容

4 实验验证

对数据中心机房主要设备指示灯、数字仪表、指针仪表、电源开关等进行图像识别算法研究,数字仪表、指针仪表、电源开关状态的识别准确率为99.9%,设备指示灯的识别准确率在90.0%~98.3%之间,主要是由于在黑暗环境下网络设备业务灯频繁闪烁、亮度强、设备种类多导致,需进一步优化识别算法,以提升设备指示灯识别准确率。

5 结语

智巡机器人可实现数据中心机房无人化、智能化巡检运维,解决机房人工巡检耗时费力、存在巡检盲区、无法实时监测等问题,可大幅提升机房巡检运维效率及智能化水平,为学校信息化建设提供可靠、安全、及时的服务保障,满足广大师生教学、科研、管理等服务质量要求。

猜你喜欢
温湿度机房运维
蛋鸡育雏育成舍环境控制技术
论岸桥机房无焊接化改进的优势
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
档案库房温湿度记录统计及调控
浅析现代信息化机房建设策略
变电站高压配电智能温湿度控制装置的研发与应用
档案库房温湿度调控思考
管理学校机房有章法
电子政务甲方运维管理的全生命周期