翁瑜卿,梁光瑞,巩志强
(中海油能源发展装备技术有限公司,天津 300452)
目前随着云计算产业的不断发展,各种企业数据中心的规模也在不断扩大,对数据中心进行智能化运维与监控的需求也越来越迫切[1]。为满足更多数据的储存需求,数据中心需要不断扩大规模,因此承载数据运行的设备种类和数量也在持续增加。而随着各种数据运行设备数量的持续增多,引发故障的风险也越来越大。基于此,需要对数据中心的设备进行实时运行维护与监控,保障数据中心的正常运行。国内相关领域的学者针对数据中心运维监控展开了研究。韩磊等人利用三维可视化技术构建海底电缆等设备的智能监控平台。对数据进行预处理,并按照地形的差别对数据进行分层与分块,将数据扫描至三维可视化引擎软件中,实现对海底电缆等设备运行状态监控的综合管理[2]。但是由于运行设备较多,传输数据量较大,该平台在实际运行过程中的数据传输能力不能满足数据中心的运维需求,影响数据运维的工作效率。黄志彬以多维度智能视频集成技术作为基础,对厂内各种设备的运行状态进行监测,对异常数据目标进行识别,保障了该厂的生产运行安全[3]。但是该平台仅能够承载一般大小的数据运维工作,当数据量超过数据中心负荷后,会导致平台运行卡顿,降低数据运维的效率,不能满足数据中心智慧运维的工作需求。
为了解决上述问题,本文对数据中心智能监控体系进行改革,以多维数据作为技术基础,建立一种智慧运维监控平台。通过布设监控设备,对通过指令监控设备进行统一操作,实现对数据中心设备的智能化监控。智能监控平台可在减少人力物力成本的同时,保证对数据中心的高效监控,实时掌握数据中心设备的运行信息,保证在发生故障时第一时间预警,为维修人员争取更多维修操作时间。
数据中心智慧运维监控平台硬件结构主由中心控制层、显示层以及物理传感层组成[4]。整体硬件结构围绕多维数据进行构建,包括服务器、多维数据引擎等。采用F6C415400型号作为中心控制器的主芯片,芯片尺寸为2.2 mm×2.2 mm,搭载CoreSight双核处理器,缓存为512 kB,热电堆电阻为180 kΩ,灵敏度为-140 dBm@62.5 kHz,响应时间最快0.75 s,发射输出功率为18 dBm,可在-40~160 ℃条件下运行。
中心控制层包括可编程逻辑控制器(Programmable Logic Controller,PLC)中心数据控制器,内置模拟量输入与输出模块,对数据中心的数据进行实时监控与调用;显示层包括型号为TC7062KV的触摸屏以及型号为ACS800的变频器,对监控结果进行显示[5]。在智慧运维监控平台物理传感层中包括型号为CS550的电流互感器、型号为PT500的压力传感器、外部硬件储存器和监控设备。电流互感器与压力传感器对整个数据中心运维监控平台的电流情况以及压力情况进行实时监测,保证监控平台的正常运转。外部硬件储存器负责储存数据中心的历史数据,监控设备负责监控数据中心的设备受损情况。通过在变频器等后部增设外部控制器,将显示层与物理传感层的指令都集成F6C415400型号芯片中,便于控制中心对各层实现指令控制,对数据进行调用。
1.2.1 采集数据中心设备信息数据
采集数据中心设备信息是智慧运维监控平台的核心所在。利用多维数据向数据控制中心发送请求,建立设备受损信息采集机制,并对其进行相应的配置,以达到电流互感器与压力传感器对数据中心设备最大的采集效果[6]。假设数据中心设备最多损坏数目为Cm,多维数据最大维度为Lm,监控传感设备最多数目为Rm,则在采集数据中心设备信息时,可利用Cakip(d)函数计算出设备的具体受损位置,具体公式如下
式中:d代表数据中心的设备信息数据。通过计算得出数据中心设备线路损坏位置,确定线路损坏信息的具体步骤如下文所述。
调用数据控制中心的数据输入模块,使其与监控设备之间建立设备信息数据监控连接。在历史数据访问模块中调用历史设备信息损坏数据,根据历史数据提取出设备信息数据故障特征,利用该特征对监控设备发送采集指令。数据控制中心接收到监控设备采集到的设备信息数据,在设备信息数据中提取设备损坏数据,并将该数据存入外部储存器中,方便用户进行随时调用,同时将该数据共享到历史数据库中,丰富数据库的数据内容。采集完成后需进入休眠时间,待休眠完成后即可进行下一环节的设备信息数据采集[7]。
1.2.2 建立数据中心设备信息数据监控机制
数据中心智慧运维监控平台中的监控功能主要是通过多维数据网络进行编程来实现的。通过调取监控接口程序来对数据中心的设备信息数据进行监控。首先监控传感设备将设备数据受损信息传输到数据控制中心后,先对受损信息进行转码,再通过显示层的显示器将设备信息进行直观化展示。同时还检测调用的设备数据信息,如在设备数据信息中发现可疑受损信息,则需要调取检测模块对可疑受损进行检测,检测确定为受损信息后,通过报警模块实现智能报警。数据中心整体监控机制如图1所示。
图1 数据中心监控流程
根据上述方法,通过计算判定出设备受损位置,将数据中心的设备数据进行采集,并通过监控流程对数据中心进行实时监控,与上文的硬件配置进行集合。至此,基于多维数据中心的智慧运维监控平台设计完成。
为了更好地证明本文提出的基于多维数据的数据中心智慧运维监控平台在实际应用中的优越性,在理论方面设计完成后进行实验测试环节,对监控平台的实际监控效果进行分析。
随着数据中心规模的不断扩建,其处理的数据量是非常庞大的,监控系统在面对数据量较大的数据调用和处理时需要有较强的数据传输能力作为支撑,因此消息传输性能是测试智慧运维监控平台的一个重要指标。为了更好地测试数据中心智慧运维监控平台对数据的传输效果,将消息传输性能作为本次实验的测试指标,将文献[2]与文献[3]中设计的运维平台作为对比平台,与本文设计的运维平台共同对消息传输性能进行测试。具体测试环境如表1所示。
表1 智慧运维平台测试环境参数
通过上述实验参数部署测试环境,为测试3种监控平台的数据传输性能,分别向3种监控平台持续发送50万条以上的数据消息,通过对消息发送速度进行设定,将消息发送速度设定为1 000 Mb/s、2 000 Mb/s和5 000 Mb/s比较2种监控平台的信息吞吐量。
本次实验选取的比较指标为监控平台的信息吞吐量,吞吐量越高代表运维监控平台的信息数据传输能力越强,越能对大型数据中心实现高效能的智慧运维监控。监控平台信息吞吐量对比如图2所示。
图2 监控平台信息吞吐量对比
通过上述实验结果可知,消息的发送速度不同,系统吞吐量也会有所不同,传统的智慧运维监控平台在面对速度为1 000 Mb/s的信息传输时,吞吐量在2 000 kb/s以下,在面对速度为5 000 Mb/s的消息数据传输时,吞吐量在4 000 kb/s以下,基数较小,说明传统运维监控平台的数据传输能力较弱,无法满足大型数据中心的运行维护与监控。而本文提出的基于多维数据的数据中心智慧运维监控平台,在面对发送速度为1 000 Mb/s的消息传输时,消息吞吐量达到了3 000 kb/s以上,在面对传输速度为5 000 Mb/s的消息传输时,消息吞吐量达到了6 000 kb/s以上,远远高于2种传统智慧运维监控平台的吞吐量,说明提出的智慧运维监控平台在数据传输能力上要优于传统的智慧运维监控平台,能够对大型数据中心的数据实现高效智能运维与监控。这是由于提出的智慧运维监控平台与多维数据原理进行了结合,通过多维数据,构建出了多维监控机制,能够处理量级较大的数据,实现对数据中心的高性能运维监控。
本文所提出的数据中心智慧运维监控平台与多维数据原理进行了结合,通过参考多维数据原理进行了硬件配置,在软件方面通过采集数据中心设备数据与构建监控机制,实现了对数据中心的智能化运维和监控。能够对量级较大的数据中心进行实时监控,保证数据中心设备的运行安全,有利于降低数据中心受到攻击的风险,提高用户使用体验。该平台具有一定的可靠性与安全性,为大数据中心运行维护研究方面提供积极的帮助。