基于机器学习的大规模并行计算机系统硬件故障检测方法

2022-06-21 03:03刘伟峰
技术与市场 2022年6期
关键词:计算机系统无线误差

刘伟峰

(陕西工商职业学院,陕西 西安 710119 )

0 引言

大规模并行计算机系统简称MPP系统,属于巨型计算机系统,主要由大量处理器构成,通过采用大量的处理器与服务器来提高计算机系统运行速度和质量,该系统最早是在20世纪60年代研发的,最初大规模并行计算机系统主要应用在气象领域、人类学领域、医学领域以及军事领域。大规模并行计算机系统主要利用有效的并行算法实现对计算机数据的运算,其具有规模大、运行速度快、传输速度快以及响应时间短等特点,目前已经被广泛应用到多个领域。

虽然大规模并行计算机系统的应用为计算机用户带来了更多的便利,并且也取得了良好的应用效果,但是由于大规模并行计算机系统硬件结构比较复杂,所涉及的硬件数量比较多,长时间处于高速运转状态下,大规模并行计算机系统硬件设备非常容易出现故障,当其中任意一个硬件设备出现故障,就会影响到大规模并行计算机系统的操作和使用,甚至出现系统瘫痪。

为了解决该问题,相关研究人员提出了大规模并行计算机系统硬件故障检测方法,现有的检测方法主要为基于人工智能的系统硬件故障检测方法,该方法在实际应用中运算量比较大,并且所使用的故障检测算法不够合理,对不同类型的系统硬件故障检测准确率较低,已经无法满足大规模并行计算机系统硬件故障检测需求,为此本文提出基于机器学习的大规模并行计算机系统硬件故障检测方法。

1 基于机器学习的大规模并行计算机系统硬件故障检测方法设计

1.1 大规模并行计算机系统硬件运行数据采集

首先对大规模并行计算机系统硬件运行状态数据进行采集,此次采用了NSFGS/2SF6A型号无线传感器对系统硬件运行数据进行采集:将NSFGS/2SF6A无线传感器安装在系统硬件环境中,大规模并行计算机系统的硬件主要为服务器和处理器,因此对每一类硬件设备安装一个相应的无线传感器,通过并联将NSFGS/2SF6A无线传感器与系统硬件设备电源电路连接在一起,根据实际情况对NSFGS/2SF6A无线传感器的扫描周期、频率、读取模式等技术参数进行设置,通过I/S通信协议将大规模并行计算机系统硬件运行数据上传到NSFGS/2SF6A无线传感器数据库中,以此实现系统硬件数据采集。

1.2 故障样本提取

在实际中,大规模并行计算机系统硬件故障表现为硬件温度升高、硬件电源短路或者断路、硬件设备运转速度下降等,因此选取大规模并行计算机系统硬件温度、运行速度、电源电流作为故障特征量样本,对采集到的数据中3种特征量不对称数据进行处理和分析,其过程如下。

1)将采集到的硬件运行数据中的无效数据、残缺数据以及重复数据进行剔除,并按照温度、电流、运行参数等类别将剩余数据进行分类处理,从中提取到除时间类以外的3个特征量数据,将3个特征量的数据区间进行归一化处理,最终为-1-1区间[1]。

2)划分系统硬件温度变化区间、运行速度变化区间以及电源电流变化区间,区间范围为大规模并行计算机系统硬件设备初始温度、运行速度、电源电流到最大运行温度、速度以及电源电流量,并且根据实际情况设定温度阈值、速度阈值以及电源电流阈值[2]。

3)按照上述区间设定将符合要求的数据进行提取,并且将特征量数据样本按照时间进行排序,以此完成故障样本提取。

1.3 基于机器学习的故障识别

在上述基础上,利用机器学习技术对提取到的系统硬件故障样本进行综合分析,对大规模并行计算机系统硬件故障进行诊断识别。由于大规模并行计算机系统硬件故障数据在初始空间中是非线性不可分的,因此首先利用机器学习技术将故障数据进行空间映射,将输入到机器学习模型中的数据映射到高维特征向量空间中,将系统硬件无故障时的运行数据一并输入到机器学习模型中,进行学习和训练,提取到大规模并行计算机系统硬件最大温度误差、运行速度误差以及电源电流误差,将3种误差进行数字量处理,转化为大规模并行计算机系统硬件最大允许误差,该过程用公式表示如下:

(1)

公式(1)中,Wn表示大规模并行计算机系统中第n个硬件设备的最大允许误差;n表示大规模并行计算机系统中硬件设备数量;w1表示系统硬件设备最高运行温度;w2表示系统硬件设备常规温度;r1表示系统硬件设备最高运行速度;r2表示系统硬件设备常规运行速度;q1表示系统硬件设备最大电源电流;q2表示系统硬件设备常规电源电流[3]。

利用上述公式计算出硬件设备的最大允许误差,然后将待分析的系统硬件故障特征量样本输入到机器学习模型中,计算到当前大规模并行计算机系统硬件的温度误差、运行速度误差以及电源电流误差[4]。将其与公式(1)计算结果进行对比,判断系统硬件是否出现故障,其公式如下:

(2)

公式(2)中,w表示提取到的温度特征量数据中最高温度值;w*表示提取到的温度特征量数据平均值;r表示提取到的运行速度特征量数据中最大运行速度值;r*表示提取到的运行速度特征量数据平均值;q表示提取到的电流特征量数据中最大电流值;q*表示提取到的电流特征量数据平均值[5]。

利用上述公式对提取到的故障特征样本进行分析,如果上述公式成立,则说明大规模并行计算机系统硬件设备存在故障;如果上述公式不成立,则说明大规模并行计算机系统硬件设备不存在故障,以此实现基于机器学习的大规模并行计算机系统硬件故障检测。

2 实验论证分析

以某大规模并行计算机系统为实验对象,该计算机系统包括50个硬件设备,其中有35个服务器和25个处理器,该大规模并行计算机系统使用时间比较长,部分硬件已经出现老化现象,利用此次设计方法与传统方法对该大规模并行计算机系统硬件设备故障进行检测。

实验共在该系统硬件环境中安装了4个无线传感器,其中2个无线传感器负责系统处理器运行数据采集,另外2个无线传感器负责系统服务器硬件运行数据采集,无线传感器的扫描周期设定为2.36 ns,扫描频率设定为3.66 Hz,共采集到500份数据样本,按照上文,对采集到的系统硬件运行数据样本进行处理和分析,提取到系统硬件故障特征量样本区间,如表1所示。

表1 大规模并行计算机系统硬件故障检测情况

实验共对大规模并行计算机系统硬件检测3次,检测的硬件设备数量为150个,随机抽取6个系统硬件设备检测结果作为实验数据,记录该6个系统硬件设备在3次检测中的故障误差数量,计算大规模并行计算机系统故障检测准确率,利用电子表格对2种方法故障检测准确率进行记录,如表2所示。

表2 两种方法不同故障检测准确率对比

从表2数据可以看出,此次设计方法对于大规模并行计算机系统硬件故障检测的准确率比较高,最高为100%,说明检测结果与大规模并行计算机系统硬件故障完全一致;而传统方法对于大规模并行计算机系统硬件故障检测的准确率最大仅为78.69%,远远小于设计方法,这是因为此次设计方法采用了机器学习技术,通过机器学习技术对系统硬件故障特征进行迭代计算分析,可以将误差降到最低。实验证明:此次设计方法在检测精度方面优于传统方法,具有较高的有效性和可靠性。

3 结语

此次结合大规模并行计算机系统硬件结构特征,以及传统故障检测方法存在的弊端,采用机器学习计算设计了一种新的故障检测方法,用于大规模并行计算机系统硬件故障检测,有效提高了大规模并行计算机系统硬件故障检测精度,能够为大规模并行计算机系统硬件故障检修以及运维提供准确的数据依据,为大规模并行计算机系统稳定运行提供了技术保障。

猜你喜欢
计算机系统无线误差
《无线互联科技》征稿词(2021)
角接触球轴承接触角误差控制
Beidou, le système de navigation par satellite compatible et interopérable
关于不法分子冒充《小型微型计算机系统》名义诈骗的严正声明
IBM推出可与人类“辩论”的计算机系统
无线追踪3
压力容器制造误差探究
基于ARM的无线WiFi插排的设计
计算机系统集成实施与项目管理途径分析
一种PP型无线供电系统的分析