基于热成像的机房热点成因自动诊断方法

2020-04-30 04:41鲍晨晨
计算机测量与控制 2020年4期
关键词:热点卷积服务器

刘 航,鲍晨晨,谢 婷,高 山

(1.大连理工大学 电子信息与电气工程学部,辽宁 大连 116023;2.大连理工大学 辽宁省集成电路与生物医学电子系统重点实验室,辽宁 大连 116023; 3.大连理工大学 网络与信息化中心,辽宁 大连 116023)

0 引言

随着云计算,大数据及其应用的兴起,计算机机房乃至大型数据中心得到了迅速发展,不仅规模不断增加,内部服务器的密度和集成化也不断提高。目前,服务器内部高度集成的单颗芯片可以产生大约200 W/cm2的热流密度,并且会随着技术发展继续增加[1]。在这种情况下,如果出现风扇失灵、通风不畅、长时间满负荷运行等情况,服务器内部以及周围会产生较高温度,导致机房内部温度分布不均衡,形成局部热点区域。机房空调为了维持服务器设备正常运行的温度,必然要增加制冷功率,这会消耗更多能耗用于制冷。若热点不能及时被消除,高温还会引起服务器宕机,甚至造成芯片的物理损坏。因此获取机房内部温度分布,监测、识别热点区域有助于降低机房的能耗。

红外热像仪可获取物体表面二维温度分布,能够间接反映服务器的运行状态,具备直观、快速、非接触、精度高等优点。Mohd等人列举了热成像技术在诊断电气设备上的各种应用[2],其中包括了各类热异常及相应的测量方案。Amin等人将机器学习技术应用在引擎散热器的红外诊断上[3]。

本文提出的基于热成像的热点成因诊断方法通过采集服务器出风口的红外图像,从中发现热点后,提取热点温度分布特征,最后利用机器学习识别热点的成因。所用的机器学习方法主要包括支持向量机(SVM)和卷积神经网络(CNN)[4]。

SVM是一种有监督机器学习算法,在小样本、非线性分类问题上极具优势[5],但是需要人工提取数据特征向量。特征向量的选取将直接影响分类的准确率,因此需要寻找并筛选出对服务器运行状态敏感的温度分布特征。

然而,在机房的实际运行中,被监测热点主要由偶发事件产生,在有限时间内很难收集足够多的热点图像。因此,训练集的各类别样本数量较少,且不均衡。然而,分类器在面对不同类别训练样本数不均衡的情况下,分类性能会显著下降[10]。虽然数据增强技术(例如平移、剪切、旋转等)能够在一定程度上提升这种情况下的准确率,但是这些数据增强方法产生的数据相关性较大,不能从根本上解决问题[11]。

对抗生成网络(GAN)是一种无监督类型的生成模型,在2014年由Good fellow提出[12]。GAN模型由生成网络和判别网络组成,生成网络尽可能合成趋近真实样本数据分布的伪样本,判别网络尽力去分辨真实样本和伪样本,通过零和博弈(Zero-sum Game)的对抗过程,最终达到纳什均衡(Nash Equilibrium),在对抗过程中使得生成网络获得趋近真实数据分布的能力。零和博弈的公式如下:

minGmaxDV(D,G)=

Ex~Pdata[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]

其中:D代表判别映射函数,G代表生成映射函数,Pdata代表真实样本数据的分布,Z代表噪声(即输入数据),PZ代表噪声分布。通过不断迭代学习,生成网络可根据真实数据样本分布特征合成与其相近的伪样本。因此,GAN模型可以生成非相关的样本数据,且具有更强的解释性。原始的GAN存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。很多学者都在尝试解决这些问题。其中,Wasserstein GAN(WGAN)的结果较为理想[13]。WGAN修改了原始GAN的实现流程,如在判别器最后一层去掉了sigmoid,生成器和判别器的loss不取log,每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c等。WGAN彻底解决GAN训练不稳定的问题,基本解决了模型崩溃问题,确保了生成样本的多样性。Chen等人提出的InfoGAN模型,不仅能够很好地学习数据之间的类型差别,也能够很好地学习到数据本身的一些易于区分的特点,而且生成模型对这些特点具有很好的泛化能力[14]。Alec等人提出的DCGAN也是对GAN较成功的改进,其改进主要是在网络结构上。DCGAN极大的提升了GAN训练的稳定性以及生成样本质量[15]。

本文给出了与热点成因相关的特征向量,介绍了利用SVM或AlexNet识别热点成因的方法,并通过实验对比分析了有无DCGAN增强训练样本集的诊断性能。

1 热点成因诊断方法

热点成因诊断的基本流程,是通过热像仪采集服务器出风口一侧的红外图像,经过图像标准化、热点提取[16]、特征提取及机器学习等步骤,识别服务器所处工作状态,如CPU负荷、各处风扇状态、空气流通情况等。为后续消除热点操作提供决策支持。针对特征提取及机器学习过程,本文使用了两种方法,并通过实验对比了各自的性能。

1.1 基于SVM的诊断方法

采用SVM作为分类器模型时,需要首先对红外图像中的热点区域的数据进行特征提取。根据每种特征对热点成因诊断准确率的贡献,利用特征选择算法,从数据统计、图像纹理、形态学三方面,筛选出了红外图像中热点区域的有效特征,可用于热点成因诊断。

(一)发病情况 垫江县某镇养殖户饲养了2 000只种鸭,在小河边(河中的水质较差)、树林中放养,大部份种鸭开始产蛋。10月中下旬陆续有种鸭发病,曾用鸭瘟疫苗免疫注射过,用氟哌酸治疗,效果不明显,先后共死亡220只,死亡率为11%;附近农户圈舍饲喂有鹅,鸡未发病。

统计特征由表1所示,包括灰度概率密度、灰度均值、灰度方差、统计直方图概率均值、熵、峰态、歪斜度等特征。相关公式如表1所示。其中,h和w分别表示图像的长和宽,N表示像素数量,ni表示灰度值为i的像素个数,I为红外灰度图像。

表1 统计特征表

纹理特征包括Tamura特征和LBP_GLCM特征[16]。Tamura纹理特征包含的内容如表2所示。其中,粗糙度中Sbest(i,j)表示图像(i,j)位置的像素的能得到最大领域均值差值的窗大小;对比度中μ4为图像灰度的四阶矩;方向度中HD表示方向梯度直方图,k为直方图峰值,np为直方图所有峰值,Wk表示该峰值所包含的区间,Φk表示波峰的中心位置;线性度中PDd是方向共生矩阵,n为PDd的大小;规则度中r表示规范化因子,Scrs、Scon、Sdir、Slin分别表示粗糙度、对比度、方向度和线性度的标准差。LBP_GLCM纹理特征提取是通过使用局部二值化(LBP,Local Binary Patterns)特征描述算子计算得到LBP模式下的灰度子图,然后基于LBP子图计算灰度共生矩阵(GLCM,Gray-Level Co-Occurrence Matrix)特征,相关公式如表3所示。其中Hl(i,j)表示坐标(i,j)处的灰度概率密度,(μx,μy)和(σx,σy)分别表示水平方向和竖直方向的像素均值和标准差。

形态学的有效特征包括:热点区域占服务器的面积比、服务器温度重心位置、温度最大值区域的重心的横坐标,温度最大值的面积比例、热点区域的周长、欧拉数。

表2 Tamura纹理特征表

表3 LBP_GLCM纹理特征表

1.2 基于AlexNet的诊断方法

深度学习相关算法是基于大量数据训练实现的。然而,由于没有足够多的热点图像样本,热点成因诊断的分类器训练过程将面临小数据样本集问题,通常采用特征提取方式实现目标分类。相比传统的卷积神经网络,AlexNet增加了Dropout、Relu激活函数和数据增强,提高了传统网络的分类效果。

针对机房热点红外图像样本集的特点,将AlexNet网络结构进行改进,如图1所示。其结构包含5个二维卷积层、5个批归一化处理层、4个最大池化层、3个Dropout层和一个全连接层,采用ReLU激活函数[17]。卷积层中卷积核的个数依次为32、64、128、256和512,大小均为3×3。全连接层使用线性分类函数,并增加Dropout函数避免过拟合问题。

图1 改进的AlexNet模型结构图

1.3 基于DCGAN的数据集增强方法

在DCGAN模型中生成网络和判别网络的结构都是卷积神经网络,它的结构特点是:1)在两个网络中都使用了批归一化处理;2)分别用局部卷积和带步长的卷积替换了池化层;3)生成网络采用ReLU激活函数;4)判别网络使用LeakyReLU激活函数。与传统的GAN模型相比,DCGAN模型改善了合成样本的质量和多样性,提高了收敛速度。

生成网络的结构如图2所示,包括一个全连接层、三个批归一化处理层、两个上采样层和三个二维卷积层。其中,二维卷积层的核尺寸为3×3,padding为1,卷积步长为1。激活函数采用的是Tanh和LeakyReLU,其中LeakyReLU的负斜率为0.2。

图2 DCGAN模型生成网络结构图

判别网络的结构如图3所示,包括4个二维卷积层,4个Dropout层,三个批归一化层和一个全连接层。其中,二维卷积层的核尺寸为3×3,padding为1,卷积步长为2。激活函数采用的是Sigmoid 和LeakyReLU,其中LeakyReLU的负斜率为0.25。为了避免过拟合现象,在判别层网络增加了Dropout层,神经元停止工作的概率设为0.25。

DCGAN的结构如图4所示。生成网络的输入是高斯噪声,范围在[0,1]。因此,为了在判别网络中能对真实图像和合成图像匹配判断,需要将真实数据集在输入判别网络前进行归一化。判别网络的输入是真实图像或者生成图像,通过卷积操作可得到输入可能为真实图像的概率。判别网络的学习经验被反馈至生成网络,用于生成网络的下一步优化。通过多次迭代,生成网络将生成接近真实图像的生成图像。由于使用了Adam优化器,DCGAN网络模型的收敛更快,并可避免过拟合现象。根据文献[18],Adam优化器的学习率可分别设置为2E-4,一阶和二阶动量梯度衰减率可设置为0.5和0.999。

图4 对抗生成网络结构图

2 实验结果与分析

2.1 红外图像获取及预处理

实验在大连理工大学的网络与信息化中心的机房进行。通过控制DELL 720服务器的软硬件工作状态,以及对周围环境的设置,模拟了5种可产生热点的场景,分别是CPU长时间60%负荷、CPU长时间100%负荷、主风扇损坏、CPU风扇损坏、服务器进气口处空气流通不畅。出现热点后,利用FLIR E8手持热像仪采集服务器出风口一侧的红外图像。

实验共采集5类1 350张红外图像,如图5所示。考虑到拍摄角度会引起温度分布发生形变,首先提取服务器在图像的区域,然后利用透视变换得到具有标准长宽比的服务器温度分布(如图6)。利用同态滤波增强算法和一维最大熵分割算法得到服务器热点区域的温度分布(如图7)。

图5 服务器运行状态下红外图

2.2 基于DCGAN的数据集增强对比实验

诊断过程分别使用了SVM和AlexNet分类器。SVM使用统计特征、纹理特征、形态学特征作为分类器的输入特征集;AlexNet采用卷积核自动提取图像特征。

采用DCGAN作为生成器合成样本时,模型采用Pytorch按照图2、3的结构进行搭建。模型的输入为1×100的高斯噪声向量,设置模型的epoch为200,batch size为12,按照图4的计算结构进行训练。将1 350张真实热点图像随机划分为训练集(900张)和测试集(450张),分别记为集合SR0和SR1。将SR0输入至DCGAN进行图像生成训练,每种类别下生成496张图像,总计生成2 480张合成热点图像(如图8),记为集合SD。

图8 DCGAN合成图片

实验按照有无合成图像、诊断模型的类别分为4组,如表4所示。每组实验在训练得到分类器模型后,均使用SR1测试其诊断准确率。各组实验的准确率如表5所示。

表4 各组实验使用的训练集和分类器模型

表5 各组实验的准确率 %

通过对比实验一和实验三的结果可以发现,SVM和AlexNet使用真实数据集,即在小样本数据集,训练得到的模型,在诊断准确率方面没有显著的差异,均能达到90%左右。SVM能够达到这一效果的前提是繁杂的特征选择工作;AlexNet能够自动地提取样本有效特征。通过对比实验二与实验三的结果可以发现,利用DCGAN增强训练数据集后再训练这两种模型,SVM的训练集准确率提升到95.01%,但是测试集准确率相较之前下降了2.22%;而AlexNet的训练集和测试诊断集准确率均有所提升,其中测试集准确率比实验三提升了5.11%。

通过实验结果可以看出,使用DCGAN增强训练数据集的策略不是对任何分类器模型都有效。DCGAN会使SVM出现过拟合的问题,致使诊断性能下降;使AlexNet显著提升诊断性能。因此,针对本文提出的基于热成像的热点成因诊断问题,利用DCGAN增强训练集合,并选择AlexNet作为分类器模型,可以得到更优的诊断性能。

3 结论

本文研究了基于热成像的机房热点的成因诊断方法。针对服务器上热点的温度分布,在计算出特征集合后,利用SVM可以对热点成因进行识别。本文给出了经筛选的与热点成因关联的特征集合。利用卷积神经网络,如AlexNet,自动提取分布特征并识别也可以实现热点成因的诊断。

针对机房中无法在短时间内收集足够多的热点图像用于训练,本文提出利用对抗神经网络,如DCGAN,合成出更多的热点温度分布图,用于增强训练样本集。

通过4组实验对比了SVM和AlexNet在有或无DCGAN增强训练样本的情况下对热点成因诊断的准确率。从实验结果发现, DCGAN可以提升AlexNet的诊断性能,而对SVM无效。由此,本文选择AlexNet+DCGAN组合作为热点成因的诊断方法。该组合构建的模型优势主要有两点:一是由于服务器红外图像信噪比低,图像有效特征较难准确提取,而通过卷积核自动提取特征能够有效简化特征选择的难度;二是借助DCGAN扩展原始数据集,能够将AlexNet分类模型的性能进一步提升,能够很好地应对工程实践中样本数量较少的情况。

猜你喜欢
热点卷积服务器
基于全卷积神经网络的猪背膘厚快速准确测定
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
2018年全球服务器市场将保持温和增长
结合热点做演讲
4月高考热点关注
用独立服务器的站长注意了
定位中高端 惠普8路服务器重装上阵