基于变压器声纹Mel语谱图-ResNet的铁心松动故障诊断*

2022-09-29 09:20陈寿龙许洪华王凌燕

电机与控制应用 2022年9期

何萍, 李勇, 陈寿龙, 许洪华, 朱雷, 王凌燕

(国网江苏电力有限公司南京供电分公司,江苏南京 210019)

0 引言

随着经济的不断发展，社会对电能的需求逐年提高，而变压器作为最重要的电力设备之一，其投入运行的数量也在不断增加，但由变压器运行带来的噪声问题也不容忽视[1]。国内外学者对变压器噪声产生的机理进行了深入研究。变压器的噪声中含有大量能反映变压器运行状态或变压器故障状态的信息。因此,可以通过数据挖掘技术提取变压器声音信号中的发生变化的特征，就可以对变压器运行状态进行识别。

对于变压器铁心松动故障的诊断，目前的研究主要集中在针对振动信号的分析上。文献[2]提出了利用振动信号中100 Hz特征频率分量占总分量(1 kHz以内)的比值来判断铁心松动故障的方法，指出变压器铁心松动后，50 Hz分量及其部分倍频分量、基频的倍频分量等新特征频率能够反映故障，能有效识别变压器铁心的松动故障。但是由于振动信号的采集依靠的是振动传感器紧贴在变压器的侧壁上，采集的信号存在干扰，而利用声纹诊断时采用非接触式，采集到的信号更加纯净。在信号处理方面，王丰华等[3]提出基于加权降维Mel倒谱系数(MFCC)和矢量量化模型(VQ)的变压器声纹识别模型，将提取出的特征值与机器学习相结合的方法，但识别率还需要进一步提高。舒畅等[4]提出了基于自适应白噪声完备集成经验模态分解(CEEMDAN)的配电变压器放电故障诊断方法，该方法在放电故障的识别率达到90%以上,但是针对的是放电故障。目前利用深度学习对变压器声纹的铁心松动故障研究较少[5]。

基于上述分析，针对变压器铁心松动故障识别，本文设计两种声纹识别模型，分别是带注意力机制的ResNet+交叉熵损失函数(SE-ResNet-Dense)组成的识别模型和带注意力机制的ResNet+ArcLoss损失函数(SE-ResNet-ArcLoss)组成的识别模型。模型的输入均是利用短时傅里叶变换(STFT)提取时频矩阵并通过Mel滤波器对其降维后生成的语谱图，比较这两种模型的识别效果，确定最适合变压器铁心松动故障的声纹识别模型。

1 噪声信号预处理

1.1 语谱图绘制

语谱图能直观地表示语音信号随时间变化的频谱特性，任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示[6]。正确建立噪声信号时频域的关系，能从中提取到重要的特征量，有助于后期声纹特征的学习。

声纹语谱图的绘制过程包括分帧、加窗和离散傅里叶变换，再计算出每一帧的功率谱，用颜色的深浅表示能量的大小，从而绘制出语谱图[7]。取一段变压器运行时采集的4 s噪声片段，对截取的片段作分帧处理，分帧长度的选择会影响能否提取到有效的特征量以及特征量的准确性。考虑到变压器噪声较为稳定，因此选择每帧的长度N=4 096为64 ms(采样频率为64 kHz)，重叠率取50%。其次，将分帧好的每一帧数据作加窗处理，为减少信号失真现象，本文选择使用汉明窗,表达式如下：

(1)

式中：N为批次大小(batchsize)；n为类别数。

再对分帧加窗后的每一帧数据作离散傅里叶变换，频矩阵通过下式获得：

(2)

最后用式(2)计算的功率谱绘制语谱图，此时横坐标表示分帧后的帧数(时间)，纵坐标表示频率，其中的颜色深浅表示该时刻该频率下的大小，该大小为功率谱密度。通过短时傅里叶变换生成的语谱图如图1所示。

图1 语谱图

1.2 Mel-语谱图降维

通过上述步骤能得到描述变压器运行过程中时域与频域之间的关系，但是生成的语谱图数据尺寸达到465×2 049(465代表时间尺度，2 049代表频率维度)，这样庞大的数据对后续神经网络的训练与识别速度有很大的影响，因此需要对STFT生成的数据进一步压缩。Mel滤波器是根据人耳结构特征，对线性的频段做非线性处理，将低频部分的权重加大，高频部分的权重降低，突出有效频段的作用，因此选择Mel滤波器对465×2 049的矩阵进行压缩。

Mel频率与实际频率的转化关系为[8]

(3)

式中：fMel(f)为Mel刻度下的频率；f为实际频率。

Mel滤波器为一个由M个三角形滤波器组成的滤波器组(取M=40)。其中心频率为f(m)，在Mel频率刻度上，滤波器之间的距离是等宽的。该滤波器组的传递函数为[8]

(4)

f(m)定义为[8]

(5)

式中：fh与fl为滤波器滤波频率的上限与下限；fs为变压器声纹采样的采样频率，fs= 64 kHz;N为进行STFT时的帧长。

通过使用Mel滤波器对数据进行降维后，时频矩阵从465×2 049被压缩至465×40，大大缩减了数据的尺寸，简化了后续的模型训练与识别，生成的Mel-语谱图如图2所示。

图2 Mel-语谱图

2 CNN的损失函数

SE-ResNet-Dense使用的损失函数是softmax损失函数，softmax loss是由softmax和cross entropy loss 组合而成的损失函数，其损失函数的表达式为

(6)

式中:wyi、byi均为符号函数，如果样本i真实，则y=1，否则为0；xi为属于第i个样本的嵌入特征，xi∈Rd，特征尺寸d设置为512；wj为权重矩阵的第j列，wj∈Rd×n；bj为偏置项。

式(6)中，log是计算时间复杂度，算法中log级别的时间复杂度均是由于使用了分治思想，这个底数直接由分治的复杂度决定。如果采用二分法，那么就会以2为底数，三分法就会以3为底数，其他亦然。

(7)

(8)

3 ResNet网络结构

由He等[11]提出的基于残差结构卷积神经网络——ResNet，极大地缓解了传统的卷积神经网络和全连接网络在训练过程由于网络过深而出现的信息丢失、梯度消失和爆炸等问题[9]，参数量比超分辨率测试序列(VGG)网络减少且准确率更高。在网络结构中添加多个由2个(3×3)卷积层串接在一起的残差块，整个网络只需要学习输入、输出差别的部分，简化了学习目标和难度。

本文构造的两个模型SE-ResNet-Dense与SE-ResNet-ArcLoss中选取的卷积结构是ResNet34，并在网络中引入注意力机制，再用不同的分类器进行分类，两种模型的结构如下表1所示。SE-ResNet网络结构主要由16个ResNet-block组成，ResNet-block由2个kernel为3×3、stride为1×1的conv层和1个SELayer构成，通道数分别为64、128、256、512的ResNet-block个数分别设置为3、4、6、3，然后经过max pool将特征转换为512维。

表1 模型的网络结构

将采集到的4 s变压器噪声语音预处理后生成的Mel-语谱图时频矩阵化为单通道数据，将矩阵尺寸为40×465的数据送入到网络中，ResNet34的每个残差块是由2个kernel为3×3，stride=1的卷积层加注意力机制组成，且通道数逐渐增加，并最终用最大池化层将维度转化为512。

4 试验及训练结果

4.1 数据集

为了验证Mel语谱图-ResNet网络的有效性，搭建了变压器铁心松动故障试验平台，采集铁心在不同松动程度下的噪声信号。

试验对象为一台S13-M-200/10变压器，根据国标GB/T 1094.10—2003对该变压器噪声测量的标准和要求，采用电容式麦克风作为声传感器对变压器铁心不同松动情况下的噪声进行测量，采样频率为64 kHz，频率响应为20 Hz～20 kHz。试验选择在比较空旷的变压器厂房进行，避免了墙面对声波的反射与折射，如图3所示。

图3 试验环境

将变压器油抽出吊芯，使用扭力扳手先确定铁心夹件的额定预紧力，再通过设置不同的预紧力来表征变压器铁心的不同松动程度，模拟铁心松动故障。铁心压紧程度通过改变螺栓预紧力进行模拟如图4所示，分别调整为额定预紧力(FN)、松动20%(0.8FN)、松动40%(0.6FN)。在低压侧加入400 V电压，对变压器进行空载运行试验，如图5所示，分别测量得出不同状态下的噪声信号长度为4 s。

图4 设置铁心预紧力

图5 变压器空载运行

分别采集铁心在额定预紧力下的样本289个，松动20%时的样本156个，松动40%时的样本323个。其中，将80%的数据作为训练样本，剩余20%作为测试样本，验证模型的有效性。

4.2 模型训练参数

设置每个模型训练的epoch=50(训练结果显示在50次后模型效果趋向稳定)，每训练一个epoch时的批处理量batch_size=16，优化器选择更适合分类问题的随机梯度下降(SGD)，设置其动量为0.9，权重衰减值设置为5×10-4，学习率的设置采用指数衰减法，初始学习率设置为10-3，衰减系数为0.1，即每10个epoch衰减一次。

4.3 性能指标

给每一段音频生成的语谱图标记，分别送入两个模型中训练，用损失值loss和准确率acc来评判模型的优劣。损失值loss用来描述预测值与实际值之间的差距，acc表示正确分类的数量占总预测样本的比例。loss值越小，acc值越大，则判定该模型越适合变压器铁心松动故障的识别。

4.4 模型测试结果

图6所示是这两个模型在训练集上训练的准确率acc随epoch变化的曲线图。两个模型从整体来看，均是随着epoch的增加准确率逐渐增加。SE-ResNet-Dense网络结构在训练集上的准确率波动很大，显示出该卷积神经网络的不稳定性，随着epoch的增大，准确率在0.1～1之间大幅波动。而在卷积神经网络SE-ResNet-ArcLoss上的训练效果就相对更稳定，SE-ResNet-ArcLoss比SE-ResNet-Dense稳定性稍好一些，在epoch=18以后，准确率在0.75～1之间浮动；在epoch=40以后，准确率在0.95～1之间浮动。

图6 模型的acc曲线

图7所示是两个模型在训练集上训练的损失值loss随epoch变化的曲线图。从图7中可以清晰地看出，SE-ResNet-Dense模型的loss值没有随着epoch的增加呈现逐渐下降的趋势，说明在训练过程中出现了不同程度的过拟合，但是对于SE-ResNet-ArcLoss模型，在epoch=25以后，loss值虽然有波动但已经稳定在0.5以下。

图7 模型的loss值曲线

在测试集上测试的结果显示，SE-ResNet-ArcLoss的测试acc为97.541%，而SE-ResNet-Dense的测试acc为90.753%。综合而言，根据比较准确率acc、loss值及参数量，最终找到最适合变压器铁心松动故障识别的模型是SE-ResNet-ArcLoss网络。

批尺寸是影响网络最终训练结果的一个重要因素，是指一次送入网络训练的数据量，因此对SE-ResNet-ArcLoss网络训练的不同batchsize进行测试，测试结果如图8所示。从图8中可以看出,当batchsize=10、20、30时，训练的准确率均出现了大小不一的波动，而当batchsize=60时，随着epoch=40以后，训练准确率达到1并不再变化，因此该网络在训练过程中应将batchsize设置为60。

图8 SE-ResNet-ArcLoss模型不同batchsize训练结果

5 结语

本文提出了一个基于变压器声纹的Mel语谱图-ResNet卷积神经网络的铁心松动故障诊断模型。通过搭建模拟铁心松动故障试验平台，采集不同松动状态下变压器空载运行的噪声信号；利用Mel滤波器对离散傅里叶变换下的时频矩阵降维绘制语谱图制作成数据集，输入ResNet网络中，比较在softmax损失函数和additive angular margin loss损失函数上的表现效果，通过准确率和loss值比较，计算结果是SE-ResNet-Dense模型的准确率为90.753%，而SE-ResNet-ArcLoss模型的准确率可达到97.541%，同时计算了当批尺寸为60时的训练效果最好，因此最适合变压器铁心松动故障的声纹识别模型是SE-ResNet-ArcLoss。