基于特征筛选和改进深度森林的变压器内部机械状态声纹识别*

2022-09-29 09:19马宏忠张玉良段大卫崔佳嘉
电机与控制应用 2022年9期
关键词:幅值分量准确率

李 楠, 马宏忠, 张玉良, 段大卫, 崔佳嘉, 何 萍

(1.河海大学 能源与电气学院,江苏 南京 211100;2.国网南京供电公司,江苏 南京 210008)

0 引 言

电力变压器是电力系统的核心设备之一,其可靠运行与电力系统的安全稳定密切相关[1-2]。机械故障是变压器主要故障类型,也是部分电气故障、发热等问题的主要诱因,具有累计效应,易造成绝缘老化加速、抗短路能力降低等隐患[3-4]。国家电网统计表明,由绕组故障引起的变压器事故占变压器总事故的69.8%[5-6]。因此,开展变压器绕组及铁心机械状态监测与识别研究,对电力系统的安全稳定运行具有重要意义。

目前,现有的变压器机械故障诊断方法包括频率响应法[7]、低压脉冲法[8]、短路电抗法[9]、油色谱分析法[10]以及振动分析法[11]等。频率响应法、低压脉冲法以及短路电抗法需要离线检测并且一定程度地影响变压器寿命。油色谱分析法可以实现在线监测,但难以准确地识别故障类型及确定程度。振动分析法具有无电气联系、可以在线检测等优点,但对振动传感器安装位置、安装方式要求严苛,尤其是测点位置的改变极易造成测量结果相差较大,因此该方法难以得到推广。

变压器运行时产生的声纹信号包含大量反映设备内部机械状态的有效信息。基于声纹的变压器故障诊断方法具有非接触、测量方便快捷以及可以在线监测等优点,且能够有效解决振动分析法中空间敏感度要求高的问题,受到广泛关注。文献[12]提出了基于Mel频率倒谱系数(MFCC)和矢量量化算法的变压器声纹识别模型,对不同铁心压紧状态下的变压器声纹信号进行识别。文献[13]使用MFCC进行特征提取,建立了基于快速增量式以及门控循环单元的变压器机械故障声纹识别模型。文献[14]提取MFCC特征量,并建立两级电气故障声纹识别算法,对4种不同工况进行识别。MFCC利用人类听觉感知试验得到的Mel非线性谱,进行声纹特征提取,目前已成为主流的声纹识别特征向量提取方法。然而,MFCC特征参数主要针对人对声音的感知特性,考虑到变压器声纹信号与人声之间存在较大差异,MFCC难以用于变压器声纹识别。因此,亟需一种切实有效的变压器声纹特征提取方法,以提高声纹识别准确率。

以深度神经网络为代表的深度学习算法因其强大的数据处理与挖掘能力受到广泛关注。文献[15]利用卷积神经网络在图像深度数据挖掘方面的优势,提出了基于Mel时频谱-卷积神经网络的变压器铁心声纹识别模型,对3种不同工况下的声纹信号进行识别。文献[16]利用深度神经网络中的门控循环单元强大的特征学习能力,提出一种改进的MFCC和门控循环单元的变压器偏磁声纹识别方法。尽管上述方法证明了深度学习用于声纹识别的有效性,但所提模型均存在网络结构复杂、对样本数量要求高、训练时间长以及过拟合等问题。

为了利用深度神经网络挖掘故障特征的优势,同时避免建立模型,深度森林应运而生。文献[17]提出基于稀疏深度森林的调相机轻微定子匝间短路故障方法,取得了较高的诊断精度和效率。文献[18]提出一种改进的新型深度森林算法,有效解决了滚动轴承剩余寿命预测精度差、运算效率低等问题。然而,目前深度森林还未应用于变压器机械状态声纹识别[19-21]。

为此,本文提出一种基于特征筛选和改进深度森林的变压器机械状态声纹识别方法。先利用自适应噪声完备集合经验模态分解(CEEMDAN)将声音传感器采集到的声纹数据分解成多个本征模态函数(IMF)分量,并根据频谱分析和皮尔逊相关系数进行IMF分量优化选择,筛选出有效的IMF分量。再利用各IMF分量在频段上的分布情况划分高、低频段,依据高、低频段IMF分量的差异性,提取高频段IMF分量时频能量和低频段IMF分量幅值特征构成特征向量。为平衡模型的级联层数和精度,以提高运算效率,对深度森林进行改进,并将特征向量输入改进后的深度森林模型,输出10种机械松动状态的声纹识别结果。最后,在现场实测的基础上对所提方法进行验证。

1 模态分解与筛选

1.1 模态分解

经验模态分解(EMD)是一种自适应时频分析方法,通过多次迭代得到多个单IMF分量,但由于极值点的选择问题会出现模态混叠现象。为解决极值点的选择问题,集合经验模态分解(EEMD)引入高斯白噪声,利用高斯白噪声频谱均匀分布特性,使信号自动分布到合适的参考尺度上,有效抑制EMD的模态混叠现象,但存在计算速度慢和模态分解结果中存在多个无效低频IMF分量等问题。

CEEMDAN在EEMD方法基础上,通过加入残值、高斯白噪声和多次叠加求平均以抵消噪声等操作,进一步减少模态混叠,提高了分解的完备性以及对噪声干扰的鲁棒性。具体算法原理如下所示。

1.1.1 第一阶段模态分量

对于加入高斯白噪声的原始信号:

X(i)=y(t)+k0ni(t)

(1)

式中:y(t)为原始信号;ni(t)为满足N(0,1)分布的高斯白噪声;k0为第一阶段高斯白噪声的幅值。

将带噪原始信号EMD分解,并将分解得到的IMF1,i分量平均得到:

(2)

式中:N为分解后的模态分量个数。

1.1.2 第二阶段模态分量

在第一阶段模态分量的基础上计算第一阶段残余分量:

x1(t)=X(t)-XIMF1

(3)

分解加入白噪声的第一阶段残余分量:

r1(t)=x(t)+k1EMD1[ni(t)]

(4)

式中:EMDi[ni(t)]为分解信号得到的第i个分量;k1为第二阶段高斯白噪声幅值。

将带噪第一阶段残余分量EMD分解,并将得到的IMF2,i分量平均得到:

(5)

1.1.3 第k阶段模态分量

对于k取3,4,…,k,同样重复上述步骤计算xk(t)和rk(t),并通过EMD分解及平均操作,直到剩余信号不能被分解,得到第k阶段模态分量为

(6)

1.2 模态筛选

1.2.1 频谱分析

现有研究表明,变压器声纹信号分布于0~2 000 Hz的频率范围内,且以50 Hz及其倍频分量为主。本文试验中的声纹信号主要由3种频率成分构成:(1) 频点为0的直流分量,属于传感器测量所造成的直流偏移;(2) 0~50 Hz之间的频率范围,属于测试环境中的背景噪声;(3) 50 Hz及其倍频分量,是变压器本体产生的声音成分。

1.2.2 皮尔逊相关系数

皮尔逊相关系数用以度量两组向量之间的关联程度,本文选择皮尔逊相关系数量化各个IMF分量与原始信号之间的关联程度,进而刻画IMF分量中包含特征信息的丰富程度,其值在-1~1之间,且越接近1,表示两者之间的相关性越强。皮尔逊相关系数ρXY计算公式如下所示:

(7)

式中:X={x1,x2,x3,…,xn};Y={y1,y2,y3,…,yn}。

2 特征提取

不同IMF分量在频谱中表现出较大的差异性。为依据不同频段IMF分量的特点,有针对性地提取故障特征,可以将IMF分量分为能量大多集中于500 Hz以下的低频段IMF分量和500 Hz以上的高频段IMF。低频段IMF分量频谱简单,其主频集中于100 Hz、200 Hz以及300 Hz,且能量集中、幅值较大。高频段IMF分量频谱复杂,表现出非线性、非平稳特征,且能量分散、幅值较小。本文针对高、低频段IMF分量差异性提取不同特征,并进行归一化构成故障特征量。

2.1 低频段IMF分量幅值

低频段IMF分量相对平稳,频谱简单且集中。针对此特点,本文提取低频段中各50 Hz及其倍频信号幅值之和作为低频段IMF分量特征(简称为LFA)。其计算方法为先利用短时傅里叶变换,计算各50 Hz及其倍频信号幅值对应的幅值f(50×i)并将其叠加,计算式如下所示:

(8)

式中:i为整数,i=1,2,3,…,10。

2.2 高频段IMF分量时频能量

高频段IMF分量频谱复杂,且表现出非线性、非平稳的特征。小波能量熵针对高频段IMF特征,融合小波变化和能量熵优势,能够从时间和频率两方面监测能量分布变化情况,因此,本文选择小波能量熵(简称为WEE)对高频段IMF分量进行特征提取,利用特征向量构成识别参数,输入识别模型,计算过程如下所示。

2.2.1 小波时频分析

对声音信号进行分帧以及加窗处理后,对声音信号进行连续小波变换,先确定小波基与尺度,而后求出小波系数,其计算公式如下所示:

(9)

式中:x(t)为输入声音信号序列;ψ为母小波,采用复数小波Complex Morlet,其在时频两域具有很好的分辨率,适合处理非平稳的声音信号。

2.2.2 IMF分量能量计算

从小波系数序列中提取小波系数coefs(50×i)(n),对于给定小波系数coefs(50×i)(n):

coefs(50×i)(n)=[coefs(50×i)(1),coefs(50×i)(2),

coefs(50×i)(3),…,coefs(50×i)(N)]

(10)

定义时间序列数据平方和Ej,其为该时间序列数据能量:

(11)

2.2.3 总能量值计算E

总能量值E的计算式为

(12)

式中:A为CEEMDAN分解的IMF分量个数。

2.2.4 IMF能量熵计算

IMF能量熵计算式为

(13)

3 深度森林

深度森林主要包括多粒度扫描和级联森林。多粒度扫描是通过扫描窗口遍历以提高子样本数量的方法。级联森林采用级联方式连接各层,且每一层均由随机森林和完全随机森林组成。本文对多粒度扫描和级联森林进行参数调整和模型改进,提高了运算效率和识别准确率。

3.1 多粒度扫描

多粒度扫描利用滑动扫描窗口遍历样本,提取时间序列数据空间位置信息。扫描窗口为L维向量,扫描滑动步长为1,对于N维时间序列数据样本,多粒度扫描后将获得N-L+1个L维子样本。利用随机森林对子样本进行训练,产生N-L+1个K维概率特征向量,将上述N-L+1个概率特征向量利用张量压缩拼接成K(N-L+1)维向量,作为后续级联森林输入特征。

3.2 级联森林

级联森林是一种借鉴决策树混合堆叠思想改进的多层级结构,每一级联层中包含随机森林和完全随机森林,其训练后生成的特征向量为类向量,生成的类向量和原始数据向量拼接构成新的向量,作为下一层的输入特征向量。当训练达到较好效果或训练至最后一层时,对各层输出的概率特征向量取平均值,则最大的类概率值所对应标签为最终输出结果。本文在原始模型的基础上,增加XGBoost基学习器以调用GPU参与运算,提高计算速度和效率。此外,增加逻辑回归基学习器以降低数据资源存储要求,大幅度提高级联森林网络模型的性能。

级联森林是多层堆叠,随着级联层数增加,深度森林复杂度线性增加,但是随着层级增加,训练准确率提升逐渐变缓。为避免无效级联,提高模型训练效率,引入神经网络中的识别准确率和交叉熵损失值作为级联结束判定指标。在模型训练以及层级增加过程中,当识别准确率连续5次未提高或损失值连续5次未降低,则层级增加终止,避免无效的级联层数增加,以提高模型运算效率。

模型训练准确率计算公式如下所示:

(14)

式中:TP为将正类预测为正类的数量;TN为将负类预测为负类的数量;FN为将正类预测为负类的数量;FP为将负类预测为正类的数量。

模型训练损失值计算公式如下所示:

(15)

式中:s为样本个数;M为多分类类别数;yij为样本标签,当样本i的真实预测类别标签为j时取1,否则取0;pij为观测样本,i属于j的概率。

4 试验与分析

4.1 试验描述与频谱分析

为验证本文方法的有效性,在句容变压器厂搭建变压器声纹数据采集平台,以一台型号为S-13-M-200/10的10 kV油浸式配电变压器为研究对象,通过试验模拟其在不同工况下发生机械故障,并通过采集平台采集声纹信号。试验平台包括电脑、DHDAS动态信号采集仪、信号传输线、前置放大器HS14618以及电容式声传感器 HS14401等如图2所示。本文设置采集仪的采样频率为50 kHz以提高试验精度,按照国标GB/T 1094.10—2003规范,传感器布置在变压器四面,距离变压器油箱30 cm,距离地面高度35 cm,利用龙门吊和扭力扳手设置不同类型的机械故障。

图1 改进深度森林模型

图2 变压器声纹数据采集平台

变压器空载试验下,绕组中仅流过励磁电流,不足以引起绕组的振动,此时声音信号主要来源于铁心振动。变压器短路试验下,绕组振动引起的声音远大于铁心振动引起的声音。本文开展空载试验和短路试验,如图3所示。为了尽可能采集到丰富的声音信号,本文将4个相同型号的声音传感器均匀地放置在变压器箱体的4个侧面。 1号和3号传感器对应的箱体侧面记为“左右侧面”,2号和4号传感器对应的箱体侧面记为“上下侧面”,以研究变压器铁心、绕组的松动机械故障,具体试验流程如下。

图3 变压器机械松动故障试验

(1) 空载试验下的铁心松动故障。设置变压器高压侧开路,低压侧保持额定电压,利用龙门吊吊心,并使用扭力扳手调整铁心水平方向紧固螺丝的松紧程度,调整预紧力为0、0.25FN、0.5FN、0.75FN和FN,此处FN为额定预紧力,最后装机静置采集声纹数据。

(2) 短路试验下的绕组松动故障。设置变压器低压侧短路,高压侧逐渐增加电压至绕组中电流达到额定电流时停止,通过重复变压器吊心,并利用扭力扳手调整变压器绕组垂直方向上的紧固螺丝松紧程度,分别调整预紧力为0、0.25FN、0.5FN、0.75FN和FN,静置测量变压器声纹数据。

试验采集并切片构成11 000个样本,对样本进行分类、附标签以及频谱分析,将其分为铁心松动和绕组松动2种松动故障类型。每种松动故障又被分为0、0.25FN、0.5FN、0.75FN和FN5种不同预紧力,对应100%、75%、50%、25%以及正常5种松动程度,并按照9…1划分训练集与测试集,各类别标签及样本个数如表1所示。

表1 样本标签和样本个数

如图4所示,变压器声纹信号主频为100 Hz,主要成分为50 Hz及其偶次倍频分量,50 Hz奇次倍频分量含量较少,且多集中于低频段。变压器铁心及绕组松动程度的变化,只改变特征频点的幅值,未改变频谱分布。此外,在低于50 Hz的频段也存在少量分布,属于测试环境中的背景噪声。此外,2号测点频谱稳定性高且信号相对简单,以其为代表进行分析处理。

图4 声纹信号频谱分析

在不同预紧力作用下,声纹信号频谱变化各不相同,但未表现出明显的规律性,且故障特征提取较困难。因此,迫切需要切实可行的故障特征提取方法。

4.2 变量筛选

为验证本文所提方法的有效性,对真实声纹数据进行分解,摒弃由于传感器自身及测量所造成的直流偏移和外界环境噪声干扰等无关分量,保留包含故障特征的IMF分量。如图5所示,IMF1~IMF3为全频段的均匀噪声,且其幅值远低于其他IMF分量。IMF12~IMF13所包含的特征分量均为低于50 Hz的低频段,其属于测试环境中的背景噪声。IMF14为传感器及测量造成的直流偏移。因此,本文舍弃无关分量,保留IMF4~IMF11等包含故障特征的分量。

图5 IMF分量频谱分析

在去除背景噪声分量的基础上,通过皮尔逊相关系数刻画原始信号与各IMF分量之间及各IMF分量之间的关联程度,刻画各IMF分量包含信息的丰富程度和独立性。各IMF分量相关系数,如图6所示。IMF4与原始信号之间的皮尔逊相关系数仅为0.008 4,相关程度较低。各IMF分量之间的相关系数均小于0.2,说明各分量之间相对独立。

图6 IMF分量相关系数图

4.3 特征量提取

变压器声纹信号经过CEEMDAN分解后,对各IMF分量进行频谱分析和相关系数筛选,得到包含故障特征信息的IMF分量。针对不同IMF分量特点,利用短时傅里叶变换和小波时频熵分别提取不同频段的IMF分量特征,同时随机选择提取MFCC一帧进行对比。以5种不同程度铁心松动故障为例,特征提取结果如图7所示。MFCC对于不同程度铁心松动故障区分度较差,存在大量交叠,且特征维度远超其他特征。短时傅里叶变换幅值特征提取,针对简单平稳的IMF8~IMF11具有良好的区分度,但对复杂非平稳的IMF5~IMF7存在交叠现象,难以有效区分。小波能量熵针对复杂非平稳的IMF5~IMF7具有较好的区分效果,但不适用于简单平稳的IMF8~IMF11。本文针对不同分量特征,融合不同特征提取方法优点,提出筛选特征方法,所提取的特征对有效的IMF5~IMF11均具有较高区分度。

图7 特征值区分度折线图

4.4 识别模型搭建与训练

为避免变电站其他变压器声纹信号对测试变压器产生干扰,在识别模型前增加辅助判据。当变压器处于空载状态且50 Hz频点幅值均小于0.001 Pa,启动铁心松动程度识别程序。当变压器负载状态下且50 Hz频点幅值均小于0.001 5 Pa,启动绕组松动程度识别程序。

本文针对10种类别、共计6 000组样本数据,随机提取80%样本作为训练集、20%样本作为测试集。在经过CEEMDAN分解后,选取IMF5~IMF11的样本熵和能量熵所构成的特征向量,作为深度森林的输入进行分类识别。

本文对改进深度森林中的3个重要超参数进行优化,包括学习率、基学习器中树的数量以及k折交叉验证中的k值。其中k折交叉验证的k值分别取3,4,5,…,15,基学习器中树的数量分别取100,200,300,…,1 000,学习率分别取0.1,0.01,0.001,0.000 1。为防止偶然性出现,每种超参数取值后进行5次重复试验,将5次试验结果取平均值进行对比,如图8所示。本文设置k折交叉验证中的k值取12,基学习器中树的数量取700,学习率为0.001。

图8 识别模型超参数训练过程

按上文重新设置模型超参数,并导入样本集对模型进行重新训练,本文采用混淆矩阵来衡量模型对1 100个测试样本的识别分类结果。如图9所示,本文所提模型对绕组及铁心不同松动程度故障均能实现有效识别,平均识别率达98.7%。

图9 识别结果混淆矩阵

4.5 模型优越性验证

为验证本文所提特征筛选方法的有效性,本文对比MFCC、IMF1~IMF14中提取的倍频幅值、IMF1~IMF14中提取小波能量熵、IMF5~IMF11中提取的幅值以及IMF5~IMF11中提取的小波能量熵5种特征值,分别记为MFCC、LFA1-14、WEE1-14、LFA5-11、WEE5-11。对1 100组测试样本进行测试,测试结果如图10和表2所示。MFCC特征识别准确率较低、训练时间较长。对比IMF1~IMF14所提特征和IMF5~IMF11所提特征,IMF1~IMF14所提特征的识别准确率均低于IMF5~IMF11所提特征的识别准确率,IMF1~IMF14所提特征的训练时间均高于IMF5~IMF11所提特征的训练时间。可知无效的IMF分量所提特征不仅降低识别准确率且大幅度增加训练时间。本文所提筛选的特征识别准确率较LFA1-14、LFA5-11、WEE1-14、WEE5-11以及MFCC 5种特征,至少提高了0.8%,且针对10类松动故障均有明显提升。

图10 不同特征识别结果对比图

表2 各故障特征训练时间和识别准确率

为验证本文所提识别算法的优越性,将常见的机器学习算法如决策树(DT)、朴素贝叶斯(NB)、随机森林(RF)、K近邻(KNN)、支持向量机(SVM)以及RUSBoost等与本文所提的改进深度森林模型进行对比。对1 100组样本进行测试,测试结果如图11所示。对比其他常见机器学习模型的平均识别准确率以及单一故障识别准确率,所提方法均有所提高。

图11 传统机器学习算法识别结果对比图

为验证改进深度森林算法比深度学习算法拥有更强的泛化能力,与深度学习算法中的一维卷积神经网络(ID-CNN)的训练过程和识别结果进行对比,如图12所示。CNN模型在训练过程中能够快速收敛,训练集准确率最终稳定在100%。虽然改进的深度森林算法识别准确率存在一定程度的波动性,但卷积神经网络测试集识别准确率仅为62.1%,改进深度森林测试集准确率达到99.2%,可知改进深度森林对变压器机械状态的识别具有更高的泛化能力。

图12 卷积神经网络识别结果对比图

5 结 语

变压器运行过程中发出的声音信号包含大量能够反映设备内部机械状态的有效信息。本文搭建变压器声纹信号采集平台,对采集到的声纹信号进行分析与处理,并对变压器不同机械状态的声纹信号进行识别。在后续的研究中,会对现场实际运行的变压器正常及故障数据进行收集处理,以进一步验证本文所提方法的有效性。本文得到如下结论。

(1) 利用CEEMDAN对声纹信号进行分解,通过频谱分析和皮尔逊相关系数对IMF分量进行筛选,有效剔除无效的IMF分量,保留了包含变压器本体声纹信号的IMF分量。

(2) 通过对不同IMF分量在高低频段上表征出的差异性,提取高频段IMF分量的时频能量和低频段IMF分量的幅值特性作为特征指标,具有针对性的提取特征量,有效提高了特征向量的区分度,降低了特征向量的冗余,在一定程度上减少了识别模型复杂程度。

(3) 利用改进的深度森林算法对变压器机械状态进行识别,取得了较好的识别效果。

猜你喜欢
幅值分量准确率
室温下7050铝合金循环变形研究
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
画里有话
一斤生漆的“分量”——“漆农”刘照元的平常生活
一物千斤
论《哈姆雷特》中良心的分量
可靠性步进电机细分驱动技术研究