基于IMDE和ORF模型的断路器工况识别*

2019-12-26 06:10车一鸣王冬梅王国兴
组合机床与自动化加工技术 2019年12期
关键词:训练样本断路器尺度

车一鸣,王冬梅,王国兴,管 华

(1.国网冀北电力有限公司 技能培训中心,河北 保定 071051; 2.国网冀北电力有限公司 遵化市供电公司,河北 遵化 064200;3.安徽同华新能源动力股份有限公司,安徽 宣城 242500)

0 引言

作为控制、保护电网稳定运行的关键电气设备,高压断路器的可靠性直接影响整个电网的安全。断路器在动作过程中会产生振动信号,将其作为传播媒介开展在线监测诊断研究,对于及时准确发现断路器的异常工况、尽早排除潜在的安全隐患具有重要意义[1-2]。

断路器振动信号具有非线性非平稳特性,因此以传统FFT为出发点的方法难以取得较好的分析效果[3],而熵值则可以有效反应非线性非平稳信号的动力学突变行为,能够准确刻画信号的内在状态特征。文献[4]提出使用近似熵(Approximate Entropy,AE)方法对心音信号进行有效处理,但近似熵受信号长度影响较为严重。为此文献[5]提出了样本熵(Sample Entropy,SE)方法,并被成功应用于电气设备故障诊断[6]。与近似熵和样本熵不同,文献[7]提出的排列熵(Permutation Entropy,PE)算法具有计算效率高、影响参数少等优点,也已被顺利用于电气设备特征提取[8]。最近,Rostaghi等[9]提出一种描述时间序列复杂度的散布熵(Dispersion Entropy,DE)算法,其计算效率及稳定性要优于传统的近似熵、样本熵及排列熵算法[10]。然而,散布熵算法只能检测时域信号单一尺度上的动力学特征,而在多个尺度上衡量时域信号的复杂性和随机性则更为科学合理[11]。因此,文献[12]中进一步开发出了多尺度散布熵(Multiscale Dispersion Entropy,MDE),但在多尺度分析过程中,由于需要进行粗粒化处理操作,会导致计算结果稳定性欠佳,存在计算精度不准确的弊端。

在智能分类方面,由决策树和Bagging重采样算法构成的随机森林模型(Random Forest,RF)[13]能够在小样本条件下实现有效训练,避免了过拟合、局部优化、收敛效率低等问题,对于噪声及外在干扰的鲁棒特性良好[14]。但模型中决策树棵数和剪枝阈值参数的设置缺少理论支持,仅能依靠经验选取,对于最终分类精确度无疑会造成不利影响。

针对上述情况,文中提出了一种基于改进多尺度散布熵(Improved Mutilscale Dispersion Entropy,IMDE)与遗传算法(Genetic Algorithm,GA)优化随机森林模型的高压断路器工况识别方法,有望从拾取的断路器机械振动信号中提取出关键的特征信息,并通过智能分类算法进行状态准确区分。

1 改进多尺度散布熵方法

1.1 散布熵

时间序列的散布熵值计算过程如下[9]:

(1)对于长度为N的时域信号{x|x1,x2,···,xj,1≤j≤N},通过正态分布函数将其映射到{y|y1,y2,···,yj,1≤j≤N},yj∈(0,1) ,即:

(1)

式中,μ和σ分别为期望和标准差。

(2)通过线性变换将y映射到[1,2,···,c]范围内:

(2)

其中,int和c分别为取整函数和类别个数。

(3)

其中,m和d分别为嵌入维数和时间延迟。

(5)根据如下公式计算每种散布模式的概率:

(4)

(6)根据香农熵的定义,信号的散布熵定义为:

(5)

1.2 多尺度散布熵

多尺度散布熵MDE定义为信号在不同尺度下的熵值,其中多尺度通过粗粒化过程获得,具体计算过程如下[12]:

(1)对原始时域信号{x|x1,x2,···,xj,1≤j≤N},通过式(6)构造不同尺度τ下的粗粒化序列:

(6)

其中τ=1,2,···为尺度因子,若τ=1,则为原始时域信号。当τ>1时,原始时域信号被分割为τ个长度为⎣N/τ」的粗粒化序列。以尺度τ=2,τ=3为例,其粗粒化过程如图1所示。

(7)

图1 MDE粗粒化过程示意图

1.3 改进多尺度散布熵

与传统的多尺度熵分析方法类似,虽然MDE可以在不同尺度上评价非线性非平稳时域信号的动力学特性,但在其粗粒化处理过程未采用连续平移平均操作运算,此外随着尺度因子的增大,粗粒化处理后所得新序列中有效数据点数将明显减少,这些因素的影响会导致获取的熵值精确度降低,并且MDE的计算稳定性也会大打折扣,为了克服上述缺陷,本文提出一种改进多尺度散布熵IMDE方法,其实现过程如下:

(8)

图2 IMDE粗粒化过程示意图

(9)

在IMDE算法中,连续计算了所有粗粒化序列的散布熵值,并通过求取均值来获取最终的结果,该过程可有效提高所得熵值精确度及计算过程的稳定性,更适合非线性非平稳定信号的分析处理。

1.4 IMED影响参数选取

IMDE计算过程需要考虑类别个数c、嵌入维数m、时间延迟d以及尺度因子τ这4个关键影响参数。在选取嵌入维数m时,如果m取值过小则难以检测信号的动力学特性,反之如果该参数设置过大,则无法有效区分信号微小的差异并且计算负担过重,因此权衡特征信息检测可靠性及运算效率,参考文献[15],本文取嵌入维数m=3。对于类别个数c的选取,当类别个数设置过小时,差异较大的幅值容易被划分为同一类别,而当该参数设置过大时,则计算效率会大打折扣并且计算结果很容易受噪声的干扰影响,通常类别取值为3~7,鉴于上述分析,本文取类别个数c=5来保证获得可靠的分析结果。同多尺度样本熵和多尺度排列熵算法类似,在IMDE算法中,时延参数λ对信号熵值的计算影响较小,参考文献[16],为了运算简便本文直接取λ=1。至于尺度因子τ的选取,当τ设置过小时,通过IMDE难以从拾取的断路器振动信号中完整地提取出状态特征信息,而当τ取值较大时,由于信号粗粒化处理后所得新序列中有效数据点数大幅减少,则容易导致计算结果不稳定并且获取的熵值不准确。在文献[17]中,作者指出散布模式c、嵌入维数m、待分析信号长度N及最大尺度因子τmax间需满足条件cm<⎣N/τmax」,综合考虑本文中各信号样本的长度为3000点,因此计算后设置尺度因子τ=20。

1.5 性能对比分析

利用仿真高斯白噪声和分数阶噪声对IMDE及MDE算法的相关性能进行比较分析。对于任意自相似随机过程,功率谱幅值与频率满足比例关系S(f)∝1/fα,当α=0时该随机过程属于高斯白噪声,当α=1时该随机过程则属于分数阶噪声[18],幅值和频率经归一化处理后,仿真生成的噪声信号的波形和频谱如图3所示。

(a) 高斯白噪声波形

(b) 高斯白噪声频谱

(c) 分数阶噪声波形

(d) 分数阶噪声频谱 图3 噪声信号的波形及频谱

计算图3所示高斯白噪声和分数阶噪声信号的IMDE及MDE曲线,根据2.4节部分设置各项影响参数,结果如图4所示。通过对比可以发现,与高斯白噪声不同,分数阶噪声具有长程相关特性,并且在多数尺度情况下,分数阶噪声的散布熵值更大,表明分数阶噪声信号更为复杂,这与实际情况相符。为了进一步对比验证IMDE与MDE的稳定性,随机生成20组独立的分数阶噪声信号,每组信号3000个数据点,利用这20组独立的分数阶噪声信号计算得到的IMDE及MDE误差曲线,结果如图5所示。误差曲线给出了不同尺度下MDE和IMDE算法所得散布熵的均值及标准差,对比后可以发现,IMDE计算所得分数阶噪声的散布熵均值曲线同MDE所得结果相比,波动幅度略小,变化更为平缓,并且各分析尺度下散布熵的标准差明显小于MDE所得结果,利用高斯噪声信号进行对比验证也得到相同的结论,由此表明,IMDE算法在描述信号动力学特性方面表现更佳,运算过程鲁棒性更强,能够给出更准确的熵值计算结果。

图4 仿真信号的MDE及IMDE曲线

图5 分数阶噪声的MDE及IMDE误差曲线

2 基于GA优化的随机森林模型

随机森林模型(Random Forest,RF)具体理论可参考文献[13],在此不再详细阐述,其中剪枝阈值及决策树棵数对整个模型的输出具有一定影响,但是这两个参数需要通过人为经验选取,缺少理论支持。遗传算法通过选择、交叉、变异等操作的模拟,能够快速地选取最优解,鉴于这一优势,本文通过将遗传算法引入RF模型,对模型中的关键影响参数进行迭代优化,具体实现过程如下:

(1)确定算法的参数。设定决策树棵数C和剪枝阈值g的取值范围设置分别为[1,100]和[0,1000]。GA算法中最大迭代次数设置为30,种群个体数量为50,编码方式为二进制编码,交叉概率为0.7,变异概率为0.035;

(2)采用Bootstrap 算法进行采样,随机筛选若干个训练样本,并从每个训练样本集中随机筛选出一半作为预测样本;

(3)利用每个训练样本集中其余的另一半样本生成决策树,其中每次进行属性确定前,从所有的属性中选出5个属性作为当前结点的决策属性;

(4)当结点内包含的样本数少于剪枝阈值g时,将该结点作为叶结点,返回其目标属性的众数作为该决策树的分类结果;

(5)当所有决策树生成后,对每棵决策树进行预测试,并计算其权值;

(6)获取RF模型训练样本的分类结果后将分类准确率作为适应度函数,采用遗传算法对决策树棵数C和剪枝阈值g进行迭代优化,确定最佳影响参数。

3 诊断流程

针对高压断路器状态识别问题,本文提出一种基于IMDE和优化随机森林算法的诊断模型,实现流程如图6所示,具体步骤如下:

(1)首先通过搭建的采集系统拾取高压断路器不同工况下的机械振动信号;

(2)利用IMDE对断路器振动信号进行分析时,并由此构造训练样本和测试样本的特征向量;

(3)将计算所得训练样本的特征向量作为RF模型的输入,利用遗传算法对RF的关键影响参数进行优化,将适应度最大化作为遗传算法的最终寻优目标;

(4)满足遗传算法终止条件后获得的优化参数作为RF模型的相应参数,随后将测试样本的特征向量输入到训练完成后的最优RF模型中进行断路器状态分类识别。

图6 状态识别流程

4 案例验证

4.1 实验平台介绍

以永磁操作机构35kV高压断路器为实验对象,搭建了由传感器、采集卡、下位机、通信单元和上位机组成的信号采集系统。在断路器空载条件下摘除缓冲弹簧模拟弹簧失效故障,调节传动杆长度模拟执行机构故障,拧开基座螺栓模拟螺栓松动故障。已有的现场经验表明,采用现有的线圈电阻及分合闸动作电流电压等状态监测手段来判断上述故障较为困难,本文则通过采集断路器动作过程的振动信号开展其工况识别的研究。实验过程中,选用的传感器为北京东方振动研究所开发的D100S型压电加速度传感器,灵敏度为10mV/g ,量程为500g,频响范围为1~50kHz,需配有外接恒流电源。应用NI公司的PXI采集卡配合传感器拾取断路器不同故障状态下的振动信号,设置采样频率为20000Hz。下位机采用51单片机和 ADS8216数模转换芯片,通信单元采用TRS416串行总线,上位机采用C语言平台和数据库开发,实验过程中,进行多次实验采集断路器不同工况下的信号样本,每个样本长度为3000点。

将压电加速度传感器布置在断路器分合闸过程中的碰撞点附近,该位置对所模拟的各类故障较为敏感,从而获取的监测信号更为可靠准确。图7a为断路器正常状态下分合闸过程拾取的振动信号,该信号具有非平稳时变特征。图7b~图7d分别为断路器不同故障状态下拾取的振动信号,可以发现故障状态下信号波形相比于正常工况出现了明显的差别,幅值突变性更加显著,但是不同类型故障状态间的信号波形则差异性较小,单纯通过人为经验难以进行区分。

(a) 正常状态

(b) 执行机构故障

(c) 基座螺栓松动

(d) 缓冲弹簧失效 图7 不同状态振动信号波形

4.2 识别结果对比分析

实验过程中,4种不同运行状态数据样本各采集50个,数据样本总量为200,其中正常状态1种,故障状态3种,每种状态50个样本量,从中随机抽选10个样本用于训练RF模型,其余40个样本用于测试识别,则训练样本总量为40,测试样本总量为160,样本具体描述如表1所示。

表1 采集信号样本描述

利用IMDE算法计算各个样本在不同尺度下的散布熵值,图8为随机选取的断路器4种不同状态信号样本的IMDE曲线,可以发现正常状态下振动信号的多尺度散布熵值最大,表明正常状态下拾取的振动信号动力学特性较为复杂,而当断路器出现异常故障时,拾取的振动信号动力学发生突变,信号内部特征规律性更强,因此散布熵值有所减小。利用IMDE构造特征向量后输入到RF模型中进行训练,并通过GA算法进行模型参数寻优,利用训练好的最佳RF模型进行状态识别,所得分类结果如图9所示,观察可以发现,训练样本集和测试样本集的分类准确率均为100%,由此表明断路器不同的工况状态均被准确识别。

图8 断路器不同工况振动信号IMDE曲线

图9 本文方法分类识别结果

为了验证本文方法的优势,利用未做改进的MDE算法以及机械故障诊断中广泛应用的MPE算法[19]和MSE算法[20]来提取断路器机械振动信号中的特征信息,并由此分别构造特征向量输入到参数优化RF模型中进行断路器状态分类识别。

利用MDE算法提取振动信号特征信息时,设置的参数均与IMDE算法一致。在MPE算法中,同样需要考虑尺度因子τ、嵌入维数m以及时间延迟λ,为了使识别结果具有可比性,利用MPE构造特征向量时,尺度因子τ=20,嵌入维数m=3,时间延迟λ=1,也与IMDE计算过程中设置的参数相同。而在MSE算法中,除了参数τ、m、λ以外,还需要设置相似容限参数r,一般r取值为0.1~0.25倍的信号标准差。若r数值设置过大会导致原始时间序列在进行重构时丢失信息相反,若r取值过小会导致信号容易受到噪声的干扰,熵值计算结果不稳定,综合考虑本文取相似容限r取值为0.2倍信号标准差。

三种对比方法的最终分类识别结果分别如图10~图12所示,表2给出了不同分类识别方法的准确率统计。通过对比可以看出,无论是训练样本集还是测试样本集,基于IMDE-GA-RF方法的分类准确度均要优于MDE/MPE/MSE-GA-RF方法,其中MSE-GA-RF方法分类效果最差,整体分类准确率仅为91%。MPE-GA-RF方法与未进行改进的MDE-GA-RF方法差别不大,准确率分别为97.5%和96.5%,但是均不如本文提出的方法理想。实验结果表明本文中提出的诊断方法不仅可以对高压断路器正常与异常工况状态进行有效区分,同时可以对不同类型的故障状态进行准确识别,对于实际工程应用来说可以提供一定的参考与借鉴。

图10 基于MDE-RF分类识别结果

图11 基于MPE-RF分类识别结果

图12 基于MSE-RF分类识别结果

表2 不同识别方法的准确率

为了验证基于GA优化RF模型分类能力,利用IMDE算法提取断路器振动信号中的特征信息并构造特征向量,在训练样本、测试样本比例不同条件下重复10次分类过程并计算分类结果的平均值,与支持向量机(SVM)、BP神经网络、极限学习机(ELM)等广泛应用的分类器的识别准确率进行对比,其中对比使用的三种分类器中的影响参数也通过GA算法进行优化,最终对比结果如表3所示。可以看到,本文提出的GA-RF模型的分类能力最强,即使在训练样本数量很小的情况下,仍然能够顺利完成训练过程,获得准确的测试结果,并且在训练样本、测试样本比值不同情况下,所得结果均优于其余三种传统的分类器,表明提出的GA-RF模型在断路器复杂工况条件下能够进行有效状态甄别,可以更好地满足实际工程中对于少量训练样本的需求,具有更加广阔的应用前景。

表3 不同分类器的总体准确率

5 结论

本文提出了一种基于改进多尺度散布熵与优化随机深林模型相结合的高压断路器工况识别方法,实验结果表明,改进后的多尺度散布熵方法计算结果更加精确、稳定性更好,并且通过IMDE方法可以将振动信号划分到多个尺度上实现内在特征信息提取。利用遗传算法对RF模型进行优化可以避免其关键影响参数需要人为设置的弊端,能够获得更准确的分类识别结果。利用本文所述的诊断识别方法,可以进行高压断路器不同工况状态的准确区分,对于实现在线状态监测、减低巡检人员的作业负担具有一定的参考借鉴价值。

猜你喜欢
训练样本断路器尺度
财产的五大尺度和五重应对
人工智能
六氟化硫断路器运行与异常处理
断路器控制回路异常分析及处理
一例断路器内部发热的诊断分析
SF6断路器拒动的原因分析及处理
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
宇宙的尺度
9