路士杰,董驰,顾朝敏,郑宝良,刘兆宸,谢庆,谢军
(1.国网河北能源技术服务有限公司,石家庄050400;2. 国网河北省电力有限公司电力科学研究院,石家庄 050021;3. 科畅电气有限公司,河北 保定072558;4. 新能源电力系统国家重点实验室(华北电力大学),河北 保定071003)
变电主设备正常运行是保证电力系统安全可靠运行的重要基础[1 - 2]。局部放电现象作为引起绝缘性能降低甚至劣化的关键因素[3 - 4],对局放类型的精准辨识可以为电力设备健康状态评估提供可靠的参考信息,及时消除故障,预防事故发生[5]。
人工智能技术随着其高速发展在变电设备故障诊断领域也得到了广泛的应用,传统的机器学习算法[6 - 8]本质上属于浅层学习,难以挖掘局放信号的高维特征,造成局放信号模式识别准确率偏低。深度学习因其优越的数据特征挖掘能力在局部放电故障诊断领域快速发展[9 - 11]。基于深度学习的局放信号模式识别模型对局放信号样本的类间均衡度有较强的需求[12],样本数量过少会带来模型训练过拟合甚至训练过程不收敛等问题,样本不均衡会导致模式识别结果偏向于多数类样本,对少数类样本识别效果不佳[13]。由于局部放电是偶发故障,样本数量匮乏且类型分布极不均衡,造成局放故障漏判、模式识别准确率偏低等情况[14],限制了基于深度学习的局放信号模式识别模型的识别效果及泛化能力。
针对局放信号模式识别中样本数量少、类型分布不均衡的现状,通常采用数据增强的方法来提高分类器训练效果和泛化能力。传统数据增强方法包括欠采样、过采样以及图形变换[15 - 17],这类方法忽略了数据集整体分布特征,在模型分类效果上提升有限[18]。近年来,基于深度学习的数据增强方法被广泛应用于局放信号数据增强中。变分自编码器(variational autoencoder, VAE)是一种深度隐空间生成模型,可以有效提取局放信号内在表达,但生成的局放信号图像较为模糊,多样性较差[19]。生成对抗网络(generative adversarial network, GAN)能在没有任何先验假设的情况下,通过无监督学习获得数据间的潜在分布规律并生成新的局放样本[20],包括条件生成对抗网络(conditional GAN, CGAN)以及Wasserstein生成对抗网络(Wasserstein GAN, WGAN)[21]。传统GAN模型虽然能够生成局放样本,但其对噪声非常敏感,由于其选用了JS散度衡量生成数据与原始数据的距离,如果初始输入噪声的分布选择不当,导致生出数据的概率分布与真实数据集的概率分布不相重合,则生成器的损失函数恒为常数,即遇到了梯度消失的情况,整个训练无法进行。深度卷积生成对抗网络(deep convolutional GAN, DCGAN)使用卷积层代替了全连接层,利用卷积核提取局放信号特征进行数据增强,但没有从根本上解决训练不稳定的问题,在训练过程中需要小心平衡生成器与判别器的训练进程[22]。边界平衡生成对抗网络(boundary equilibrium GAN, BEGAN)[23]将自编码器作为生成模型的判别器,并引入了平衡策略,可以加速网络的收敛过程,但生成局放信号多样性较差。
针对上述难题,本文提出适用于局放模式识别的WGAN-GP数据增强方法,将Wasserstein距离作为目标函数、并引入梯度惩罚项来满足1-Lipschitz条件限制,解决了GAN中因为分布不重叠带来的梯度消失问题,生成的数据样本相似性更高、多样性更丰富,实验结果表明,基于WGAN-GP数据增强的局部放电故障模式识别具有更高的准确率。
设计4种放电模型如图1所示,用以模拟变压器常见绝缘缺陷。尖端放电、沿面放电、悬浮放电中纸板厚度均为2 mm,气泡放电模型中气泡结构由厚度分别为0.5、2、0.5 mm的3层纸板组成。
图1 4种局放绝缘缺陷模型Fig.1 Four models of partial discharge(PD) insulation defects
采用高频电流法测量局放脉冲,试验电路如图2所示。实验时采样频率为100 MHz,连续采集100个工频周期放电信号作为一个长时信号样本。
图2 局部放电实验平台接线图Fig.2 Wiring diagram of PD test platform
为了进一步提高局放信号质量,本文提出自适应加权分帧快速稀疏表示去噪方法[24],该方法幅值误差及波形畸变均较小,采用该方法对局放样本降噪,并进行脉冲分提取操作,得到的4种局放脉冲放电信号波形图如图3所示。
图3 局部放电信号波形图Fig.3 Waveforms of partial discharge
WGAN-GP的结构示意图如图4所示。
图4 WGAN-GP结构示意图Fig.4 Structure diagram of WGAN-GP
基于WGAN-GP的局部放电数据增强方法在GAN局放信号增强模型的基础上引入了Wasserstein距离,其距离公式如式(1)所示。
(1)
式(1)中期望的下确界不易求得,于是可以将Wasserstein距离转化为Kantorovich-Rubinstein对偶形式,Wasserstein距离的对偶形式如式(2)所示。
(2)
式中:D(x)为判别器D的距离代价函数;‖D‖L≤1表示判别器距离代价函数满足1-Lipschitz限制。WGAN-GP在WGAN的基础上加入了梯度惩罚函数以满足1-Lipschitz限制,其损失函数如式(3)所示。
(3)
基于WGAN-GP的数据增强方法具体训练流程如下:
1)固定生成器G的各项参数,根据式(3)调节判别器参数θD以最小化判别器损失函数LD;
2)固定判别器D的各项参数,调节生成器参数θG使式(3)中损失函数LG最小;
3)循环迭代上述两个步骤,直到达到训练网络实现纳什均衡即停止训练。
可利用WGAN-GP网络生成相似于原始数据概率分布的局放时域样本,扩充后的数据库作为样本集训练分类器提高其识别准确率,实现局放信号数据增强。基于WGAN-GP数据增强的局部放电模式识别方法框架如图5所示,其主要步骤如下:
1)局放信号预处理:对实验采集的局放信号进行去噪及脉冲提取;
2)数据增强:以局放脉冲信号作为样本,输入WGAN-GP网络,按照训练流程训练生成网络;
3)模式识别:扩充原始样本库并训练分类器,实际应用时,将信号进行去噪及脉冲提取,将局放脉冲经分类器判断局部放电类型,实现模式识别。
图5 基于WGAN-GP数据增强的局部放电模式识别框架Fig.5 Framework of PD pattern recognition based on WGAN-GP data enhancement
经反复调试,确定判别器选用4层神经网络结构,生成器采用5层神经网络结构,WGAN-GP网络结构参数如图6所示。优化求解器选用Adam,生成器与判别器学习率设置为0.001,训练轮次为4 000次。
为模拟现场环境中局放信号的非平衡小样本特性,将实验得到的局放信号数据切分成如表1所示。采用基于WGAN-GP的局放数据增强方法扩充局放信号样本库,增强后的局放信号样本库如表2所示。
图6 WGAN-GP网络结构参数Fig.6 Network structure and parameters on WGAN-GP
表1 数据增强前局放信号样本库Tab.1 PD sample library before data enhancement
表2 数据增强后局放信号样本库Tab.2 PD sample library before data enhancement
生成样本的真实性、概率拟合精度以及样本的多样性都是评价模型生成能力的重要指标。本文纳入BEGAN、VAE两种生成模型作为参照对象,对3种生成模型生成能力进行评估。
相较于以时频谱图等非结构化数据作为样本输入来说,以局放时域信号作为样本输入生成网络的好处是输出同样是时域样本,省去了人工提取特征的不确定性,结果更简洁直观。以气泡放电为例,分别用WGAN-GP、BEGAN与VAE 3种生成模型生成局放信号,其波形对比如图7所示。
图7 生成局放信号波形对比图Fig.7 Comparison diagram of generated waveforms
观察图7可知,相对于真实样本,BEGAN会在原始图像上叠加许多微小波动,尤其是在极值点处容易失真;VAE相对比较平滑,但是丢失了许多原始信号存在的波动,极值点处的幅值与原始信号相差较大。本文选用的WGAN-GP在细节上与原始信号波形更为相似。
将上述真实样本及各类模型生成的局放样本进行FFT变换,得到各局放信号二维时频图,采用感知哈希算法对时频图相似度进行分析,并以指纹匹配比例作为相似度指标,匹配比例越高表明两样本相似度越高,结果对比如表3所示。
表3 不同生成模型生成样本相似度指标Tab.3 Similarity index of PD samples generated by different models
由表3可知,VAE的生成样本由于丢失了部分波动,其时频图相似度指标普遍较低;BEGAN的悬浮放电由于发生了模式崩塌,生成波形时频图相似度指标最低;WGAN-GP生成的各类局放信号相似度指标及其均值均最大,其波形与原样本相似度最高。
以沿面放电为例,利用t-分布随机邻域嵌入算法(t-distributed stochastic neighborembedding,t-SNE)对真实样本及各模型的部分生成样本进行降维分析,可视化结果如图8所示。由图8可明显看出,BEGAN与VAE两模型生成的样本集中于临近真实样本的某一小范围内,而CWGAN-GP由于考虑了1-Lipschitz条件限制,生成样本散落分布在真实样本分布范围内,多样性较好。
图8 局放信号降维可视化Fig.8 Dimension reduction visualization of PD signals
本文选用分类准确率λaccuracy%、F1度量λF1%两种指标评价增强前后局放信号模式识别的效果,计算公式见文献[25]。
为验证数据增强技术对于局部放电模式识别性能的影响,分别选用了支持向量机(support vector machine,SVM)以及稀疏自编码器(sparse autoencoder,SAE)作为分类器。其中支持向量机选用13-1000-400-1的全连接结构,激活函数选用ReLU函数;稀疏自编码器采用13-5000-400-1的网络结构。WGAN-GP增强后分类器模式识别效果如表4所示,其中增强前局放信号样本库如表1所示,增强后局放信号样本库如表2所示。
表4 数据增强前后模式识别效果Tab.4 Pattern recognition effects before or after data enhancement
通过对比表4各分类器数据增强前后的评价指标可明显看出,经WGAN-GP数据增强后,支持向量机的分类效果得到提升,λaccuracy%、λF1%分别提升了12.9%与13.3%。稀疏自编码器的分类效果更加显著,λaccuracy%、λF1%分别提升了3.54%与7.04%。实验表明,本文所提数据增强方法适用于SVM、SAE分类器,各分类器的分类准确率均有所提升。
针对局放样本集合非平衡小样本特点导致局放模式识别准确率低的问题,本文提出了适用于局放模式识别的WGAN-GP数据增强方法,结论如下。
1)基于Wasserstein距离的生成对抗网络具有良好的局放信号生成能力,生成的局放信号相比于传统生成网络具有更高的相似度和更丰富的多样性。
2)经WGAN-GP数据增强对分类器具有适用性,数据增强后的支持向量机针对局放信号的分类准确率上升了12.9%,稀疏自编码器在数据增强后针对局放信号的分类准确率提升了3.54%。