于 浩,张 东,方文墨,孙 明,孙志强,宁兆秋,白佳庆,崔馨元
(1.沈阳工程学院a.电力学院;b.新能源学院,辽宁 沈阳 110136;2.沈阳飞机工业(集团)有限公司,辽宁 沈阳 110034)
现如今我国新能源企业飞速发展,人们对绿色能源的使用越来越重视。由于风电场、光伏发电站等新能源发电站逐步向偏僻地带转移,这就导致了风电机组的工作条件不能得到保证,并且增大了检测诊断的难度[1]。风电机的故障率与风电机组的复杂工作状况有很大联系,并且电机一旦发生故障,相关设备都会受到很大的影响甚至暂停工作,这就需要很高的检修费用[2]。所以,对风机进行在线故障监控和故障诊断的研究是很有价值的。当今,大数据处理和深度学习等技术领域迅速发展,利用数据处理分类分析和神经网络处理数据库可以完成风电机的在线故障监控、实时反应风机工作状态、高效诊断风机故障类型等。这对控制风场的发电成本和提高发电效益有很大帮助,不仅提高了企业的经济效益和能源利用率,还能降低风电企业的维护成本。
张芳芳等[3]结合了位移实验和最小二乘支持向量机诊断法,特点是减少诊断计算量,在诊断的速度上也有了明显改善。风机故障诊断方法有很多,其中从故障特征值对风机进行工作状态的监控和故障检修的预测方法占比较大[4]。针对实际生产中难以获得足量的故障样本数据而导致训练中样本不均衡、样本不足、缺少故障数据等问题,提出了一种基于关联分析的生成式对抗神经网络的风电机组故障诊断方法,并将其与卷积神经网络相结合,构成风电机组故障诊断模型。该模型对风电机组故障数据进行关联分析,使用FP-tree 法对样本数据进行整理;根据特征值排序进行分类可以有效减少样本数据被二次扫描的情况,缩短处理时间,快速找出频繁项集,完成故障特征的提取;通过生成式对抗神经网络进行数据库扩充,实现风电机组的故障诊断。该模型有较好的抗噪性能,在噪声环境下,具有较高的故障诊断准确率。
Apriori 算法应用在大量规则集合中筛选出最为有用的相关规则中。这种数据关联分析法能够选择出两种及两种以上数据之间的关系,通过特征值比较对其进行分类拆分。风机工作受环境影响较大,为了得到风机故障与环境因素之间的关系,使用关联分析法对风机发生的不同故障与所处不同环境下的环境因素进行数据发掘分析,将故障与环境因素间的频繁程度作为参考。
设x为项集,x⇒y为从x指向y的规则,T是给定数据库的一组事务。
支持度表示项集x在事务集T中出现的频率。项集x在事务集T中的支持度定义包含项集x事务在事务集T中的比例,可表示为
最小支持度(min-sup)是项集的最小支持阈值,为关联规则的最低重要性。
置信度表示规则在事务集中出现的频率。规则x⇒y在事务集T中的支持度是指同一事件中既包含项集x也包含项集y事务的比例,可表示为
最小置信度(min-conf)是置信度的最小值,为关联规则的最低可信度。
首先,将故障数据进行扫描数据集处理,完成初次数据集扫描,输出频繁项集的1 项集集合,然后按照支持度降低的顺序进行排列,得到的结果为L1={{z,5},{z,4},{z,3},{z,3},{z,3},{z,3}};其次,建立FP-tree,依据根结点(记为“null”)制作频繁项集且清空链表;最后,再次扫描故障数据,对数据样本中每一项的次序按照L1中排序并过滤掉不频繁的项。FP-tree流程如图1所示。
图1 FP-tree流程
关联分析法最重要的部分就是对数据样本的最小支持度阈值和最小置信度阈值的确定,必须满足这两个值才能被称为强关联规则。由于环境条件状态的不同,会对其取不同的值,首先对数据进行分类,然后根据特征值再对其进行拆分,建立特征树与特征树分支,这样系统可以根据扫描特征树避免多次扫描分支数据而耗费时间,可以很好地配合神经网络对故障数据库进行扩充。数据关联分析结构如图2所示。
图2 数据关联分析结构
通过数据关联分析法,将数据进行分类处理,达到快速训练神经网络的目的,起到对风机故障数据扩充及检测的作用。
生成式对抗神经网络主要是由生成器和判别器构成。生成器的功能是生成大量的随机样本,将伴随现存的少量历史故障数据输入到判别器中;判别器的功能是识别生成器端输入的大量数据,判别其真伪,将假数据筛除,真数据重新导入到生成器端口[5-6]。生成式对抗神经网络就是生成器与判别器的博弈。在对抗中,生成器优化自身的生成能力,判别器也通过不断地更新优化提高其识别能力,最后生成的数据也更接近真实数据。具体工作流程如图3所示。
图3 生成式对抗神经网络工作流程
采用目标函数调整生成器和判别器。首先,选出故障数据中的特征值,再从历史故障数据中选取样本x,将这些样本数据输入到生成式对抗神经网络中;其次,生成器生成的大量数据进入判别器鉴别,对这些数据的真实概率进行分析,先把50%的数据作为真实数据,另外50%的数据作为伪数据,其目的是让最后的输出数据接近于真实数据。风机故障较多,在此对较为常见的故障进行标签,对不同故障进行分类,具体样本标签及标签值如表1所示。
表1 样本标签
判别器不断检测出假数据降低真实概率,生成器不断生成数据,这两端的能力在对抗中不断优化,最终这两部分将达到纳什均衡(也就是说G(z)的生成样本将符合训练数据的分布,并且对于所有的x,D(x)=1/2)。
损失函数是衡量神经网络参数设置是否合理的重要指标。生成式对抗神经网络生成器与判别器都是由不同函数构成的:生成器的定义函数为G,输入为z,参数为β(G);判别器的定义函数为D,输入为x,参数为β(D)。生成器与判别器各函数都有相应的参数。判别器JD(βD,βG)与生成器JG(βD,βG)只能通过调节各自的参数βD和βG实现损失函数最小化的目标。生成器与判别器的最优效果都受βD、βG的影响,但是生成器与判别器却不能控制对方的参数。
大多数生成式对抗网络用相同的判别器损失函数JD,不同网络的区别在于生成器损失函数JG[7-8]。判别器损失函数JD:
式中,x-Pdata代表x真实样本数据的统计分布Pdata,即x属于真实样本数据;D(x)代表判别器输入函数;G(z)代表生成器输入函数。
期望判别器的输出尽量接近于1(判定为真实数据),因此期望D(x)接近于1,当logD(x)=0 时,训练损失率为0;反之,若判别器的判别能力较弱,输出接近于0,那么logD(x)为负无穷大,而-logD(x)则为正无穷大,因此会造成生成式对抗神经网络的损失率超过50%。对于“伪造数据”,期望判别器D[G(z) ]的输出尽量为0(判定为伪造数据),则1-D[G(z) ]无限接近于1,从而log{1-[DG(z)]}无限接近于0,生成式对抗神经网络的损失率为0,且训练损失率逐渐趋于平稳,如图4所示。
图4 训练损失率
根据样本数据分析图5 可知:生成的故障数据的真实性越来越高,生成器越来越优化,输出端数据的真实性无限接近于1,定子电流和振动频率分布较为均匀。通过神经网络对故障数据进行扩充,不断优化生成式对抗神经网络的生成器和判别器,损失训练率降低且趋于稳定,不但解决了风机故障诊断中样本容量不足的问题,还解决了神经网络因样本容量不足而导致神经网络模型准确率不高的问题,提高了神经网络的泛化能力,为风机故障数据不足提供了新的解决方法。真实值与扩充所得到的故障数据样本趋于一致,这种方法为深度学习因样本容量不足而造成学习效率低下的问题提供了新的解决方法。
图5 样本数据分布
生成器不断输入数据,判别器不断检测数据,这两端进行反复对抗。生成器与判别器损失函数之和为0[9],即
对于生成器G而言,在式(3)中只能影响-D[G(z) ],生成器的主要任务在于尽量生成“高仿真”的伪造数据,使得判断器无法区分其数据是“伪造”还是“真实”。因此,生成器G的D[G(z)]值越大,则1-D[G(z) ]的值就越小,对应的函数JG就越小,损失值也越小。
生成器函数值JG越小越好。根据式(4)可知:函数值JG越小,判别器函数值JD就越大。零和博弈的价值函数为
则生成器的最优解为
生成器使用的损失函数式(4)虽然在理论分析上效果显著,可是在实际应用中的效果却不能让人满意。在GAN 中,交叉熵既要最小化,也要最大化。对于生成器来说,若判别器在某一置信值时,能够准确地判断出由生成器制造的“仿造样本”,则会导致生成器的梯度消失。为了解决生成器梯度消失的现象,研究人员提出了利用交叉熵最小化处理生成器函数(即直接利用目标函数来构建交叉熵损失函数),而不是利用判别器的损失函数获取生成器损失[10-11]。这时生成器的损失函数可变为
根据式(3)和式(7)可得生成GAN网络的优化目标函数为
式中,z-pz(z)表示z符合编码的统计pz,即z为从编码的统计分布中采样的随机数。
为了解决风机样本数据不足,提高风电机组故障检测预测的准确率,通过采集风机样本数据与仿真平台,制作生成式对抗神经网络,对仿真结果进行分析对比。风机主要参数如表2所示。
表2 实验风机主要参数
本文以定子电流信号和振动信号作为特征量。仿真平台使用动率分析仪采集电机定子电流信号,将2 个振动传感器分别连接在电机轴端和底座上,用来采集振动信号,另外还有1个噪声传感器。
生成式对抗神经网络在训练中的损失率是0。将测试样本放入训练完成的神经网络中进行风机故障判断训练,且通过生成器与判别器不断地升级进化,训练顺势率波动越来越小并且不断降低,如图6所示。
图6 神经网络训练结果
本文提出了一种基于关联分析的生成式对抗神经网络的风电机组故障诊断方法。该方法通过计算支持度和置信度的最小阈值,对少量故障数据库进行故障数据特征提取,避免了大量处理无关故障特征值,将带有特征值的少量样本带入到生成式对抗神经网络中,经过生成器与判别器的反复优化升级,生成大量真实数据,通过神经网络解决了风电机组故障数据较少的问题。风力发电在未来发电量中会占有越来越大的比重,利用大数据分析技术降低风电场中风电机组设备的维修率,对风电机组状态进行实时监控,可降低发电成本,提高生产效率。