刘展程,王 爽,2,唐 波,2
(1.三峡大学电气与新能源学院,湖北 宜昌 443002;2.三峡大学湖北省输电线路工程技术研究中心,湖北 宜昌 443002)
电力变压器是电网的重要设备,准确识别变压器的故障对电力系统的安全运行意义重大。当变压器正常运行时,油箱内的绝缘油和绝缘材料会在电、热等因素的作用下逐渐老化,裂解出少量的氢气、低分子烃类气体以及一氧化碳、二氧化碳等气体,当变压器内部发生过热故障或放电故障时,也会产生这些气体,并在热的作用下迅速析出并积累,使得油中溶解气体的成分和含量及增长速率发生变化[1-2]。油中溶解气体分析(dissolved gas analysis,DGA)因具有带电检测作业、不受外界电磁场影响、响应速度快等特点而被广泛用于变压器的故障识别和健康状态评估[3]。常用的根据DGA特征气体检测变压器内部故障的方法有IEC三比值法[4]、改良电协研法[5]、Domenburg比值法[6]以及Duval比值法[7]等,这些方法本质上是依据不同气体间的比值,采用编码的方式对故障进行线性分类,但均存在故障编码缺失或分类过于绝对而导致边界附近样本分类效果不佳的问题,影响故障类型识别的准确性。
随着人工智能技术的发展,一系列浅层机器学习方法也被应用到变压器故障分类和识别中,这些方法的应用对分类边界问题做出了改善,但也仍存在一些不足之处。神经网络具有多层网络设计,可以实现任意非线性映射,在分类、识别故障时比线性函数更精准,但训练时容易陷入局部收敛,对新数据的泛化性能较弱[8-9]。支持向量机[10]在小样本数据的训练上有突出优势,但它本质是二分类器,对于大量DGA数据及多种故障分类的处理效率不高。模糊理论算法[11]利用较粗糙的模型,就能较好解决多分类边界样本的划分问题,但输出空间划分和隶属度函数选择往往需要依靠个人经验,具有很大主观性和不确定性。灰色关联分析法[12]不需要考虑样本数量或数据规律性,可以剔除相关性较弱的信息,提高故障分类、识别精度,但同样主观性过强。以上常用的浅层机器学习方法普遍存在学习能力不足、特征提取能力欠缺、主观经验过强等问题。随着大数据分析技术的成熟以及变压器在线监测设备的普及,DGA样本数据愈发庞大,变压器故障分类愈发细致,传统的机器学习方法难以满足训练效率、故障识别精度和模型泛化能力等要求,因此需要找到更有效的方法解决上述问题。
文献[13]在2006年提出了一种能在海量数据中有效识别、提取样本特征的深度学习模型——深度信念网络(deep belief network,DBN),近年来被多次应用在变压器故障识别的模型训练中;文献[14]采用DBN模型与传统机器学习模型作对比,证明训练样本数、DBN结构中的网络层数和隐层节点数对故障识别精度的影响至关重要;文献[15]采用9种无编码DGA比值样本训练组合DBN模型,结果显示,故障识别率比直接输入样本数据时的更高;文献[16]综合了IEC、Rogers、Dornenburg和Duval比值4种方法,提出了新的气体浓度比值方式,作为DBN模型的训练输入,结果表明,新提的比值方式更利于挖掘数据特征信息、提高变压器运行状态识别;文献[17]采用ReLU激活函数改进DBN模型,并提出一种新的油色谱特征气体无编码比值方式作为训练输入,结果显示,与传统的几种比值输入相比模型的故障诊断精度大大提高。当前,提高DBN模型故障识别精度的研究工作大多聚焦于二次处理输入的样本数据,增加数据的规律性以提高样本的质量,少有研究采用原始数据集作为模型输入,并直接优化DBN的训练过程和内部结构,从根源上提高故障识别率与模型泛化性能。
布谷鸟搜索(cuckoo search,CS)算法具有在多参数全局寻优、提升泛化性能等方面的突出优势,故本文采用CS算法,对DBN网络训练过程最关键的批尺寸bat_size、梯度下降学习率alpha以及网络结构最核心的层神经单元数num进行智能寻优,进而实现根据输入的不同原始样本数据自动调整DBN模型的训练参数,以及自动寻找最合适网络结构,避免结果局部收敛,提升故障识别率和训练模型的泛化性能。
DBN是由多层受限玻尔兹曼机(restricted boltzmann machines,RBM)组成的神经网络,是一种概率生成模型,在故障分类、识别问题上有突出的性能优势[18],其训练过程为使用非监督贪婪逐层方法去预训练获得各层RBM权值。
RBM是一种具有随机性的生成神经网络结构,是由一层可见层V和隐藏层H组成的无向图模型,神经元只在层间有连接,在层内无连接,其结构如图1所示,w为层间的连接权重,偏置系数记为R,其中可见层V神经元的偏置系数为Rv,隐藏层H神经元的偏置系数为Rh。
图1 RBM结构Figure 1 RBM structure diagram
RBM是一个基于能量函数的概率分布模型,若给定状态组(h,v),则RBM当前的能量函数[19]可以表示为
Eθ(v,h)=
(1)
式中θ={ωij,ai,bj}为RBM的3个结构参数集合;vi为第i个显层神经元的状态;hj为第j个隐层神经元的状态。
能量函数是描述整个系统状态的一种测度,系统的概率分布越集中,则系统的能量越小,表明系统越稳定。通过能量函数可以定义一个可视和隐藏节点的联合概率分布:
(2)
求解RBM网络结构,即转化成用联合概率分布的边界分布(似然函数)求解参数θ,其表示为
(3)
(4)
当给定显层中各神经元的初始状态时,隐层某个神经元处于被激活(hj=1表示)状态的概率,可由隐元激活概率式计算,即
(5)
给定训练样本后训练RBM需要反复调整θ值,使得在此参数下RBM获得的输出概率分布尽可能与输入的训练样本数据相吻合。训练RMB的目标函数为
(6)
其中,S为训练样本,nS为训练样本个数。至此,单个RBM的训练已完成。
完整的DBN结构由多个RBM组成,其训练分成2个阶段:正向的预训练和反向的微调优。训练DBN结构要对结构参数θ进行调整,而要想优化模型的训练性能,则要调整训练参数。考虑模型训练的时效,以及为了定量说明用智能搜索算法对训练参数进行自动寻优具有先进性,所以本文建立的DBN模型由2个RBM结构组成,如图2所示。
图2 DBN结构Figure 2 DBN structure diagram
预训练过程:用无监督逐层训练的方法对结构参数进行初始化。将DGA特征气体输入到RMB1的显层V1,根据经验初始化训练参数批尺寸以及每层的神经单元数,充分训练当前层后从隐层H1输出结果,并作为下一层的输入继续训练RMB2。
反向调优过程:运用标签数据对已经初始化好的DBN网络结构进行有监督调整。利用BP神经网络计算梯度学习率,进而用梯度下降算法更新网络的结构参数,使网络更具有全局适应性。
在通过以上2步训练基础DBN模型时,要根据经验人工手动选择批尺寸bat_size、层神经单元数num以及梯度下降学习率alpha等重要训练参数,直到计算结果满足计算精度或迭代周期要求为止。在模型训练过程中,这些参数的选取对模型的训练精度有重要影响:
1)层神经单元数num直接关乎DBN的网络结构,影响模型训练效率和精度;
2)梯度下降学习率alpha作为反向调优中的关键参数,影响着计算结果是否能达到全局最优;
3)批尺寸bat_size用于确定单次训练时样本数目,存在于DBN训练的全过程,影响边界数据分类的精度和训练效率。
当利用现场采集的多维原始DGA样本数据训练DBN时,依靠人工经验同时调整多个参数选值难以匹配出最合适的参数组。现有的研究通常依靠大量样本数据,并用气体含量比值的方式二次处理样本数据,以提高DBN模型的训练精度。
本文采用布谷鸟搜索算法对DBN模型中num、bat_size、alpha这3个重要参数同时进行自动寻优,智能匹配3个参数最优组合,解决人工经验选参的局限性问题,同时,采用原始数据作为训练输入,减少二次处理样本数据的工作量,以提高模型收敛性能、故障识别精度和模型泛化性能。
CS算法[20]是由英国学者Xinshe Yang和Suash Deb在群体智能技术的基础上提出的一种基于自然元启发式的新型算法,该算法模拟某些种属布谷鸟的寄生育雏行为,以达到有效求解最优化问题的目的。该算法的思想基于布谷鸟的巢寄生行为和鸟类的Levy飞行行为,巢中的卵代表解,布谷鸟的卵代表新解,目标是利用新解或者潜在的优解将巢中的劣解更替。利用3条理想化规则[21]对CS算法进行简单阐述:
1)每只布谷鸟每次随机选择一个巢,并产生一个卵,即一个巢对应一个新解;
2)具有最高质量卵的巢保留至下一代,即保留最优的解决方案;
3)假设寄主鸟巢的数量N是固定的,且寄主以Pa∈[0,1]的概率发现布谷鸟放的卵并将布谷鸟的卵扔掉或丢弃现有的巢。
CS算法的寻优过程由参数Pa控制局部随机游走和全局大跨度游走。局部随机游走可以写成
(7)
另一方面,全局随机游走使用Levy飞行表示,用以更新寻找鸟巢的路线和位置[22]:
(8)
布谷鸟搜索算法寻优DBN参数的步骤如下:
1)用众数填充的方式处理原始样本集中的缺失数据,然后对所有数据进行Min-Max标准化处理,得到DBN训练样本集;
2)设置迭代次数、DBN训练参数批尺寸bat_size和层神经单元数num的取值范围,考虑梯度下降学习率alpha,记训练参数组η={bat_size,[num1,num2], alpha};
3)设置CS算法中寄主鸟发现外来卵的概率参数Pa为0.25,鸟巢总数n=10,随机初始巢位置为xi=[x1,x2,…,x10]T,i∈[1,10],定义各鸟巢位置与对应训练集的适应度为F(xi)=[f1,f2,…,f10]T,i∈[1,10];
4)计算并比较10个鸟巢位置对应的适应度值,得到当前的最优适应度值fxbest,其对应当前最优的训练参数组ηbest;
5)保留上一代最优鸟巢的位置xbest,并利用Levy飞行随机更新其他鸟巢的位置,得到一组新的鸟巢,重新计算他们的适应度值F;
6)根据步骤5的适应度F,比较当前鸟巢xi与上一代鸟巢位置xi-1,用较优的鸟巢取代较劣的鸟巢,得到一组新的鸟巢位置;
7)用随机数r和Pa进行比较,若r>Pa,则随机更新一次鸟巢位置,否则鸟巢位置不变;
8)若满足迭代次数要求,则继续下一步,否则重新返回步骤5;
9)输出最优鸟巢位置,即本次DBN训练的最优参数组ηbest。
在变压器故障识别的特征气体选择方面,GBT 7252—2001、IEC 60599及现有相关研究[23-25]常采用5种气体(H2、CH4、C2H2、C2H4、C2H6)作为主要的特征气体,CO、CO2仅作为辅助判断,对变压器进行故障识别。本文在保证故障识别模型计算精度的同时,兼顾算法的高效性,采用绝缘油裂解产生的5种故障气体(H2、CH4、C2H2、C2H4、C2H6)作为模型的训练输入。
本文将变压器状态分成健康、局部放电故障、低能放电故障、高能放电故障、中低温过热故障以及高温过热故障6类,其状态编码如表1所示。
表1 状态类型及对应编码Table 1 States and corresponding code
本文使用的DGA样本数据主要来源:①从各省市供电公司收集的DGA数据;②IEC TC 10数据库[26];③近年已发表论文中确定故障类型的DGA数据,总计604组。训练集与测试集按照4∶1划分,具体样本数据分布如表2所示。
表2 训练集与测试集样本数量分布Table 2 The distribution of the samples in the training set and the test set
本文选用DBN作为训练和测试模型,为了消除奇异数据、不同特征向量间的量纲影响,首先对输入的5种绝缘油故障气体进行Min-Max标准化处理。具体处理方式如下:
(9)
式中y为原始数据;y′为归一化后的新数据;xmax为原始训练集中最大数据;xmin为原始训练集中最小数据。
经标准化处理后通过顶层Softmax分类器计算数据组6种状态的概率值,将最大概率值对应的状态视为本数组的状态类型,作为最终状态输出。另外,根据经验设置bat_size范围为10~150,num范围为10~200,寻优迭代次数为100次。为了定量地分析CS算法对模型寻参的性能,选用遗传算法(GA)、粒子群算法(PSO)与CS算法作对比,分别对DBN模型的参数组η进行寻优,最后,依次比较和分析组合模型的收敛性能、故障识别精度及组合模型的泛化性能。
适应度能反应一个训练模型的收敛能力和收敛速度,本文将经Min-Max标准化处理后的数据集依次输入至经上述3种不同算法优化处理后的DBN模型,计算其适应度,比较、分析组合优化模型的收敛性能。3种算法分别对DBN模型中参数组的寻优过程如图3~5所示,参数组ηbest表明此时模型具有最优的收敛性能。
图3 GA-DBN参数组寻优Figure 3 Optimization graph of GA-DBN parameter group
图4 PSO-DBN参数组寻优Figure 4 Optimization graph of PSO-DBN parameter group
图5 CS-DBN参数组寻优Figure 5 Optimization graph of CS-DBN parameter group
由图3~5可知,在GA-DBN、PSO-DBN的参数组寻优过程中,两者的平均适应度均从低值迅速提升到较高值后维持稳定;而从最佳适应度曲线可见,两者最佳适应度的初始值已经接近最优,其后续的进化过程较为平缓,从初始值寻优至最佳值的变化幅度不大。另外,从CS-DBN的平均适应度曲线可见,其训练的起始值就较高,且在参数组寻优过程中有较大幅度的进化;从最佳适应度曲线中可见,参数组的寻优过程经过3次较大幅度的跃升,对比之下表明CS算法优化DBN模型,可以使得组合模型的收敛能力更强。
选取GA、PSO、CS这3种优化的最佳适应度结果,分析比较适应度与进化代数间的变化关系,如图6所示,可以看出,当适应度同为90%的情况下,GA-DBN需要7代进化,CS-DBN需要8代,进化速度相当;当适应度同为92%的情况下,PSO-DBN需要72代进化,而CS-DBN仅要32代,进化速率提升了56.2%。原因在于PSO搜索依靠个体粒子在整个全局范围进行极值计算,并以全部粒子当前最优的极值作为临时的最优中心继续返回,重复上述计算,直至最优出现;而CS搜索能在全局范围大跨度的调整寻优方向,避免在一处小局部陷入长时间的计算。因此,用CS算法优化DBN模型可以使得模型的收敛效率更高。
图6 故障识别率与进化代数的关系Figure 6 The relationship between fault recognition rate and evolutionary algebra
综上表明,相比于GA-DBN、PSO-DBN,CS-DBN对参数组η的寻优性能更佳。
在最佳适应度的情况下,选取CS-DBN即参数组ηbest={100,[200,128], 1.009 097×10-1}时,进行6类变压器状态的识别计算,结果如图7所示,可以看出,14个健康测试样本中正确诊断分类的有14个,识别率达100%,同理,可计算得到PD、D1、D2、T1、T2状态的识别率,分别为91.7%、92.9%、92.9%、90.0%、96.9%,CS-DBN模型对变压器状态的总识别率为94.2%。
图7 基于CS-DBN的变压器状态诊断结果Figure 7 Diagnosis results based on CS-DBN
基础DBN模型的训练参数需要依靠人工经验选择,在经过多次反复尝试后,当选择参数组η={10,[100,100], 0.015}时,DBN模型的适应度能达到较佳的79.3%。在DBN、GA-DBN、PSO-DBN各自最佳适应度的情况下,计算变压器的6类独立状态的故障识别率及总故障识别率。测试集故障识别率结果如表3所示。
表3 测试集中变压器故障识别率结果Table 3 Results of transformer fault recognition rate in test set %
经过搜索算法优化后DBN模型的故障识别率大有提升。表3中结果显示,CS-DBN比DBN、GA-DBN、PSO-DBN在故障总识别精度上分别高出12.5%、4.2%、2.5%。在多参数选取与调整时,依靠人工经验显然难以实现各参数的最优匹配,而本文凭借智能搜索算法自动获取参数直接优化DBN模型,很好地解决了3个重要参数的最优组合问题。由上述故障识别率结果可以看出,通过智能搜索算法优化DBN训练中的关键参数和内部结构,能有效提升故障识别率。PSO-DBN模型虽然已经能达到较高的故障识别精度,但由于PSO算法在迭代后期搜索能力不强,在解决多参数同时寻优搜索且计算量较大的问题时,寻优效果不及CS算法,从而使得故障识别精度比CS-DBN模型低。
在实际工程中,采集、记录DGA样本数据时难免会出现错误,这将造成部分样本数据集变成无关特征干扰项。要想实现变压器故障的准确识别,就要保证DBN模型在含有无关特征量的情况下也能有较高的故障识别精度,即保证组合DBN模型具有良好的泛化性能。
为了定量分析加入不同数量无关特征数据后CS-DBN的泛化性能,选取基础DBN和故障识别精度较高的PSO-DBN作为对比,重新进行试验。加入的无关特征数据由服从标准正太分布的随机变量生成,均值为0,方差为1。加入不同数量无关特征数据后的故障识别结果如表4所示。
表4 含无关特征数据时的故障识别结果Table 4 Fault recognition results with irrelevant characteristic data %
试验中基础DBN模型的参数组η固定选取文4.2中CS-DBN适应度为95%的值。由表4可以看到,在加入80组无关特征数据后,未采取优化措施的基础DBN模型故障识别率由94.2%下降至73.7%,降低了20.5%;而优化改进后的CS-DBN故障识别率仅下降至91.4%,只降低了2.8%,PSO-DBN由91.7%下降至80.5%,降低了11.2%。由结果可见,采用智能搜索算法优化,依靠自动调整多参数的搭配,能明显提升DBN模型泛化能力,提升模型对无关特征量的适应度和故障识别精度。原因在于PSO搜索过程是多局部单独搜索,依据局部中最优个体逐渐收缩,最后选择最优的局部点作为全局的最优结果,这意味着搜索过程易陷入局部最优,遗漏真正的最优结果,而CS算法结合局部随机游走和大跨度全局搜索,其搜索范围更广,全局搜索能力更强,能适应加入无关特征数据后规律性更差的样本数据,因此用CS-DBN模型泛化性能更强。
用变压器油中溶解气体原始数据作为DBN模型的输入数据,通过CS算法优化改进能提高变压器故障识别精度和进化效率,提升组合模型的泛化能力,适应不同的样本数据。
1)在较少原始DGA训练样本的情况下,智能搜索算法优化后的DBN模型比基础DBN模型的故障识别能力大大增强。CS-DBN的最佳故障总识别率能达到94.2%,精度上比CA-DBN提高4.2%,比PSO-DBN提高2.5%。
2)CS算法能在全局大跨度调整搜索方向,因此搜索效率有明显优势。CS-DBN的进化效率较PSO-DBN提高56.2%。
3)加入无关特征量后CS-DBN仍能保持良好的故障识别效果。加入80组无关特征量后故障识别率仅下降2.8%,CS-DBN组合模型较GA-DBN和PSO-DBN的泛化性能优越。