基于主成分分析和概率神经网络的变压器局部放电模式识别

2013-10-23 01:45苑津莎尚海昆

电力自动化设备 2013年6期

苑津莎，尚海昆

（华北电力大学电气与电子工程学院，河北保定 071003）

0 引言

局部放电是造成电力变压器绝缘故障的主要原因，而在变压器绝缘体系中的放电类型有很多种，不同的放电类型造成的绝缘破坏程度有较大差异，因此对放电类型进行识别是非常重要的。由于变压器超高频检测技术具有检测频率高、信号数据量丰富、抗干扰性好等优点，因此在局部放电检测中具有十分重要的地位[1-2]。

在局部放电模式识别过程中，模式特征的选择至关重要，直接影响识别结果。目前局部放电常用特征提取方法主要有统计特征参数法[3-4]、分形特征参数法[5-6]、图像矩特征参数法[7]、波形特征参数法[8]及小波分解法[9]等，其中统计特征参数法因其物理意义明确及较好的谱图区分能力而得到更多的关注。本文采用统计特征方法提取描述超高频局部放电谱图特征的37个统计算子进行分析。

主成分分析PCA（Principal Component Analysis）方法作为统计学中的有效分析工具，将数据从高维空间变换至低维空间，已被应用到各种领域，并取得了较好的识别和降维效果[10-14]。本文利用主成分分析方法对局部放电37个特征参数进行分析，提取出12个更具代表性的新特征因子来表征局部放电图谱。

目前在模式识别领域BP神经网络（BPNN）以其固有的模式分类和噪声抑制能力得到了广泛的应用，但存在训练样本需求量大、训练周期长及易陷入局部最小等缺点。本文提出的概率神经网络PNN（Probabilistic Neural Network）[15-16]在分类功能上与最优贝叶斯分类器等价，不像传统神经网络需要用BP算法进行反向误差传播的计算，而是完全前向的计算过程，结构简单，训练简洁，有效避免陷入局部极小，容错能力较强，在小样本情况下也能得到满意的识别精度。本文将提取出的主成分因子送入PNN进行训练，具有较好的识别效果。

1 主成分分析

主成分分析方法是统计学中对数据分析的有力工具，将高维数据集变换到低维空间，保留最多的原始数据信息。该方法基本思想是通过对原有m个数据元素的线性加权组合，构成r个互相正交的新元素（r≪m；r，m∈N），并使其能够反映被观测对象的原始特征。这样，由m个元素张成的特征空间就被压缩至r维，而且在此低维空间中被观测对象会更清楚地表达。此处，r个互相正交的新元素就称为“主成分”。主成分分析的计算步骤如下。

a.根据研究问题选择初始分析变量。

选取具有较强相关性的初始变量进行分析，通常采用因子相关性分析的方法进行变量选择，如KMO（Kaiser-Meyer-Olkin）检验和 Bartlett球形检验方法。

b.计算协方差矩阵C。

假设 X=（x1，x2，…，xm）T是 m×n 的原始特征空间矩阵，其中m是数据的样本数，n是特征参数的个数，协方差矩阵的计算公式如下：

c.计算协方差矩阵的特征值与特征向量。

首先计算协方差矩阵C的特征值λj（j=1，2，…，m）与对应的特征向量Um×m（正交方阵）；然后将各个特征值按大小排序 λ1＞λ2＞λ3＞…＞λm，并按照此顺序将特征向量矩阵中的各列进行重排，得到新的变换矩阵T；最后将原始特征空间矩阵X右乘T，便得到m个新的特征参数Y。矩阵运算表示如下：

d.确定主成分的个数r。

主成分的选择是根据贡献率来决定的，贡献率又可以通过特征值的大小来计算，特征值越大，它在Y中对应的新元素的贡献率就越大。一般采用单一贡献率与累计贡献率2个参数进行评价。其中单一贡献率Kr是指式（2）中Y的某列元素的贡献率，而累计贡献率Kt则是指Y中前r列新元素的总贡献率。两者的计算公式分别为：

通常累计贡献率达到85%以上时，认为前r个元素可以代替原来的n个特征参数，即所谓的主成分。这样既能使损失的信息不太多，又达到减少变量、简化问题的目的。

e.提取主成分。

确定累计贡献率之后，主成分的个数r就确定了，式（1）中 Y 的前 r列元素（y1，y2，…，yr）就是所要求的主成分。

2 局部放电特征参数提取

局部放电相位分布PRPD（Phase Resolved Partial Discharge）模式是一种广泛应用的局部放电模式。本文对超高频局部放电PRPD模式的最大放电量相位分布 Hqmax（Φ）、平均放电量相位分布 Hqn（Φ）、放电次数相位分布Hn（Φ）及局部放电幅值分布Hn（q）4个不同二维图谱分别提取出包括偏斜度S、陡峭度K、局部峰个数Pe、相位中值M、放电量因数Q、相位不对称度Φ、互相关系数Cc共37个统计算子，各算子分别从不同角度描述谱图特性，其值可根据文献[4]计算得到。各特征参数如表1所示。

3 特征参数的主成分及因子分析

上面提取的局部放电特征量维数过高，各参数之间可能存在信息重叠，直接送入分类器进行模式识别不但会给分类器带来较大的负担，而且也可能产生比较大的识别误差。主成分及因子分析的方法可以使提取出的特征量既全面表征放电谱图特征，又使特征量维数有所下降，从而减小分类器负担。下面以偏斜度S为例，描述主成分分析过程。

表1 参数统计表Tab.1 Statistic parameters

3.1 因子相关性分析

提取出的特征向量之间可能存在较强的相关性，通过因子相关性分析，可以找出反映变量之间共同特性的少数公共因子变量，判断数据是否适合进行因子分析。若各变量之间相关性较低，则很难找出公共因子。下面对表征谱图偏斜度的特征量S1—S7进行相关性分析。常用的检验方法有KMO检验和Bartlett球形检验。KMO是用于检验因子分析是否适用的指标，若它在0.5～1之间，表示适合；小于0.5表示不适合。Bartlett球形检验是通过x2检验来完成对变量之间是否相互独立的检验。若统计量取值较大，且对应的显著性水平较小，则因子分析是适用的。运用SPSS软件对统计出的S1—S7变量进行分析，输出检验结果下：KMO的值为0.714，变量之间存在较强的偏相关性；Bartlett球形检验为134.34，显著性水平为0，拒绝零假设，变量之间适合进行因子分析，可以进行主成分分析。

3.2 协方差矩阵的主成分分析

针对偏斜度7个特征参数，根据式（1）构造协方差矩阵求取主成分，通过求解协方差矩阵的特征值和与之对应的特征向量，将原来的相关向量进行线性变换。对得到的特征值进行分析，选择值大于1的特征根作为主成分进行分析，从而达到降维的目的。表2列出了协方差矩阵的特征值及方差贡献率。

表2 特征值和贡献率Tab.2 Eigenvalues and corresponding contribution rates

由表2可以看出，前2个特征值大于1，且2个值的累计贡献率超过90%。贡献率随主成分的变化情况如图1所示。

图1 贡献率随主成分变化图Fig.1 Variation of components contribution rate along with principal component

由图1分析得到，从第3个主成分开始，贡献率变化趋势已趋于平稳，且贡献率逐渐减小，其贡献可忽略不计。因此，取前2个主成分是比较合适的，可以很好地反映绝大部分变量信息。这样由原来的7个指标转化为2个新指标，起到了降维作用。

SPSS分析软件得到主成分系数如表3所示。

表3 主成分系数Tab.3 Coefficient of principal component

由表3可得2个主成分的线性组合为：用上面两式可计算出主成分的值。

同样的方法可以计算出陡峭度K、局部峰个数Pe、相位中值M、放电量因数Q、偏斜度S、互相关系数Cc的主成分，提取出的成分如表4所示。通过主成分分析，提取出37个特征变量的12个主成分因子，各参数的信息表征率均在75%以上。

表4 各参数主成分提取表Tab.4 Principal components of parameter

4 基于PNN的局部放电模式识别

4.1 PNN

PNN是由径向基函数网络发展而来的一种前馈神经网络，其理论依据是贝叶斯最小风险准则（贝叶斯决策理论），PNN作为径向基网络的一种，适合于模式分类。

基于PNN的故障诊断方法是概率统计学中被普遍接受的决策方法。假设2种已知故障模式A、B，对于待识别的故障特征样本为X，按贝叶斯最小风险准则，若 HALAFA（X）＞HBLBFB（X），则 X∈A；若HALAFA（X）＜HBLBFB（X），则 X∈B。其中，HA和 HB代表故障模式A和B的先验概率，LA是将属于A的故障特征样本X错误划分到模式B的代价因子，LB为将属于B的故障特征样本X错误划分到模式A的代价因子，FA、FB是故障模式A、B的概率密度函数。一般FA、FB不能精确获得，只能根据现有故障特征样本求其统计值，概率密度函数的估计式如下：

其中，XAi为故障模式A的第i个训练向量；mt为故障模式A的训练样本总数；δ为平滑参数，其值确定了以样本为中心的钟状曲线的宽度。

PNN的层次模型由输入层、模式层、求和层、输出层组成，基本结构如图2所示。输入层将输入样本传递给模式层的各个节点，模式层将输入节点传递来的输入向量进行加权求和，经过一个非线性算子运算后传递给求和层；求和层只是简单地将由对应与训练样本中同一类的模式层传来的输入进行求和；输出层选择求和层中输出最大者对应的状态模式为分类结果。

图2 概率神经网络基本结构Fig.2 Basic structure of probabilistic neural network

4.2 基于PNN的局部放电模式识别

4.2.1 网络结构设计

a.输入层向量选择。

对于局部放电信号，网络输入即为表征放电信号图谱特征的特征参数，包括上面介绍过的偏斜度、陡峭度、局部峰个数等37个统计特征参数，以及经主成分分析方法降维后的12个新的特征量用作对比分析，为消除量纲影响，所有输入层向量均采用标准化后的数据。

b.输出层向量选择。

变压器局部放电类型有许多种，本文采用比较典型的3种放电类型作为网络结构的输出，即自由金属颗粒悬浮放电、绝缘表面沿面放电和固体绝缘内部气隙放电。因此，采用PNN进行模式分类时，输入层对应37个节点或12个节点，输出层对应3个输出节点，网络的输出即为诊断出的局部放电类型。文中用作对比分析的BPNN输入层及输出层节点与PNN相同，隐含层取16个（对应37个输入向量）和14个（对应12个输入向量）神经元。

4.2.2 结果分析

本文针对悬浮放电、沿面放电和气隙放电3种不同局部放电类型，在各地高压变电站的局部放电在线监测系统中收集得到现场超高频放电信号，对每种类型放电收集得到10组历史数据，并对30组放电数据进行参数统计，计算出相应37个表征二维谱图的统计算子。利用上面的主成分分析方法提取出12个新的特征向量，送入PNN进行训练。3种类型放电分别取5组数据用来训练，5组用来测试。此外将未经主成分因子分析的37个统计算子送入分类器进行训练和测试，识别结果如图3所示。

图3 降维前和降维后的PNN识别效果图Fig.3 Results of PNN recognition before and after dimension reduction

由图3可见，样本降维后12个统计参数的识别效果较之降维前的37个统计算子的识别情况相同，错误判断个数均为3。为进行实验对比，将相同数据输入传统BPNN进行训练并测试，对比结果见表5。

表5 实验对比结果Tab.5 Comparison of experimental results

由表5可以看出，数据降维后，PNN与BPNN的收敛时间均有不同程度的降低。PNN算法在数据降维前后具有相同的识别率，BPNN算法在数据降维后识别率略有下降。此外，PNN的总体收敛时间要少于BPNN，识别效果也要优于BPNN。

5 结论

本文利用主成分分析方法对局部放电特征数据进行分析，降维后的新向量可以较好地表征原始特征向量，有效解决了原始特征参数维数过高的问题。通过PNN与BPNN分类器对降维前后的特征参数进行模式分类，对比得出，降维后的新特征量使得网络结构得到了优化，PNN与传统的BPNN相比具有更好的识别效果。