基于主动学习SVM的变压器局部放电模式识别

2013-07-26 11:05尚海昆苑津莎李洪强
关键词:模式识别训练样本个数

尚海昆,徐 扬,苑津莎,李洪强

(1.华北电力大学 电气与电子工程学院,河北 保定071003;2.中国电子科技集团公司第五十四所,河北 石家庄050081)

0 引 言

电力变压器是电力系统中最重要的设备之一,是电力安全生产的根本保证[1]。局部放电是造成设备绝缘劣化的重要征兆及表现形式,有效检测局部放电信号并进行识别对于评估变压器的绝缘状况具有重要的现实意义[2,3]。

在局部放电模式识别领域中,BP 神经网络以其强大的自学习能力及非线性映射能力而得到了广泛的应用,但存在训练样本需求量大、训练周期长及易陷入局部最小等缺点。支持向量机(SVM)在经验风险最小化的基础上采用结构风险最小化准则,较好的解决了BP 网络的上述问题。近年来相关学者将SVM 应用到了局部放电模式识别中,显示出了良好的应用效果。文献[4]将SVM 应用到了气体绝缘组合电器的放电缺陷识别,很好的区分出了4 种类型的人工缺陷;文献[5]将最小二乘支持向量机(LS-SVM)应用到局部放电模式识别,在小样本情况下得到了较高的识别率;文献[6]将SVM 用于多个局部放电源的识别,实验及现场数据均证明了该分类器的有效性。

上述SVM 分类器都是采用传统被动学习的方法,即将所有的放电训练数据进行标记,并训练分类器,然后对未标记的局部放电数据进行识别。这种方法需要大量的训练样本才能够得到较好的识别效果。对于SVM 而言,由于分类器只依赖于少量的支持向量[7,8],意味着大部分样本的标定工作是无效的,因为它们对最终的分类器不产生任何影响。SVM 的主动学习方法可以很好的解决上述问题[9]。主动学习SVM 对训练样本进行主动选择,挑选出对分类器最有价值的样本进行训练,利用较少的训练样本获取满意的识别结果[10,11]。

本文将SVM 主动学习的方法用于变压器局部放电的模式识别。通过SVM 建立变压器局部放电16 个统计特征参数与4 个放电类型之间的对应关系,然后选择适当的采样函数挑选出对SVM 分类器最有分类价值的放电样本进行训练。实验结果验证了该方法的有效性。

1 主动学习SVM

1.1 主动学习

根据对训练样本的处理方式,学习方法可分为主动学习和被动学习。主动学习根据学习进程选择最有利于分类器性能的样本来训练分类器,有效减少训练样本的数量。被动学习则是随机的选择训练样本,被动的接受样本信息进行学习。主动学习过程中,通过合理的选择训练样本,可以使样本需求量减少,降低训练代价。

1.2 SVM 分类器

SVM 是基于结构风险最小化原则的一种新型机器学习方法,是目前较为流行的模式分类器。SVM 通过最大化分类间隔训练分类器,对于非线性问题,通过选择核函数将低维空间的特征向量映射到某个高维空间,使原本不可分的问题得到线性可分。由于RVM 是针对二分类问题的分类器,不能直接用于多分类。而本文需要识别的局部放电类型为4 种,因此需要对SVM 进行相应的设置。目前常用的多类分类方法有:一对一法、一对余法、决策二叉树法等[12,13]。其中一对一法是对样本构造所有的二类分类器,对于k 个类别的样本需要设计出k(k -1)/2 个SVM 分类器。该方法构造出的分类器结构简单,计算量小,因此本文选用一对一多分类SVM 对放电类型进行识别。

1.3 主动学习SVM

SVM 主动学习包括两部分内容(f,q),f 表示SVM 分类器,由训练样本学习得到f:U→{-1,1}。q 表示采样函数,是主动学习与被动学习的主要区别,该函数决定下一步从候选集中选择哪一个新样本进行标注并训练。针对多分类SVM 的主动学习,本文引入一种基于后验概率的采样函数[14]。对于k 类多分类问题,首先计算候选样本集中每一样本x 属于第i 类的后验概率p(i ≤k),然后通过p 计算分类置信度C,选择C 值最小的n个样本进行标注,并加入训练集。假设rij为P(y=i | y=i or j,X )的二分类概率估计,对于多分类情况,pi为样本属于类型i 的概率值。利用两两配对的方法可以将问题转化为公式(1)的最优化问题。

公式(1)满足条件

后验概率p 最大的类别imax 即为样本x 所属的类别。样本置信度C 定义如式(2)。

本文采用Libsvm 工具箱来实现上述多分类和概率估计。

确定了采样函数后,多分类SVM 主动学习的算法如下[9,10]。

输入:没有标记的候选样本集U,初始选择样本个数s,每次从U 中采样个数n;

输出:分类器f。

(1)从样本集U 中选出s 个样本并正确标记其类别,构造初始训练样本集T0,保证T0中至少包含1 个每一种类型的样本,并执行U0=U-T0;

(2)根据训练样本集T0构造多分类SVM 分类器f0;

(3)对于第i(i >0)次采样学习,在Ui-1基础上利用分类器fi-1预测每个待处理单元的样本置信度C,并按大小进行排序,选取C 值较小的n个样本组成集合Bi,并正确标注n 个样本的类别;

(4)执行Ti=Ti-1∪Bi,Ui=U-Ti,并在已标注样本集Ti上继续训练,得到分类器fi;

(5)若Ui为空或达到某种指标时算法终止,否则返回(3)。

2 基于主动学习SVM 的局部放电类型识别

2.1 局部放电统计参数提取

根据变压器内部的绝缘结构特征,局部放电主要划分为悬浮放电、针板放电、沿面放电和气隙放电4 种类型[15]。本文在实验室条件下对局部放电PRPD 模式的3 个二维图谱进行分析,即最大放电量相位分布Hqmax(φ)、放电次数相位分布Hn(φ)及局部放电幅值分布Hn(q),并分别提取出包括偏斜度Sk、陡峭度Ku、放电量因数Q、相位不对称度Φ、互相关系数CC 共16 个统计参数[16]。计算公式如式(3 ~7)。

式(3 ~4)中:xi是第i 个相位窗的相位;Δx 为相位窗宽度;gi,μ 和σ 分别表示相位窗i 内的事件出现的概率、均值和标准差。偏斜度Sk 反映谱图形状相对于正态分布的左右偏斜程度,陡峭度Ku描述形状的分布对比于正态分布形状的突起程度。

式(3 ~6)中:W 为工频半周内的相位窗数。

各参数分别从不同角度描述放电谱图特性,可以较为全面的描述放电信号特征。提取的统计特征参数如表1 所示。

表1 参数统计表Tab.1 Statistic parameters

由于输入的放电统计参数包含不同性质的物理量,各类统计参数间的数值差异较大,为了消除参数间的量纲,使各参数间具有可比性,对输入数据的各类统计参数按式(8)分别进行归一化处理。

式中:xmin,xmax分别为样本中的最小值与最大值;yi为归一化后的数据。

2.2 多分类SV M 模型

本文构造出的多分类SVM 如表2 所示。

表2 基于SVM 的局部放电分类模型Tab.2 Partial discharge classification model based on SVM

表2 中SVM1用来识别悬浮放电和沿面放电,输出结果为1 判定为悬浮放电,输出结果为-1 则为沿面放电。常用的核函数有:线性核函数、多项式核函数、Sigmoid 核函数及高斯径向基核函数(RBF)[17]。其中RBF 对应的特征空间为无穷维,有限样本在该特征空间中线性可分,因此本文选择RBF 作为分类器核函数。

2.3 基于主动学习SVM 的局部放电类型识别

首先对局部放电信号进行参数计算,提取出表征二维图谱特征的16 个统计特征参数,将获取到的参数归一化后送入SVM 分类器,把训练样本和测试样本按一定比例分开。然后利用主动学习方法在训练数据集上寻找最优样本对SVM 分类器进行训练。最后利用训练完毕的分类器对测试样本进行测试,完成放电识别。识别过程如图1所示。

图1 基于主动学习SVM 的局部放电模式识别流程Fig.1 Partial discharge pattern recognition procedure based on active learning SVM

3 实验结果分析

对每种放电类型采集得到60 组实验数据,并计算出每组数据的统计特征参数。对240 组放电数据,选取200 组用来训练,40 组用来测试。首先从200 组训练数据中选取10 组用作初始训练样本集(为保证初始训练样本集中包含每一种类型的放电样本,4 种放电类型的样本比例取为2∶3∶3∶2),并构造多分类SVM 分类器。固定分类器核函数为RBF,采用2 -折交叉验证方法确定SVM的最佳规则化系数C′ = 0.2 和核函数参数σ=0.5。

主动学习过程中,每次选择的采样个数不同,学习的迭代次数将不同,计算复杂度也将随之发生变化。图2 表示在SVM 主动学习方法中,采用不同的逐次采样个数n 的识别正确率随迭代次数的变化曲线。图3 为采用不同采样个数n 的识别精度随训练样本的变化曲线。

图2 识别精度随样本迭代次数的变化曲线Fig.2 Recognition accuracy varying with iteration numbers

图3 识别精度随样本个数的变化曲线Fig.3 Recognition accuracy varying with sample numbers

由图2 可见,对于达到相同的识别精度,当n=10,n=12 时所需要的迭代次数为7,次数少于其他3 种不同n 值的采样方式,n =4 时的学习迭代次数为16,计算复杂度最高。由图3 可知,n =10 需要的训练样本数为70,少于n=12 时需要训练样本个数(84),略多于n =4 时需要的样本数(64)。从样本需求数量与计算复杂度两方面综合考虑,本文选择逐次采样个数n 为10。

图4 为采用主动学习多分类SVM(ALMSVM)采样学习和采用随机多分类SVM(RMSVM)采样学习得到的识别率变化曲线。两种学习方法的识别正确率随时间变化的关系如图5 所示。

由图4 可以看出,SVM 主动学习方法采用70个训练样本即达到了较高的样本识别率,而传统随机SVM 分类器则需要180 组训练数据才能够获得相同的识别效果。由图5 可见,对于达到相同的识别精度,主动学习SVM 所需要的学习时间要远小于传统随机SVM 需要的时间。以上结果表明,主动学习SVM 的学习代价要远小于传统SVM学习方法。

图4 识别精度随样本个数的变化曲线Fig.4 Recognition accuracy varying with sample numbers

图5 学习时间随识别精度的变化曲线Fig.5 Learning time varying with recognition accuracy

4 结 论

本文提出一种基于主动学习SVM 的变压器局部放电模式识别方法。把主动学习理论引用到SVM 分类器,通过计算候选样本的后验概率选择“最优”样本进行训练,并将该方法应用到局部放电类型识别。实验结果表明,主动学习SVM 分类器能够有效识别局部放电类型,相对于传统的被动学习SVM 分类器,该方法有效降低了所需训练样本个数,学习速度得到了有效提高。

[1]律方成,刘云鹏,李燕青.电力变压器局部放电检测与诊断方法评述[J].华北电力大学学报,2003,30 (6):1 -5.

[2]郭俊,吴广宁,张血琴,等.局部放电检测技术的现状和发展[J].电工技术学报,2005,20 (2):29 -35.

[3]Judd M D,Cleary G P,Bennoch C J.Applying UHF partial discharge detection to power transformers [J].IEEE Power Engineering Review,2002,22 (8):57-59.

[4]弓艳朋,刘有为,吴立远.采用分形和支持向量机的气体绝缘组合电器局部放电类型识别[J].电网技术,2011,35 (3):135 -139.

[5]任先文,薛雷,宋阳,等.基于分形特征的最小二乘支持向量机局部放电模式识别[J].电力系统保护与控制,2011,39 (14):143 -147.

[6]Hao L W,Lewin P L.Partial Discharge Source Discrimination using a Support Vector Machine[J].IEEE Transactions on Dielectrics and Electrical Insulation,2010,17 (1):189 -197.

[7]Sharkawy R M,Mangoubi R S,Abdel-Galil T K,et al.SVM Classification of Contaminating Particles in Liquid Dielectrics Using Higher Order Statistics of Electrical and Acoustic PD Measurements [J].IEEE Transactions on Dielectrics and Electrical Insulation,2007,14(3):669 -678.

[8]Tong Simon,Koller Daphne.Support Vector Machine Active Learning with Applications to Text Classification[J].Journal of Machine Learning Research,2001,45-66.

[9]张健沛,徐华.支持向量机(SVM)主动学习方法研究与应用[J].计算机应用,2004,24 (1):1-3.

[10]Joshi A J,Porikli F,Papanikolopoulos N P.Scalable Active Learning for Multiclass Image Classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34 (11):2259 -2273.

[11]Jonathan Milgram,Mohamed Cheriet,Robert Sabourin,et al.Estimating Accurate Multi-class Probabilities with Support Vector Machines[C].Proceedings of International Joint Conference on Neural Networks,2005,1906 -1911.

[12]方瑞明.支持向量机理论及其应用分析[M].北京:中国电力出版社,2007.

[13]Hsu Chih-Wei,Lin Chih-Jen.A comparison of methods for multi-class support vector machines [J].IEEE Trans on Neural Networks,2002,13 (2):415 -425.

[14]Lin H T,Lin C J,Weng R C.A Note on Platt’s Probabilistic Outputs for Support Vector Machines[J].Machine Learning,2007:267 -276.

[15]刘云鹏,律方成,李燕青,等.变压器局部放电测量系统的设计与实现[J].高电压技术,2002,28 (1):32 -34.

[16]Gulski E,Kreuger F H.Computer-aided Recognition of Discharge Sources[J].IEEE Transactions on Electrical Insulation,1992,27 (1):82 -92.

[17]Hsu Chihwei,Chang Chihchung,Lin Chihjen.A practical guide to support vector classification [R].Taipei:National Taiwan University,2003.

猜你喜欢
模式识别训练样本个数
怎样数出小正方体的个数
人工智能
等腰三角形个数探索
怎样数出小木块的个数
怎样数出小正方体的个数
UPLC-MS/MS法结合模式识别同时测定芪参益气滴丸中11种成分
第四届亚洲模式识别会议
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法