基于多元模糊支持向量数据描述的高压电缆缺陷识别

2020-04-06 08:48方义治孙廷玺罗思琴兰雪珂周念成
电子科技大学学报 2020年2期
关键词:训练样本测试数据球体

刘 敏,方义治,孙廷玺,何 伟,罗思琴,兰雪珂,周念成*

(1.广东电网有限责任公司珠海供电局 广东 珠海 519000;2.重庆大学输配电装备及系统安全与新技术国家重点实验室 重庆 沙坪坝区 400044)

高压电缆具有高可靠性及不占用地面空间等优势,已广泛应用于城市中的高压配电网[1]。外部环境、运行工况以及外力等因素使得高压电缆在运行过程中可能出现缺陷,进而逐渐演化成电网系统性故障,对电网的安全稳定运行造成了潜在威胁[2]。因此,有必要研究高压电缆缺陷识别技术,对高压电缆的缺陷及时的检修。

高压电缆缺陷识别的研究主要集中于局部放电模式识别。文献[3-5]分别研究了电缆接头内部气隙放电对绝缘劣化的影响,电缆接头沿面放电严重程度的评估方法和利用2D-LPEWT 实现电缆局部放电缺陷识别。针对直流电缆的局部放电识别研究,文献[6-8]分析提出了基于NSST 域增强、改进ECOC 分类器和压缩感知的直流电缆局部放电识别方法。除了局部放电外,高压电缆缺陷还存在诸多其他类型,比如外护套损伤、电缆接头温度异常[9]等。因此,必须进一步对高压电缆缺陷识别进行深入研究。

随着在线监测系统的广泛应用,高压电缆已经积累了充足的数据,能够应用于高压电缆的缺陷识别。从数据挖掘的角度看,高压电缆缺陷识别本质上是一个分类问题。神经网络、支持向量机等方法具有良好的分类性能,已在设备故障诊断和模式识别等领域得到广泛的应用,但是以上方法需要大量的样本进行训练,而且对未知类型的数据无法识别[10-11]。而支 持向量数据描述(support vector data description, SVDD)通过建立相同类别样本的最小超球体模型,实现对测试样本的二分类[12]。SVDD算法的低复杂性和良好的泛化能力使得其在工程领域的应用具有广阔前景。文献[13]通过对每类样本独立训练,构建多个超球体,提出了多元支持向量描述(multi-support vector data description, MSVDD),实现了测试数据的多分类方法。然而,常规的SVDD算法对异常数据非常敏感[14],由此造成了常规的SVDD 算法分类准确度低。本文提出利用聚类法对测试样本进行聚类和筛选处理,减少异常数据对训练结果的影响,提高高压电缆缺陷识别的准确性。常用的聚算法可分为层次聚类和基于划分的聚类方法。层次聚类按照从上到下或者从下到上的策略,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树[15]。由于层次聚类中,下层的结果会继承到后续所有上层的聚类结果中,会影响整体聚类的准确性。文献[16]以模糊C 均值聚类为代表的基于划分的聚类方法,通过优化目标函数得到每个样本点对所有类中心的隶属度,从而决定样本点的类别,然而该方法依赖于人为给定聚类中心数量,聚类中心过少无法反映数据内在特征,聚类中心过多影响求解的效率。竞争凝聚(competitive agglomeration, CA)算法结合了模糊C 均值聚类和层次聚类的优点,能够通过迭代方式自适应寻找最优的聚类群集数量,并且能够对样本数据进行模糊处理,解决了实际数据对类型划分不理想的问题[17]。

针对以上问题,本文提出多元模糊支持向量描述方法(multi-fuzzy support vector data description,MFSVDD),用于高压电缆缺陷识别。以高压电缆利用CA 算法对训练样本进行聚类处理,并剔除隶属度低的异常数据,然后利用筛选后的样本及其隶属度建立加权后的SVDD 算法,通过建立每种状态的各自的最小超球体模型,实现对多种高压电缆异常状态的识别。最后,以广东珠海现场的实际数据,对所提高压电缆缺陷识别算法的准确性进行测试。

1 SVDD 和CA 算法

1.1 支持向量数据描述

假设某种高压电缆状态的训练样本为X={x1,x2,…,xN}, N 为样本数量,对于任意一个样本xi∈Rn为n 维实数空间,n 表示状态量维度。SVDD 算法通过构建半径为r,球心为a 的最小超球体,得到该组训练样本的空间模型,该方法可表示为以下二次规划模型,即:

式中,C 为惩罚因子;ξi为松弛变量,用来平衡超球体大小和可能落在球体外样本数量。

根据Lagrange 乘数法,引入Lagrange 乘子λi,μi≥0,式(1)的Lagrange 函数可表示为:

根据Karush-Kuhn-Tucker (KKT)条件,可获得:

将式(3)代入式(2)可得式(1)的对偶函数,即:

进一步利用高斯核函数K(xi,xj)将低维数据映射到一个高维特征空间,代替内积运算。求解最优化模型,得最小超球体的半径r:

对于任意一组给定的测试数据xt,将式(5)中的支持向量xs替换为xt,计算xt到超球体球心a 的距离rt。当rt≤r 时,则认为测试数据与训练样本状态属于同一类,否则认为两者的状态不同。

1.2 竞争凝聚算法

常规的SVDD 算法对异常数据很敏感,尽管通过设定参数C 来对错误分类样本惩罚,但是训练样本过程中,C 是恒定不变的,因此训练过程中仍然对这些异常值敏感,而且可能引起过拟合。为避免该缺陷,本文利用模糊理论对惩罚因子模糊处理,降低异常数据对分类结果的影响。CA 算法是在模糊C 均值法基础上发展而来,具有很强的自适应能力,能够根据样本数据获得最优聚类数量。

设V={v1, v2, …, vM}为聚类中心的集合,M 为群集数量,则CA 算法目标函数表示为:

目标函数(7)由两部分组成,左半部分用来确定聚类簇的大小和形状,右半部分为一个偏移项,用来寻找最佳的类别数量,偏移项参数α 为:

隶属度和聚类中心的更新公式为:

根据上述公式,结合给定的样本数据,通过不断迭代,最终获得每组训练样本的群集数量M、各区间的聚类中心V 以及隶属度矩阵U[18]。根据聚类结果,异常数据点的隶属度很小,接近于0。为了提高训练效率,设定隶属度阈值σ,当隶属度uij<σ时,则认为该样本点xj在群集i 中影响不大,将其舍弃。

2 高压电缆缺陷识别

2.1 高压电缆状态数据及缺陷类型

压电缆的状态数据包含在线监测数据、离线试验数据和运维数据等多源信息。结合广东电网珠海供电局高压电缆的运维经验,典型高压电缆在线监测装置布局如图1 所示。

局部放电和护层环流传感器主要安装在电缆终端和中间接头的接地线上,而电缆温度采用分布式光纤测得。根据在线监测获得的实时数据,并结合其他来源数据,构成电缆的状态数据集。当高压电缆状态出现异常时,其状态数据相比正常状态也会发生变化。然而,对于部分可直接反映电缆缺陷状态的单个状态量,在本文中不予考虑。如外护套直流耐压试验,若电缆在试验过程中发生击穿,显然电缆已不能正常运行。此外,接地系统异常可根据接地系统试验结果直接判断,与其他状态变量无关。重载/过载告警、故障跳闸信息与缺陷同时记录的样本极少,故不考虑该指标。结合以上分析,本文选取的状态指标如表1 所示。

根据《电力电缆及通道检修规程》[9],结合实际运行经验,根据缺陷发生的部位,可将电缆的缺陷类型分成表2 所示的7 类。

高压电缆正常运行状态则定义为F0,由此构建了高压电缆状态类型集。

表1 高压电缆状态指标

表2 高压电缆缺陷类型

2.2 多元模糊支持向量数据描述方法

根据1.2 节中训练样本聚类和筛选结果,将每一个群集视为一组训练样本,则训练样本可表示为X1,X2,···,XM,其中Xm∈RNm。对于训练样本Xm中数据点xi∈Xm的权重为隶属度占筛选后样本Xm的隶属度之和的比值,定义为ωi,m。

对于每个群集的数据,分别获得一个最小半径的超球体,则群集m 的加权SVDD 的目标函数表示为:

此时群集m 最小超球体半径rm与式(5)一致。而对于任意一组测试数据,其状态判别方程可表示为

根据式(12)的正负判断测试数据xt是否与训练样本属于同一状态,如果f≤0,则xt与该训练样本对应的高压电缆状态一致。当对高压电缆异常状态样本数据和正常状态均采用该方法训练,则可以获得MFSVDD,用来判断高压电缆的工作状态并识别出具体的异常状态类型。

2.3 高压电缆缺陷识别流程

高压电缆的缺陷识别通过找到各缺陷类型的最小超球体的半径,并用测试样本和状态判断方程对待测缺陷进行分类,识别流程如图2 所示,具体步骤为:

1)根据已有的缺陷样本F0和正常样本数据F1~F7,利用极差法[19]对所有数据归一化处理;

2)分别利用CA 聚类方法对各种状态类型的归一化后的样本进行聚类;

3)对每一个群集Xm,利用加权SVDD 算法求解其最小超球体半径rm;

4)根据最小超球体半径和各种状态类型样本数据,构建多元状态判别方程f0~f7;

5)将测试数据xt的归一化值分别代入各状态判别方程,如果所有状态判别函数f0~f7均大于0,则认为该测试样本是一种未知的缺陷类型;否则状态判断函数小于0 的状态即是测试样本的状态类型。

3 实例分析

3.1 数据来源

本文数据来源于广东电网珠海供电局现有的在线监测系统、日常运维和离线试验,已有的正常状态样本数据100 条,而缺陷状态样本总计500 条。从正常样本和缺陷样本中分别随机选取90 和430条作为训练样本,剩余作为测试样本,每种状态的样本数量如表3 所示。

表3 高压电缆状态类型样本数量

3.2 高压电缆样本训练及缺陷识别结果

根据高压电缆训练样本数据,对所有的训练样本数据进行归一化处理,然后利用CA 聚类算法获得不同状态的样本群集数量和聚类中心,如表4 所示。

设定隶属度阈值σ=0.2,即隶属度小于0.2 的样本数据舍去,认为这些样本属于异常点。然后利用加权SVDD 对每个群集中的剩余样本进行训练,得到所有群集的最小超球体球心和半径,如表5 所示。

由表4 和表5 可知,高压电缆训练样本的聚类中心和超球体球心相似,这是因为超球体的球心是训练样本的加权和,在一定程度上接近于聚类中心,这也从侧面证明了本方法的准确性。

根据超球体球心和半径,可得到高压电缆状态判别方程(12),利用归一化的高压电缆测试样本分别代入状态判断方程f0~f7,数据点1~10 表示状态F0测试数据,数据点11~20 表示状态F1测试数据,以此类推,结果如图3 所示。

从图3 可以看出,高压电缆正常状态F0测试数据(数据点1~10)的函数f0值均小于0,而其他高压电缆状态测试数据(数据点11~80)的函数f0值大于0,f1函数值小于0 的数据点为缺陷状态F1的测试数据(数据点11~20),依次类推,状态Fi的测试数据对应的状态判别函数fi值均小于0。显然,利用高压电缆测试数据分别计算状态判别方程,如果状态判别方程小于0,则该测试数据的状态与该状态判别方程对应的状态一致。

表4 高压电缆训练样本聚类结果

表5 最小超球体球心和半径

由于每个高压电缆状态判别方程是各自训练样本独立训练获得,当高压电缆发生未知缺陷时,其数据特征与其他状态一定不同,此时测试样本函数f0~f7值应都大于0。假设F7状态是未知缺陷,从图3 可以看出,数据点71~80 的函数f0~f7值均大于0,这从侧面反映了本方法对未知缺陷类型的自适应能力。

此外,数据点34 的函数f1值小于0,把不属于状态F1的数据点34 识别为状态F1,这说明识别方法发生了误报。而数据点22 的函数f2值大于0,事实上,数据点22 应是状态F2的测试样本,这说明识别方法发生了漏报。

3.3 算法性能分析

为本文通过CA 聚类算法,对高压电缆训练数据进行筛选并对SVDD 模型加权处理。为了分析隶属度阈值σ 对识别效果的影响,图4 给出了识别正确率与隶属度阈值的关系。

从图4 可以看出,MFSVDD 算法识别正确率随着σ 增加逐渐上升,在σ=0.2 时,识别正确率最高,之后,识别正确率逐渐下降。这是因为当σ 很小时,很多异常的训练样本并没有被剔除,此时获得超球体球心和半径不是最优结果。而当σ 较大时,剔除的样本过多,造成训练样本不够丰富,因而降低了识别的准确性。

为进一步分析模糊处理对识别方法效果影响,表6 为MFSVDD 和MSVDD 算法的识别错误率。显然,本文通过对数据模糊处理,对于隶属度低的数据点赋予较小的权重,降低了MFSVDD 算法对异常数据的敏感性,从而降低了识别错误率。而MSVDD 将所有的高压电缆数据都用来训练,并同等对待,没有对异常数据进行有效地处理,造成识别效果差,错误率高。此外,本文提出的MFSVDD求解时间仅需0.92 s,与MSVDD 的效率接近,能够及时地发出电缆状态异常预警。

表6 不同方法识别错误率和求解效率对比

4 结 束 语

本文将CA 算法和SVDD 结合,建立了高压电缆缺陷识别模型。仿真结果表明:

1) MFSVDD 算法通过状态判别函数的正负判断测试数据所属类别,能够区分高压电缆不同缺陷。

2)隶属度阈值的取值影响识别的准确性,因此需要对隶属度阈值多次测试,寻找最优的值。

3)本文所提方法与常规的MSVDD 相比,降低了异常数据对识别效果的影响,有效地提高了高压电缆缺陷识别的准确性,并且求解效率高,提高了运维作业效率。

猜你喜欢
训练样本测试数据球体
越来越圆的足球
计算机生成均值随机点推理三、四维球体公式和表面积公式
人工智能
膜态沸腾球体水下运动减阻特性
测试数据管理系统设计与实现
基于小波神经网络的网络流量预测研究
基于自适应粒子群优化算法的测试数据扩增方法
空间co-location挖掘模式在学生体能测试数据中的应用
影响《标准》测试数据真实性的因素及破解策略