杜梓铭,马静波,张立辉,汪 岩
(国网河北省电力有限公司保定供电分公司,保定 071000)
随着国家电网公司确立以“三型两网、世界一流”为新战略的核心任务,泛在电力物联网将提供物理基础,推动传统业务提质增效并衍生新业务新业态新商业模式,这种新变化展现出“智能业务”的特征,核心就是数据和智能的驱动。变电站设备结构复杂化,发生缺陷的位置、时间的不确定性,导致故障发生后检修人员无法对事故原因作出快速判断,同时告警众多,故障排查定位困难,潜在风险缺乏有效辨识手段,导致问题出现时无法及时处理。因此,提出变电站继电保护分析平台,以确保电网能安全、稳定、高效、经济的运行。
变电站继电保护分析平台由装置信息[1]、运行信息、保护动作分析、事故原因推演、保护逻辑优化、缺陷分析及消缺建议几部分板块组成。平台通过数据采集处理、波形提取、模型比对三部分对数据进行采集处理分析得出分析结论。数据采集处理主要应用现有站端系统进行数据采集,实时传送到平台后台进行波形提取和模型比对。在波形提取和模型比对模块我们研究并运用了一种基于支持向量机(Support Vector Machines,SVM)分类技术的故障原因诊断方法。
分析平台通过站端故障录波器采集[2]保护运行数据,如:实时电流电压及动作信息;通过保护子站系统采集录波文件;同时收集装置信息及定值、压板投入等信息进行核实比对;将这些数据通过数据缓冲区、数据仓库、数据集市进行数据存储和预处理。
波形提取模型比对主要运用基于SVM的故障诊断方法,不仅针对单个录波文件独立进行分析,而且将所有录波数据整体上进行考虑,深度洞察隐藏于海量录波文件中确定性的规律和模式。便于辅助电网运行人员快速判定故障异常相位及故障原因,以及时采取对应的保护措施。SVM建立在统计学习VC维理论和结构风险最小原理基础上的识别方法,有效地解决了小样本、高维数、非线性等的学习问题,并克服了人工神经网络学习合理结构难以确定和存在局部最优等缺点,大大提高了学习方法的泛化能力,能对多类别进行故障原因识别,速度快,对噪声不敏感,识别率高,具有较高的识别精度。
基于SVM分类技术是建立在严密的数理统计理论之上的新型分类方法,其基本思想是通过用内积函数定义的非线性变化,将输入空间变换到高维特征空间,在这个高维空间中寻找输入变量与输出变量之间的一种线性关系。采用结构风险最小化原则,将问题转化为一个凸二次优化问题,简化了计算的复杂性,保证得到的解是全局最优解,提高分类模型的精度,较好的解决了分类方法中的小样本、非线性、高维数等实际难题。
SVM是一种二分类模型,通过在原特征空间或经投影后的高维空间上构造最优分类面,将给定的属于2个类别的训练样本分开,构造超平面的依据是两类样本离超平面的距离最大化。便于理解,现以线性可分情况下SVM为例叙述其基本原理:
设线性可分集(xi,yi),1<i<N,xi∈Rd,y i∈{-1,1}是类别编号,d维空间中线性判别函数的一般形式为g(x)=ω·x+b,相应的分类面方程为ω·x+b=0。将g(x)进行归一化,使所有的xi都满足,即离分离面最近的样本,这样分类间隔就等于(1/2)|ω|。求解最优分类面就等效于最小化|ω|,目标函数为
采用拉格朗日乘子法,引入乘子α=[α1,…,αN],可以将上述问题转换成二次规划问题
αi≥0,i=1,2…,N
f(x)=sgn(ω*·x+b*)
对于线性不可分情况,SVM一方面引入松弛变量和惩罚因子来构造目标函数,一方面通过非线性变换将输入空间变换到高维空间,然后在新空间中求解最优分类面,此时,线性可分情况下的点积运算 (xi,xj)变为 (Φ(xi),Φ(xj)=K(xi,xj),K(xi,xj)为核函数。
将SVM推广至多分类问题需要构造SVM多分类器。目前常见的构造方法是通过组合多个二分类器来实现,具体涉及两种思路:一对多算法和一对一算法。
一对多算法对于N类问题构造N个二分类器,第i个SVM用第i类中的训练样本作为正的训练样本,而将其他的样本作为负的训练样本,最后的输出是两类分类器输出为最大的那一类。这种方法的好处是每个优化问题的规模比较小,而且分类的时候速度很快(只需要调用N个分类器就知道了结果);缺点是训练样本数大,训练困难,推广误差无界。
一对一算法在N类训练样本中构造所有可能的两类分类器,每类仅仅在N类中的两类训练样本上训练,结果可构造N(N-1)/2个分类器,使用投票法决定样本所属类别。这类方法的好处是训练阶段复杂度低,计算量小;缺点是分类数目随类数急剧增加。
基于SVM技术的故障原因诊断方法,包括数据抽取、训练样本数据构造、多类别的故障原因模型训练和故障原因诊断等关键步骤。具体流程见图1。
基于SVM分类技术的电网故障原因诊断方法,从步骤上分为数据抽取、数据探索与预处理、建模与诊断、结果与反馈等步骤,在每个步骤,根据应用的层级分为离线建模和在线实时应用2个层次,2个层次在每个步骤中处理方式有细微的差别。
图1 基于SVM分类技术的电网故障原因诊断方法流程
2.2.1 数据选择与抽取
数据抽取步骤根据从与应用端的保信软件系统的历史录波数据库中,取到原始的录波数据,并取得录波数据相关的信息,包括录波来源线路、厂站、时间、事后确认数据,而对于实时部分,则从保护装置取得定时或条件触发的录波数据。
2.2.2 数据预处理与规范化
a.数据质量检查对数据样本进行探索分析,对关键字缺失的数据进行筛除,根据算法对数据质量的要求,对原始数据进行判定,筛除质量较低的原始样本。
b.故障相关原始数据提取。提取出与故障相关联的电流电压通道Uu、Uv、Uw、Iu、Iv、Iw。
c.故障时间点、故障相别判定。利用故障录波分析库,进行故障点判定。
d.故障时间点对齐。基于c中所判定故障时间点,将前后若干原始录波信号进行提取。
2.2.3 特征提取
因为原始数据为生数据,在进行模型训练前,需要将生数据转换为熟数据即特征数据。本方法引用小波分析技术,提取录波信号在各频率波段中的特征,采用多尺度的空间能量分布的分析方法对信号进行频带分析,再分别计算所得的各个频带的能量作为特征向量,完成从原始信号到特征向量数据的变换。
采用小波分析,对上步中提取出故障点前后的若干周波进行信号分解,首先需要根据原始信号的特点选择小波基,考虑到原始信号是电压电流信号,为正弦信号叠加异常信号,因此选择db4小波基作为基函数。
采用db4基波进行小波变换后,信号f(t)的二进制小波分解可表示为:
f(t)=Aj+∑Dj,其中A为近似信号,是低频部分;D为细节信号,是高频部分。信号的总能量为:
选择第j层的近似信号和各层的细节信号的能量作为特征。
针对该电压/电流信号,构造子特征向量为:
利用小波变换可以对时间序列信号进行特征提取,提取出可以代表时间序列信号的向量数据,完成从原始信号到特征向量数据的变换。
经过之前步骤提出来各个电压电流的子特征向量为<FUu、FUv、FUw、FIu、FIv、FIv>
根据判定的故障相别,采用故障相别优先的字母序原则。如故障相别确定为V相故障,则形成的该样本对应的特征向量为:<FUv、FUw、FUu、FIv、FIw、FIu>
2.2.4 故障原因模型的训练
在进行分类的时候,每一个训练样本由一个特征向量和一个分类标记组成。
式中:xi为特征向量(维数一般较高);yi为分类标记。
在样本集训练过程中,核函数算法的选取对故障诊断模型的准确度有很大的影响,不同的核函数可以构造实现输入空间中不同类型的非线性决策面的学习模型。选取不同的核函数对于不同的样本差异很大,所以通过实验进行核函数的选取。
2.2.5 故障原因模型的诊断
基于SVM分类技术的故障原因模型的诊断与训练的预处理过程类似,同样是采用特征提取算法,将原始数据转化为与模型训练输入相同属性的特征向量。故障原因模型将此特征向量作为输入,最终给出属于每个类别的概率:
以某电网的故障录波数据来诊断故障原因的实验为例,说明如何基于历史数据诊断电网故障。
2.3.1 数据描述
该故障录波数据为某省网2014年1、5、6、7、11月份发生故障事件对应录波数据,共154个。按故障相别的统计结果,1相故障119次,2相故障33次,3相故障2次。
因2相3相的故障样本过少,不利于进行SVM训练,因此重点针对1相故障录波数据进行分析。对1相故障原因的统计:对树木放电4次,雷击56次,凝冰9次,其他4次,山火8次,外力破坏13次,异物25次。
2.3.2 数据选择与抽取
故障录波数据及相关信息,包括厂站id列为厂站的编号,时间为故障录波数据的开始生成时间。录波数据中,其内容为发生故障前、后一段时间的状态检测数据,应包含了故障的全过程监测数据,列举了录波文件相关的参数。故障原因为事后确认的故障原因。
2.3.3 数据预处理与规范化
对每一个提取出的录波文件,按照统一的频率对原始信号进行插值。对于本次实验来说,设定统一的频率为5 k Hz,则其他频率的样本数据根据此频率进行降采样或插值。将某录波文件前2个步骤提取完的电压电流信号见图2。
图2 从录波中提取与挖掘相关的电压电流信号
由图2可看出,对信号的选择与抽取必要的,在减少数据冗余的同时,涵盖了与故障原因相关的故障点前后的关键特征。
2.3.4 关键特征的提取
用小波变换将原始信号分解到第5层,得到各个录波数据对应的样本。
2.3.5 按故障相别进行特征向量组合
以一个样本的特征向量生成作为例子,比如样本1的故障相别为V,经过之前步骤提出来各个电压电流的子特征向量为FUu、F Uv、F Uw、F Iu、F Iv、F Iv,最终形成的该样本对应的特征向量为<FUv,F Uw,F Uu,F Iv,F Iw,F Iu>
进行训练时,需要将样本类别进行数值化处理,建立映射表。
最终的训练样本数据集见表1。
表1 训练样本数据集
在样本集训练过程中,核函数算法的选取对故障诊断模型的准确度有很大的影响,不同的核函数可以构造实现输入空间中不同类型的非线性决策面的学习模型。常用的核函数有:
线性内核:K(x i,x j)=x i·x j
高斯径向基内核:K(x i,x j)=exp(-g‖x i·x j‖2)
多项式内核:K(x i,x j)=[(x i·x j)+1]q
S形内核:K(x i,x j)=tanh(v(x i·x j)+c)
选取不同的核函数对于不同的样本差异很大,所以核函数的选取,要通过实验进行不同核函数的性能表现见图3。
图3 不同核函数的性能表现
由实验结果可以看出,选择高斯径向基内核(Radial Basis Function)的准确率要比其他内核略好,因此对于本例实验采用高斯径向基内核进行模型训练。
2.3.6 故障原因诊断
模型训练完毕后,对一批测试数据进行诊断和验证,测试数据原始录波信息表所示,通过诊断算法将原始数据转换为模型的输入向量进行诊断,诊断结果如表2所示。可以看出,对于测试的8个样本,除了6和7号样本,其他样本的诊断结果与样本的实际所属类别是一致的。同时在6和7号样本中,样本的诊断结果与实际类别较为接近,如6号样本实际类别为“外力破坏”,诊断结果中,类别为“外力破坏”和“异物”的概率分别为18.83%和50.64%,分别为概率最大的前两位;同样7号样本实际类别为“异物”,而诊断结果中,类别为“雷电”和“异物”的概率分别为39.93%和25.98%。
表2 诊断结果
本平台对故障的分析判断是自我完成的,当发生故障后,故障录波器会将录波文件传给后台,同时平台将所有相关的数据进行汇总,通过基于SVM分类技术的故障原因模型的诊断,将诊断的结果推送给相关人员并且给出消缺建议。
通过统计这几年变电站总数的变化,可以清楚地看见变电站的数量再逐步增长,同时设备的数量也在逐年增多。检修人员素质和数量的提高速度远远赶不上变电站的增速,导致工作量的加大,由于素质高低不齐,导致处理问题的速度快慢不一。同时变电站设备越来越复杂,分析故障过于繁琐,经过多次试验,验证此平台对于检修工作起到一定积极作用。故障抢修流程中各环节用工时见表3。
通过表3可以得出,工作繁琐的步骤十分耗时,导致工作中出现很多安全问题,同时造成停电时间的增长,通过此平台可以有效的化简工作流程,使很多工作可以远方进行,减少人力物力,并且分析结束后可以第一时间得到试验报告,并且进行故障推演[3],用动画形式形成动作过程,使故障的发展过程更加直观。
变电站继电保护分析平台通过将大量历史录波数据综合分析的手段。使大量的历史数据形成能帮助运行人员理解电网状态的知识,能及时识别故障原因及采取相应的措施进行应对,甚至进行预测以便制定必要的预防措施。
表3 故障抢修各环节用时比较
基于支持向量机的方法属于有指导型的数据挖掘,适合于具有维度完备数据样本、数据特征可提取、样本类别信息已知的应用场景。此方法对缺失数据敏感,而且对非线性问题没有通用解决方案,必须谨慎选择核函数来处理。此外,其对超大规模训练样本难以实施,由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很时该矩阵的存储和计算将耗费大量的机器内存和运算时间,需要对算法进行改进。