李立生, 刘 洋*, 卢文华, 张世栋, 张林利
(1.国网山东省电力公司电力科学研究院, 济南 250002; 2.国网电力科学研究院武汉南瑞有限责任公司, 武汉 430000; 3.南京南瑞集团, 南京 210000)
在电力系统向智能电网及能源互联网发展的过程中,海量的运行数据一方面促进电网的再发展,另一方面也带来了数据利用处理难题。据调查,某省配电自动化后台故障告警页面一天可刷出(20~30)万条故障告警信息,包含大量的重复、扰动、错误等故障数据。录波型故障指示器主要应用于当下配电网故障数据记录与故障诊断,当电网中元件发生故障或线路发生故障后,与该故障线路或元件相近的线路也会启动录波故障指示器,是造成更多重复数据的原因;运行老化和调试错误的故障指示器会造成干扰、抖动故障数据及错误故障数据混入正常故障数据中,加大了数据的复杂度和准确度,也是造成配电自动化后台告警窗口数据刷新频繁数据量大的主要原因。如此复杂和繁多的故障数据,运维人员短时间内无法准确定位实际的故障发生与故障类型,数据利用效率低下致使运维人员工作效率低下,如此便可能导致真实故障的恶化与扩散[1-2],严重情况下会导致电气设备损坏,大面积长时间停电,造成巨大的经济损失。因此对海量故障数据的处理和应用无疑是个亟需解决的技术问题。
针对海量故障数据智能清洗以获得关键故障数据,中外学者已开展大量研究[3-5]。其中在输电设备状态故障数据清洗方面有诸多研究与应用,文献[6-9]要研究电网输变电设备的运行状态监测数据清洗,集中于对状态数据中的噪声点、缺失数据进行清洗处理以及异常数据识别与修复,最终获取运行设备的关键状态故障数据。但文中清洗过程中对数据个体的完整性造成了一定的破坏,因此很难保证清洗效果。文献[10]针对电网中过电压故障数据运用神经网络特征提取并进行分类研究,最终识别出正确的过电压数据并对错误数据进行剔除,但文中只应用到三相中的一相数据,数据不能完整的反映故障特性,因此清洗效果还需验证。文献[1, 2, 11]对故障告警信息总体文本进行数据挖掘,匹配关键词以达到对故障数据的清洗筛选,但忽略了海量数据清洗的实质,没有从数据本身出发分析故障数据特征,清洗准确度有待验证。以上研究在故障数据清洗方面或未有效利用故障数据本身或未有效地进行故障数据清洗提取。
针对以上问题,结合神经网络及深度学习提出一种基于稀疏自编码(sparse auto-encoder, SAE)的故障数据聚类清洗方法,其原理是首先对获取的海量数据进行特征学习,提取数据中主要二维特征,其次利用聚类方法对数据进行预处理剔除干扰、抖动、错误故障数据,最终再次利用聚类方法对预处理故障数据进行聚类清洗,以实现对故障数据完全清洗与暂态故障数据库的清洁效果,便于运维人员对关键故障信息的定位与发现,提高运维人员工作效率。
SAE的模型建立启发于哺乳动物视觉系统简单细胞感受野。其每一维被看作是一种特征,同基于稠密向量的分布式表示相比稀疏编码具有更小的计算量和更好的可解释性等优点[12-13]。在文献[14-15]中稀疏自编码已被证实完全可以应用于电气量故障波形数据的特征获取。单层稀疏自编码由输入层、隐含层、输出层组成,其模型如图1所示,其中由输入层与隐含层构成“编码器”能够把高维数据降维表达至低维数据,由隐含层和输出层构成“解码器”能够将降维后的低维数据复原回原来的高维输入数据。
图1 单层自编码神经网络结构Fig.1 Structure of single-layer auto-encoder neural network
对于此单层稀疏自编码网络,用(W,b)和(W′,b′)表示编码层和解码层的权重和偏置,则编码过程为
a(1)=f(WX+b)
(1)
解码过程为
y=f[W′a(1)+b′]
(2)
式中:f为隐含层单元的激活函数,即
(3)
对于一个k层的稀疏自编码其稀疏惩罚项为
(4)
通过喂入数据使J(W,b)最小化,调节网络中各个参数可以从隐含层获得输入数据的低维特征。
主成分分析(principal component analysis, PCA)是常用于数据预处理和图像处理的一种数据降维方法,能有效从高维数据中提取到低维的数据特征并去除数据中噪声和减少特征之间的相关性[16]。其定义为:在d维向量空间{tn}(n∈{1,2,…,n})中搜寻q个正交主向量wj(j∈{1,2,…,q}),获得{tn}在wj子空间上的最大方差值[17],其主要目标是在高维数据中提取低维的线性无关主成分特征,图2为二维数据投影到一维空间中,在方差最大的方向选取其投影才能保留更多的原始数据特征信息。
图2 主成分分析Fig.2 Principal component analysis
密度峰快速搜寻聚类(clustering by fast search and find of density peaks, CFSFDP)是一种基于数据分布密度为依据进行分类的算法,处理故障数据能够自动的获取聚类簇数和聚类非球面形状数据簇,算法速度更快实现更为简单[18-19]。CFSFDP算法基于假设条件:对于数据集,聚类中心被一些较低局部密度的数据点所包围且较低的局部密度点与其他较高的局部密度点有较大的距离[20-21]。
(5)
式(5)中:dc为大于0的人为设定截止距离,通常通过所有数据点的ρi升序排列,设置相邻点平均百分数来间接控制其大小。如当有M个数据点时,设置不同的P值可得截止距离为第M×P/100个数据点的值。
xi与比其局部密度更高的数据组的距离为
(6)
在聚类过程中对应局部密度ρi较大,δi较大的数据组为各类簇中心,其余的数据组根据自身的ρi,xi归类于各个类簇中心所表示的类簇,再或者由于dc的设置原因,造成其余数组在各类簇中存在交叠点,存在的交叠点则不为类簇的核元素[22]。
暂态录波故障数据清洗方法逻辑结构图如图3所示。整个系统主要由3部分组成。
图3 故障数据清洗方法Fig.3 Failure data cleaning method
第一部分,故障特征提取,针对海量故障录波数据用稀疏自编码神经网络进行特征提取,之后再使用PCA对稀疏特征进行降维提取,从而实现录波故障数据的特征二维表达。需要注意的是导入网络的故障数据应包括干扰、抖动、错误、高频次扰动等故障数据波形,用来训练神经网络的参数以达到对故障数据特征有效的获取[23]。
第二部分,故障数据预处理,对于第一部分提取的二维特征进行CFSFDP分析,找出数据点ρi非常小且远离其他主类簇的离散数据,由于这些离散数据点有很大可能是单频次异常干扰、抖动或者是错误故障数据,在混入真实故障数据后影响清洗效果,故需要对此类数据在进行完全聚类清洗之前进行异常数据预处理。
第三部分,故障数据清洗,在第二部的基础上再次使用CFSFDP对预处理数据进行聚类分析,对于各个类簇实施类簇中心数据识别,确定各类属性。如果聚类中心所表达的故障类型是高频次扰动、错误等无效故障数据,则立即进行隔离清洗。对其余正确故障波形数据进行类簇中心代表数据提取作为推送数据,以达到对重复数据的剔除。继而完成整个清洗过程,提高了海量数据中故障数据及故障属性的识别率,提高了获取主要、准确告警信息的效率。
本文模型训练验证所用数据为山东省各市县2019年部分录波故障数据,其中包含了大量的接地故障数据和一定量的干扰、抖动、无效数据。经过筛选,取得1 500条故障数据,其中包括320条干扰、抖动、错误故障数据如图4所示,部分真实故障数据如图5所示。
其中每一组训练数据由故障点A、B、C三相电压组成,获取故障时刻三条线路电压同时变化特征。在电网运行过程中不同类型的故障数据统一涌来,真实故障数据与错误无效故障数据鱼目混杂,故有必要对此故障数据进行数据清洗。
故障波形数据由故障时刻三相电压拼接组成,由于故障指示器记录故障时刻前4后8个周期波形,且往往在故障点左右3个周期便可有效反映故障特征,故取每一相电压波形故障点时刻前1.5周期和故障点后1.5个周期,共256个数据,即每组数据为3×256维矩阵。经过稀疏自编码降维压缩后映射为2维数据,以用于实现后文聚类清洗。图6为网络设置为一个3层稀疏自编码器进行特征降维后的数据可视化,其中输入层神经元为768维,隐含层设置为2维,输出为768维。喂入数据进行训练,调节参数,提取隐含层数据为故障2维特征表达。
图7所示为在三层稀疏自编码神经网络降维的基础上加上PCA特征降维,即设置输入层为768维,隐含层50维,PCA获取50维数据后再降至2维主成分数据。比较图6、图7有明显发现,稀疏自编码直接降至2维后错误、无效波形数据与真实故障数据分离不明显,离散程度较低,而加入PCA降维后的2维特征数据中错误、无效波形数据与真实故障数据分离较为明显,离散度较高。
x、y为提取的第一、二特征量图7 2维PCA特征提取Fig.7 2-D PCA feature extraction
造成图6与图7的差别在于把故障数据由768维直接降至2维会导致波形的特征信息损失较大,特征差别提取不明显故可视化效果较差。而图7首先把768维数据降至50维保留了更多的关键信息,而后用PCA在50维数据进行降维提取主成分能更好地保留数据特征,实现关键信息可视化。由此可见加入PCA的网络对特征提取的效果更佳。
针对稀疏自编码和PCA对特征的降维提取后,利用CFSFDP进行对特征值进行数据预清洗,由于CFSFDP中截断距离的设置对聚类效果有很大影响,当截断距离dc设置为P=1时,计算各特征对应的ρi和δi,对ρi和δi和进行可视化如图8所示,当ρi<0.2时有部分特征数据有较高的δi,即此类特征点为离散数据点,为错误、扰动的可能较极大,故应给予剔除隔离,实现对故障数据的初步预清洗。
图8 数据点ρi、δi分布Fig.8 The ρi,δi distribution of the data point
对预清洗后的数据进行CFSFDP再次聚类效果如图9(a),如表1中P=1时所示为图9(a)对应的核元素聚类描述,其中可见类簇1和类簇3存在交叠点,这是由于相关参数dc的设置对聚类效果的影响,获取各类簇中心代表点可知类簇2中心为错误无效特征,故由于类簇相似性可知类簇2为错误无效故障波形。应给予类簇2隔离实现聚类清洗的效果。
当设置截断距离dc设置为P=0.5时,减小截断距离后重新聚类,类簇1和类簇3的交叠点消失,得到新的各类簇如图9(b)所示,表1中P=0.5时为图9(b)聚类结果表述。同样类簇2为错误无效波形数据需要进行隔离清洗。
表1 CFSFDP聚类结果
其中可以通过计算正确清洗率和错误清洗率来衡量模型聚类效果,通过计算当截断距离dc设置为P=1和P=0.5时聚类效果如表2所示。
表2 CFSFDP聚类清洗结果统计表
即通过调节截断距离,可以更好地获取聚类模型,当截断距离dc设置为P=1时,模型正确清洗高达92.50%但其错误清洗率也较高,损失了一部分正确波形。当截断距离dc设置为P=0.5时,可知模型正确波形损失较少即错误清洗率较低为0.93%,但错误识别率降低了约5%。
x、y为提取的第一、二特征量图9 聚类结果示图Fig.9 Clustering results
显然通过调节截断距离可以使模型达到更好的聚类效果,故有必要研究截断距离对聚类效果的影响,当截断距离dc设置从P=0.1到P=3.2变化过程,各类簇聚类效果如图10所示。
图10 P对聚类结果的影响Fig.10 Influence of P on clustering results
根据dc对聚类结果的影响可知当dc设置较大时将造成各类簇间出现交叠点,从而影响聚类效果。根据本文研究设置截止距离相邻点平均百分数P=0.4至P=1之间最为合适,可以得到较高的正确清洗率即可以有效地去除故障数据中的错误故障数据。以保证暂态故障数据库的清洁。
目前针对暂态故障数据清洗方法有基于故障数据告警文本清洗方法[1]或基于波形文件规范逻辑的暂态故障数据[24]清洗方法。就基于波形文件规范逻辑清洗方法,在其清洗实验中验证正确清洗率虽然也在90%以上,但实验条件苛刻无法验证实测电网数据清洗效果以及对重复故障数据无法给予剔除。对本文中320条错误、干扰实测故障波形采用上述逻辑方法进行清洗测试。按照其方法分四步对数据文件进行合格波形筛选,第一步为判定每个文件夹下是否有成对的cfg与dat文件;第二步为判定是否每相波形数据采样周期数不小于12个,周期采样点不小于80个;第三步判定每相电流有效值是否均小于设定阈值;第四步判定波形突变点是否在录波起始点前一周期内。如果满足以上4个条件则判定为合格波形。根据现场实测数据电流普遍较大设置测试电流阈值范围为2~16 A,计算并累计每步清洗后剔除的波形数据量,最终确定320条错误数据是否全部剔除。图11为每层逻辑清洗剔除的波形数据量。
图11 逻辑清洗波形剔除量图Fig.11 Logical cleaning waveform elimination Figure
当电流阈值设置为较小时即2 A,第三步剔除波形数量为172条,总剔除量为236条,总未成功剔除量为74条,计算其正确清洗率约为74%,实测数据清洗效果较差。且随着电流阈值设置增大时,总波形剔除量减小,逻辑清洗效果加剧变差。因此本文不失为一种更高效暂态故障数据清洗方法,切实从故障数据本身质量特征出发,故障清洗准确度、可信度更高。
通过从电网总体故障数据中利用稀疏自编码和PCA降维进行特征学习,然后利用CFSFDP对二维特征进行聚类,实现对故障数据的高效聚类清洗。适当的调节网络参数,在正确清洗率达到87.18%,错误清洗率低于1%的情况下,对故障数据进行聚类清洗和代表数据点提取推送,能有效地从海量的故障数据中提取出真实准确的故障信息,剔除错误、无效的干扰数据,为智能告警提供优质的故障信息,同时从根本上解决了配电告警平台频繁刷屏的问题。