张海林 李琳 夏传良
摘要:分析几种主要线损计算方法优缺点及线损分析中数据挖掘算法应用,提出基于线损时域特征指标和改进K-means算法的馈线线损计算方法。充分利用线损信号中的时域信息,获取线损信号中的平均线损率、线损率变异系数、线损率变化趋势等表征线损信号的非平稳特征。使用该算法对区域889条馈线线损进行计算分析,取轮廓系数最大时对应的k值进行聚类分析,经过65次迭代得到8个聚类结果,其中第7类平均线损率高达33.5%,第5类线损率为17.8%,但线损率变化趋势达308。可以进一步对该类馈线上的用电客户负荷曲线进行跟踪分析,确定是否存在窃漏电行为。
关键词:馈线线损;改进K-means算法;聚类分析;轮廓系数
DOI:10.11907/rjd k.192203
中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2019)012-0022-04
0引言
用电信息采集系统可以为区域电网提供线损分析所需各类计量点电能量数据,为实现配网线损异常分析打下基础。目前,利用数据挖掘技术分析线损特征的分析方法有:RBF神经网络、Kohonen聚类、随机森林算法、遗传算法优化的BP神经网络、粒子群聚类、基于断面的聚类等。
K-means聚类是一种无监督学习方法,在解决小样本问题时有独特优势。文献[7]提出了以距离为准则进行海洋异常数据判断的检测算法;文献[8]、文献[9]采用K-means算法没有解决局部寻优问题;文献[10]利用改进的K-means算法处理了聚类中心移动规则问题,但没有解决k值任选问题;文献[11]没有解决k值任选问题;文献[12]确定每一轮迭代的聚类中心时都对评价指标Pe进行排序,算法时间复杂性增加;文献[13]探讨了电网线损统计数据的质量控制方法,建立统一的线损信息管理系统数据平台,利用数据验证,可追溯数据校正等方法,建立网格线损数据的控制机制;文献[14]提出了一种基于馈线群集技术和改进XGBoost算法的配电馈线线损估计方法,该算法基于智能配电并利用系统中采集的馈线特征数据;文献[15]提出了一种基于梯度增强决策树(GBDT)的方法预测线损率。
本文基于线损时域特征参数和改进的K-means聚类算法,引入轮廓系数评价指标,选取轮廓系数最大时对应的k值对数据空间进行聚类分析以解决局部寻优问题,且优化了变形误差AD的计算方法。改进后的算法充分利用线损信号中的时域信息,提取线损信号的线损率变化趋势、线损率变异系数、平均线损率等参数表征线损信号的非平稳特征,用于识别线损异常和评价线损正常特征,为用电检查和线损管理提供数据支撑。
1线损时域特征分析
1.1线损时域特征指标
线损率由用电信息采集系统提供的线损电量计算得出。线损电量包括从发电厂主变压器一侧至用户电能表上的所有电能损失,线损电量不能直接计量,可以用抄表电量与实际售电量相减计算得到。线损率高就代表线路电量损耗较大,具有降损空间。对一段时间序列的线损率作算术平均,就能获得某线路上的每日平均线损率。线损率计算公式为:
式中,LLR表示线损率,Em表示抄表电量,Es表示实际售电量。
为便于用户窃漏电评价,运用线损特征分析对馈线、台变、电表进行分析。这3方面的分析方法原理相同,本文以馈线线损为例进行线损计算,下面的线损均指馈线线损。
线损分析基础数据记录中包含有原始数据信息、线损率信息、时间变化信息等。通过对原始线损数据进行计算可得到线损率均值、线损率异动系数、线损率异动趋势3个指标。
(1)线损率均值。代表线损率的平均水平,其计算如下:
通过表1中的相关系数,可见线损指标之间的相关系数绝对值都不大,相关性也不大,可从不同侧面描述用户线损特征,因此这3个指标可同时用于对线损指标的聚类分析。
2改进K-means聚类算法
2.1K-means聚类算法思想
K-means算法也称K-平均值算法,是一种典型的聚类分析方法,通常要先选取聚类的k值,然后将输入分为集合s1,...sk并使得每个数据到其所在聚类均值的距离平方之和最小。
K-means算法流程如下:①首先从数据空间中选k个数据点为初始聚类均值;②计算每个数据点到这些聚类均值的距离,然后将各数据点分配给离它最近的那个聚类;③若所有数据点不再被重新分配,則停止并保持现有聚类;③如果仍有数据点被重新分配,则重新计算均值,并返回步骤②。
该算法的第一步是随机选择任意k个数据点作为初始聚类中心,容易陷入局部最优值,导致分类误差,因此本文提出改进的K-means算法。
2.2K-means聚类算法改进
2.2.1最优k值选择
验证聚类结果的方法包括分析、实验、评价和举例,本文利用轮廓系数作为线损时域特征聚类的评价指标,以解决k值的随机选择问题,经过计算聚类结果的总轮廓系数st选择最优k值。作为聚类效果好坏的一种评价指标,聚类结果总的轮廓系数越大,则聚类效果越好。对于任意一个样本点i,计算方法如式(6)所示。
2.2.2变形误差衡量优化
本文改进的K-means聚类算法是将局部聚类中心移动至更有利于分类的位置,以解决传统K-means聚类算法容易陷人的局部最优问题。
改进方法为:按照轮廓系数确定最优k值,取样本中的k个对象作为初始聚类中心;将数据空间中每个对象分配给距离其最近的聚类,并且重新计算更换区别度大的聚类中心;再依照新的聚类中心重新聚类,重新评估是否应该更换聚类中心。
更换聚类中心容易引起变形误差,变形误差的衡量方法是:n个样本构成一个欧式空间,可以计算某个聚类里某个对象x;与欧式空间中心Xo的距离d(Xi,Xo),也可计算聚类中心Ф到欧式空间中心Xo的距离d(Ф,xo)。如果在同一聚类中,则变更聚类中心为聚类中其它对象,更换聚类中心Ф点引起的变形误差公式是:
△D<0代表聚类中心移动可使聚类整体的变形误差减小。AD绝对值越大,则聚类中心越容易将聚类从整体区分出来。
为准确变更聚类中心,可以描述为:某聚类中如果更换其中至少一个对象作为新聚类中心能使变形误差AD<0,则选其中AD绝对值最大的一个作为新聚类中心;否则保持聚类中心不变。
改进K-means聚类算法执行步骤如下:①用最大轮廓系数确定最优k值,选k个对象为初始聚类中心;②将样本空间中每个对象分配给距离其最近的聚类,且重新计算聚类中心;③若聚类中的对象不再被重新分配,则保持现有聚类,然后转到步骤④;④根据上述依据变形误差AD的聚类中心移动规则,若一个聚类中心移到更好位置可减小整体变形误差和,则将它移到更好位置,然后转到步骤②。
3线损计算分析过程
3.1样本数据预处理
样本数据预处理主要包括异常值处理、缺失值处理、数据指标计算、数据分组排序等。缺失值处理:原始测量数据可能有缺失现象,此时入电量或出电量都是0,这可能是由于电表损坏或测量误差所致,为了保证线损计算数据的有效性,这类观测数据需要剔除。
本文异常值判别采用格拉布斯准则的统计方法进行筛选,剔除不合格数据。其判别原理是在给定包含概率p=0.99或p=0.95,也即显著性水平为a=1-p=0.01或a=0.05时,满足式(9),即可判定为异常值。
3.2线损计算流程
首先经过用电信息采集系统采集测量数据,然后对采集数据进行线损特征提取,最后依据数据特征指标进行聚类分析,并对用户进行窃漏电评价。具体步骤如下:
(1)读取线损数据。抽调一段时间、指定范围内的馈线线损相关数据作为研究对象。
(2)线损数据预处理。采用上文方法,对参数不一致、不完整的数据进行纠正和整理。
(3)生成线损数据集。每个数据对象包括线损对象编号、起始时间、结束时间、统计抄表电量、出售电量和线损率信息等。每回观测的起始时间与结束时间相隔1天,将数据按对象编号分组,形成初始数据集,每条数据都是一个对象。
(4)线损时域特征提取。采用上文式(2)一式(4)计算反映线损时域特征指标的线损率异动系数,线损率均值和线损率异动趋势。
(5)计算轮廓系数,确定K-means聚类算法的最优k值。
(6)对线损时域特征指标聚类分群。采用改进的K-means聚类算法对特征指标数据空间进行聚类,获得聚类结果。
(7)疑似窃漏电分析。
改进K-means算法的线损计算流程如图1所示。
4线损计算算例
本文所用线损数据源自用电信息采集系统2017年7月50条线路相关数据,包括线路编号、起止时间、抄表电量、出售电量和线损率等相关信息,形成初始数据集。
本文使用某大型供电企业所辖889条馈线作为样本,对本文设计的线损计算方法进行计算。由于样本量巨大,不详细列出全部样本的全部数据,部分数据如表1所示。
由原始数据可以看出,如果平均线损率小于20%,表示该线损率正常;平均线损率大于20%或小于0时,则该线损率不正常,需进一步分析。
线损率均值、线损率异动系数和线损率异动趋势3个指标共有8种组合方式,分别为k取值2、3、4、5、6、7、8時对数据集进行聚类,根据式(6)、式(7)计算聚类结果的总轮廓系数,如表2所示。
由表2可以看出,当k取8时聚类结果总的轮廓系数最大,因此基于改进K-means聚类算法对数据空间进行聚类分群时,对k选值8进行聚类分析,经过65次迭代,获得8个聚类结果,如表3所示。
从聚类分析结果可以看出,对于聚类7平均线损率高达33.5%,该聚类群窃漏电嫌疑较大;聚类5类也非常特别,群内线损率为17.8%,但线损率异动趋势高达308,这很可能是由于窃漏电具有时间性所致。
5结语
本文以区域用电信息采集系统数据为基础,以馈线为研究对象,采用数据挖掘技术,在线损计算分析中引入K-means算法,提出了一种改进K-means聚类的线损分析算法,以解决常规K-means算法容易陷入局部最优问题;同时进行了更准确的线损率异动系数、线损率均值和线损率异动趋势等线损时域特征指标分析,为窃漏电分析提供数据支撑,从而确保客户合理守法用电。在窃漏电分析上还有继续研究空间,可根据聚类结果进一步分析馈线上哪类客户、哪个客户存在窃漏电行为。另外,线损预测也是下一步研究重点。