基于大数据聚合的电力用户行为实时云监测方法

2022-12-27 13:14王笑一
计算技术与自动化 2022年4期
关键词:用电聚类阈值

朱 克,张 莉,王笑一,张 浩,李 玮

(1.国家电网有限公司营销部, 北京 100031;2.国家电网有限公司客户服务中心,天津 300300;3.北京中电普华信息技术有限公司,北京 100031)

电力行业被视为我国国民经济的支柱性基础能源行业,其占据举足轻重的地位[1]。传统电网日益繁杂,存在数据量庞大且冗余等问题,智能电网安全运行存在较大困难[2-4]。随着现代技术的发展,电力工业的发展与时代同步,国内外专家对智能电网进行了研究,部署智能采集系统采集用户用电行为信息。基于大数据技术,迫切需要通过多维数据统计、历史数据比较、电流电压过阈值判断等综合过程,实现对电力用户异常用电行为的监测[5]。

李波等[6]通过联合窃电检测方法,依据网络特征,结合粒子群算法以及支持向量机算法对窃电实现纵向检测,但其消耗成本极高且处理数据量规模有限;李晋国等[7]研究基于优化后的非线性权重优化粒子群优化算法,实现异常用电行为检测,在提升检测精度的同时,误差收敛速度较高,但其考虑因素不全面,可能导致突发情况频频发生。

为解决用户侧用电行为异常应急处理问题,采用大数据处理技术对用电数据进行采集、聚类、处理等操作,提取庞大数据量中的特征数据,从时间、空间、用户多个维度深入剖析用电行为与各因素之间的关联度,加强理解用户行为[8,9],便于更好地实现用户行为监测。由此,本文提出一种基于大数据聚合的电力用户行为实时云监测方法,实现电力用户行为的高效精准监测。

1 基于大数据聚合的电力用户行为实时云监测

1.1 云监测平台总体架构

搜集、整理电力用户行为大数据,归纳总结其中核心信息,对电力企业运营战略决策以及故障的实时排查、监测电力企业平稳运行具有重大意义。云计算优势在于其可控规模庞大,在云计算基础上,存储并计算超大规模数据集[10],提出一种基于云计算大数据聚合的电力用户行为实时云监测方法。用图1展示基于大数据聚合的电力用户行为实时云监测平台架构形式。

图1 电力用户行为实时云监测平台架构形式

该平台将基础设施、终端、安全设备等采集到的电力用户行为大数据存储至数据层的关系型数据库中,处理层调用采集层存储数据,利用大数据处理技术对数据进行降维、清晰、标准化等操作提升数据质量,应用层利用处理完成的数据采用M-BIRCH算法完成用户用电行为异常检测,最终通过显示层展现监测结果,完成电力用户行为实时云监测。

1.1.1 大数据处理

电力企业采集到的数据质量未能满足异常值检测规则,且伴随空值、数据混乱、数据差异较大等多样弊端,要进行的大数据处理步骤为一降维、二清洗、三标准化。

1.1.2 数据降维

降低数据维度,即采用较少新特征变量替代原始数据特征变量,使其内部无关联,通过新变量得到交易时的重要信息。减小数据规模、简化计算流程、清除全部噪声数据三方向为数据降维目标。通过主成分分析法完成数据降维处理[11],其步骤如下:

a.搭建数据协方差矩阵;

b.分别计算协方差矩阵的特征值以及特征变量;

c.将特征值依据其贡献度排列;

d.选取前K个特征值当作主要成分后把数据转换至新数据空间内,对其开展降维处理,且该数据空间采用新特征向量搭建完成。

1.1.3 数据清洗

及时挖掘、更改数据集内部异常数据,促使数据质量进一步提升。缺失数据、重复数据、不一致数据为数据清洗的三大类别。

a.依据数据规则对不一致数据进行偏差检测并改正。

b.对于缺失数据,可进行补齐数据、清除元组及不予处置。为最大程度保留原始数据完整性,本次采用填补缺失数据方法。图2为缺失数据填补流程图。

图2 缺失数据填补流程图

c.计算相似度并以此判定重叠与否,若重复则合并或者清除。计算距离获取相似度,即N维空间内的两点间实际距离。N维空间的距离用公式(1)描述:

(1)

1.1.4 数据标准化

各类数据源不同,其单位、量纲存在差异,为促使不同来源数据进行对比分析,对其进行数据标准化处理,清除不同单位、量纲。用公式(2)描述数据标准化:

(2)

其中:样本最大值以及最小值分别选取max、min描述。

1.2 改进流数据聚类算法

1.2.1 BIRCH算法

BIRCH作为层次聚类算法,其聚类思想采用聚类特征以及特征树(CF)概括描述,BIRCH定义:

对于簇{Xi}(i=1,2,3,…,N),其具有N个d维数据点,用公式(3)描述特征向量定义:

CF=(N,LS,SS)

(3)

聚类特征定理为:用CF1=(N1,LS1,SS1)及CF2=(N2,LS2,SS2)以及CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)分别描述两个类的聚类特征以及融合获取的新类特征。

该算法计算中心、半径以及类间距离等皆通过聚类特征完成。

层次聚类的特征位于CF树内,由两个参数分支因子B以及阈值T的高度平衡树构成CF树。其中,各非叶节点的最大个数取决于分支因子,位于树内叶子节点中的子聚类最长直径由阈值大小决定。CF树可将全部数据读入内存,也可分别读入数据项于外存上。

1.2.2 M-BIRCH算法

M-BIRCH算法基于BIRCH聚类算法获取的初次结果进行二次分析以求取更为精准的结果[12]。

用P描述电力用户行为异常概率,百分比、目前类中平均距离以及点与类内部其余点的平均距离分别用davg、dnew描述,阈值用T描述。

需先对新启的数据点进行计数,再继续处理。

当该数据点包含在原有聚类块时,BIRCH聚类算法依据设置好的阈值T,对聚类特征数值进行预运算以及校正处理,将处理结果融入到聚类块内;反之,采集该数据点目前聚类块中所有数据点的距离平均值dnew,将其与当前聚类块的距离平均值davg进行对比。

当davg乘以初始拟定的百分比P的数值大于dnew,完成聚类块中聚类特征值的校正操作后,向聚类块中融入校正结果。反之,运算后续聚类块,若不相符则搭建新聚类块[13]。基于M-BIRCH算法的云监测平台大数据聚类算法流程如下所示:

M-BIRCH-Cluster(T,dnew,davg,P),

{首先,累积数据流于滑动窗口并采用BIRCH算法对数据量进行聚类,各聚类块依据其输出结果进行分割}

For(未抵达数据流末端){

选取其中某个新数据点读入;

For(挨个计算已有聚类块){

If(T阈值≥最大直径){该数据点被吸入聚类块并改正聚类特征值}

Else{数据点及当前聚类块内全部数据点的距离平均值}

采集该聚类块的距离平均值davg,

If(davg乘以初始拟定的百分比P数值大于dnew)

{该数据点被吸入聚类块并改正聚类特征值}

Else{该数据点与下一个聚类块同步计算}

不满足上述条件,则搭建新聚类块

}}

1.3 基于M-BIRCH算法的用户用电行为异常检测

选取M-BIRCH算法提炼获取用户簇典型用点曲线,同时分别采用相似度度量三条曲线:用户每日用电数据实际量曲线、用户典型用电数据曲线以及用户所在簇典型用电曲线三条曲线,实现基于大数据聚合的电力用户行为实时云监测方法设计[14]。

1.3.1 单一用户典型曲线提取

用户用电过程中的偶然情况发生频繁,分析单一用户典型曲线可杜绝该类情况的发生,提取的曲线需要依据不同时间点的平均用电数据绘制而成。各用户曲线用公式(3)描述:

(3)

其中:用x1i、xtk描述第i个用户第t时间点平均值、第t时间点第k天的用户用点数据值,n为所选数据样本天数,N用于描述该曲线的总点数。

1.3.2 簇典型曲线提取

采用M-BIRCH算法进行聚类,分析多用户典型用电曲线,获取各个簇的聚类中心,并且各用户所属簇聚类中心为该用户簇典型曲线。

1.3.3 相似度度量

选用欧氏距离度量用户每日实时用电曲线数值x1i、典型用电曲线数值x2i之间的相似度,以此判断用户用电行为差异[15]。欧氏距离用公式(4)描述:

(4)

其中:用N描述两种负荷曲线中总数据点数。

用户单日用电实时曲线上数据值X以及该用户所在簇的簇典型用电曲线上数据值Y对比趋势上的度量为皮尔森相关系数作用,反映出用户实际用电数据曲线以及日常习惯用电趋势之间的差别,生成皮尔森相关系数:

(5)

2 实例分析

选取某市电力公司的2000名用户用电行为数据样本集,将本文方法与文献[6]方法、文献[7]方法进行对比验证,前者为基于网络特征与用户行为分析的监测方法,后者为基于NWPSO-BP神经网络的监测方法。分别从性能分析、聚类效果、监测准确性三方面开展验证。

2.1 性能分析

采取SSQ(Sum of Square Distance)方法,对其他方法与本文方法的算法应用过程进行同质化处理,计算全部点与各个聚类中心之间的距离,判断算法聚类质量高低,当SSQ数值越高,证明聚类质量越低,反之则质量越高。

将改进前后的BIRCH算法与M-BIRCH算法分别进行对比,采取同等数量、大小以及阈值子聚类对数据流进行聚类。并分别选取20000个、200000个数据点进行聚类操作,比较SSQ值与聚类质量阈值,图3为20000点下同等阈值的结果曲线图。

图3 20000点下同等阈值的结果曲线

分析图3可知,处理20000个数据点,紧密比值为0时,改进前后两种算法的SSQ值均处于最大值,分别为9.70、9.62;当紧密值为1.6时两种算法的聚类SSQ值到达最优状态,此时SSQ值分别为9.18、9.07。实验证明,本文方法应用的改进后的M-BIRCH算法的聚类质量更高。

分析图4可知,处理200000个数据点时,无论紧密比值为何值,改进后的M-BIRCH算法聚类的SSQ值均小于改进前的BIRCH算法的SSQ值。这说明数据量越大,本文方法应用的M-BIRCH算法的聚类优势越显著,聚类数据质量更高。

图4 200000点下同等阈值的结果曲线

归纳上述两组实验结果并总结规律,紧密比值趋近1.6时,本文方法应用的M-BIRCH算法达到最优状态并获得优秀的结果。当数据规模扩大时该算法性能优化性显著提升,适用于计算大数据量的数据流聚类。

2.2 聚类效果

为进一步衡量本文方法聚类性能,采用本文方法对用户用电行为数据进行聚类,并应用肘部法则判定最优聚类数量。用图5描述本文方法聚类效果。

图5 本文方法聚类效果

分析图5可知,本文方法聚类结果与肘部法则判定聚类结果一致,说明本文方法聚类准确。

提取聚类结果中各簇的簇中心,用于描述该簇的簇典型用电曲线,3类簇典型用电曲线用图6描述。

分析图6可知,本文方法可有效依据聚类获取的各簇的簇中心获取用户的典型用电曲线,用于分析用户不同时间段的用电行为。

图6 3类簇典型用电曲线

选取一定规模的训练集开展试验,欧氏距离及皮尔森相关系数度量阈值用a、b描述,分别取值为0.57和0.89,用表1描述用户行为异常检测度量阈值判断标准。

本文采用2021年6-8月数据对用户用电行为展开测试,在测试时发现MT-015用户存在异常情况,为2021年7月19日度量结果,其度量结果为0.47以及0.64。参考表1监测用户用电行为异常值,图7为描述其用户用电曲线。

根据图7分析可知,该用户在出现用电波峰时向后平移,相比平日用电情况存在较大差异,说明该用户的用电行为是异常的。实验结果表明,本文方法可以有效获取电力用户行为异常监测结果。

图7 用户用电曲线图

2.3 准确性能

采用ROC以及AUC两项指标验证本文方法监测准确性,并加以分析获得较为精准的监测结果。当ROC曲线靠近左上角时表明监测性能为佳,反之则存在偏差;ROC曲线下的面积用AUC描述,其代表一个概率,AUC数值越趋近于1则表明该方法监测性能越优秀。将三种方法进行对比验证,用图8描述三种方法监测准确性。

图8 监测准确性

根据图8分析可知,文献[7]方法表现较差,其AOC曲线距离左上角偏远,AUC面积为0.7145,整体效果最差;文献[6]方法曲线较为接近左上角,但不及本文方法优秀,其AUC面积为0.8266,略低于本文方法,监测准确性结果不佳;本文方法对电力用户行为异常情况实现快速监测,且监测结果ROC曲线最为接近左上角,其AUC面积为三种方法中的最大值,证明本文方法监测结果的准确性更好。

3 结 论

本文方法采用云计算搭建方法基本架构,基于大数据技术处理数据,采用优化后的M-BIRCH聚类算法聚

类大数据,并对电力用户用电行为异常情况进行监测。实验结果表明,本文所提方法聚类的SSQ值始终最低、聚类质量高、监测效果优秀且准确性极高,能够精准监测电力用户异常行为,达到预期目标,为电力企业平稳运行提供保障,可安心投入应用。

猜你喜欢
用电聚类阈值
用煤用电用气保障工作的通知
安全用电知识多
小波阈值去噪在深小孔钻削声发射信号处理中的应用
为生活用电加“保险”
用电安全要注意
基于自适应阈值和连通域的隧道裂缝提取
基于DBSACN聚类算法的XML文档聚类
比值遥感蚀变信息提取及阈值确定(插图)
基于高斯混合聚类的阵列干涉SAR三维成像
室内表面平均氡析出率阈值探讨