基于数据挖掘技术的电价执行在线稽查模型

2016-03-01 05:44林幕群彭显刚林利祥郑伟钦
广东电力 2016年1期
关键词:营销稽查聚类分析数据挖掘

林幕群,彭显刚,林利祥,郑伟钦

(1. 广东电网有限责任公司汕头供电局,广东 汕头515041;2. 广东工业大学 自动化学院,广东 广州510006)



基于数据挖掘技术的电价执行在线稽查模型

林幕群1,2,彭显刚2,林利祥2,郑伟钦2

(1. 广东电网有限责任公司汕头供电局,广东 汕头515041;2. 广东工业大学 自动化学院,广东 广州510006)

摘要:针对目前供电企业营销稽查主要依靠人工巡检等被动方法而无法及时发现电价执行异常用户的现状,构建了基于数据挖掘技术的电价执行在线稽查模型。该模型以计量营销等海量用电数据为研究对象,首先利用K-means聚类算法构建典型用电轨迹模块,用以识别客户的典型用电模式;其次,利用马氏距离判别算法构建电价异常辨别模块,用以辨别电价执行异常用户;模型的输出为电价执行异常嫌疑用户,可为电力稽查人员提供稽查的范围及依据。利用该方法对中国南方某区域电网进行电价执行营销稽查,结果表明其能快速诊断电价执行异常用户,具有良好的实用性和可行性。下一步的研究重点是采用分布式计算方法来提高计算速度,以及通过调整判别阈值、增加异常判别方法来进行辅助稽查。

关键词:营销稽查;电价执行;数据挖掘;聚类分析;判别分析

根据中国现行的电价制度,不同行业实施的电价有所不同,因此有必要保证电价执行正确、到位,规范电价秩序,维护供用电双方的经济利益。然而,根据现实用电检查和用电数据分析,发现某地区电网的用电量呈增长态势,但总体平均售电单价却有逐年逐月下降的趋势。经调查分析,出现这种异常现象的主要原因是部分企业没有正确执行电价政策,如普通工业用电执行稻田排灌电价、大工业用电执行非工业电价等。电价执行异常行为不仅给供电企业造成了电费损失,也扰乱了正常的电价秩序,因此亟需研究有效的整治手段,及时发现电价执行异常客户并予以纠正,以确保电价政策得到正确执行,维护正常的电价秩序。

传统的电价营销稽查主要依靠定期巡检、随机抽样等方法[1],工作方式被动且稽查目标很不明确,无法及时发现并取缔电价执行异常用户。随着智能电网和电力大数据的发展,国内外电力企业的信息化建设不断加快。在中国,中国南方电网有限责任公司部署建设 “6+1”(资产管理系统、营销管理系统、人力资源管理系统、财务管理系统、协同办公系统、综合管理系统以及决策支持)信息集成平台,国家电网公司提出了构建 “一型五化”(客户导向型、业务集约化、管理专业化、机构扁平化、管控实时化、服务协同化)大营销体系[2]。海量电力信息的集成共享与数据挖掘(data mining,DM)技术的发展,无疑给电价执行稽查提供了新的思路,使电价稽查工作由传统大海捞针式的核查转化为在线智能稽查。通过研究、开发基于DM技术的电价执行稽查模型,深入挖掘及分析计量营销大数据,可以有效地提高电力营销稽查的效率,减少供电企业的损失,是适应电力系统大数据发展的需求和实践的。

林幕群,等:基于数据挖掘技术的电价执行在线稽查模型针对以上需求,本文提出了一种基于DM技术的电价执行稽查模型,用以快速地在线定位电价执行异常用户。稽查模型以海量计量营销数据为研究对象,首先利用K-means聚类算法构建典型用电轨迹模块,训练得到代表典型用电模式的用电轨迹聚类中心;其次,利用基于马氏距离的判别分析算法构建电价异常辨别模块,用于识别电价执行异常嫌疑用户。模型的输出为电价执行异常嫌疑用户,可为电力稽查人员提供稽查的范围及依据。

1基于DM技术的电价执行稽查模型

基于DM技术的电价执行稽查模型主要由数据预处理(data preprocessing,DP)模块、典型用电轨迹聚类分析模块和异常辨别模块3部分组成,其构建流程如图1所示。

图1 电价执行稽查模型构建流程

1.1DP模块

电力大数据下的海量数据难以避免存在一些缺失,如噪声、冗余等问题。根据垃圾输入导致垃圾输出的原理,数据的缺陷会对DM结果产生严重的影响,如造成数据质量不高、决策制定失败等,因此必须对数据进行合理的预处理。据相关统计,知识发现中的DP工作量约占整个知识发现工作量的60%[3],可见DP工作的重要性。DP主要包括数据选择、数据清洗和数据变换等。

1.1.1数据选择

数据选择主要从相关信息系统选取与事务处理有关的数据信息,包括数据属性选择和数据提取。本文稽查模型主要从营销系统中提取用户名、用户编号、计量点编号、行业类别、变压器容量、用电量等客户信息,从计量自动化系统中提取用户1天24 h的负荷量、1年12个月的月电量等用电数据。

1.1.2数据清理

数据清理主要包括数据缺失值处理和去噪平滑处理等。

1.1.2.1缺失值处理

本文采用三次样条插值法处理用电数据中的缺失值。该方法是在已有基准数据可靠的前提下,通过构造多项式平滑地估算基准数据之间其他点的函数值,具有计算简便、数值稳定性好和插值曲线光滑性高的优点[4]。

设函数f(x)=y在区间[a,b]上有n+1个等距采样点,且在采样点xi上的值为Pi(xi,yi)(i=0,1,…,n)。若函数S(x)满足S(xi)=yi,S″(x)在区间[a,b]上连续可导,S(x)在每个子区间[xi,xi+1]上为三次多项式,则称S(x)为函数f(x)在区间[a,b]上的三次样条插值函数。

记f(x)在x=xi处的一阶导数f′(xi)=mi、二阶导数f″(xi)=Mi,每个小区间[xi-1,xi]上,f(x)都是二阶连续可导的,则有

其中

hi=xi-xi-1.

对f″(xi)进行二次积分,得到三次样条表达式:

(1)

利用式(1)可计算出每一尺度上的构造函数,从而求得插补值,实现填补缺失的目的。

1.1.2.2噪声处理

客户用电数据中往往存在噪声,导致用电负荷曲线不平滑,影响DM的效果,故需要对噪声进行适当的预处理。现实中多数噪声可以近似为高斯分布的白噪声,因此本文采用高斯滤波的方法对客户用电轨迹曲线的原始数据进行去噪平滑处理。

高斯滤波法利用高斯核函数选择权值,对负荷曲线进行平滑滤波。高斯核函数

式中σ为高斯核函数的宽度参数。

1.1.3数据变换

数据变换的目的是将数据转换或统一成适合于DM的形式,本文主要对数据进行规范化处理,其目的在于使不同客户的用电数据在数据矩阵中具有相同的地位,以防止具有较大初始值域的属性与具有较小初始值域的属性相比权重过大。设Zmax和Zmin分别为属性向量Z的最小值和最大值,可将Z值规范化到区间[Z1,Z2],即

1.2典型用电轨迹聚类分析模块

常用的聚类方法有:划分聚类方法,包括 K-means和K-medoids等算法;层次聚类方法,可分为凝聚算法和分裂算法;密度聚类算法,主要包括基于密度聚类算法(density-based spatial clustering of application with noise,DBSCAN)、基于密度排序聚类算法(ordering points to identify the clustering structure,OPTICS)和基于核密度函数聚类算法(density-based clustering,DENCLUE);基于网格的方法,如基于网格的多分辨率聚类算法(statistical information grid,STING);基于模型的自组织神经网络算法(self-organizing feature map, SOM)等。其中,K-means聚类分析法是目前应用最为广泛的一种算法,由McQueen于1967年提出,具有原理简单、计算快速的优点,尤其对于数值属性的数据,能较好地体现聚类在几何和统计学上的意义[5]。

本文采用 K-means 算法对典型用电轨迹进行聚类识别,使每一类的用电轨迹特征都是聚合的,且类与类之间能很好地区别开来。K-means 算法的基本思想是将大量高维数据以k为参数,根据数据特征划分为k簇,以使聚类簇内具有较高的相似度,而簇与簇之间相似度较低,最后提取聚类簇的中心作为该簇内对象的代表。其具体计算方法如下:

a)在客户用电轨迹的数据空间中,聚类的对象为客户24 h的电量或12个月用电量数据。随机选取k个对象作为k簇的初始平均值(或簇中心),由此初步确定分类簇中心的数量和初始分布状态。

b)计算剩余的用电客户样本与各簇中心的距离,并按照距离最近原则,将对象分配给相应的簇中心。计算聚类对象间距时,采用欧氏距离作为度量指标。第i个用电客户样本与第j个簇中心的欧氏距离

式中:di为第i个用电客户样本的电量数据,di=[di1,di2,…,dic,…,diT],T为用电数据的时间维度,在本文的稽查模型中,T可选为12或24;bj为第j个簇中心的电量数据,j∈[1,k];di,c为第i个用电客户样本的第c个电量数据;bj,c为第j个簇中心的第c个电量数据。

c)重新计算每个簇的平均值,作为新的聚类簇中心。

d)重复进行步骤b)和步骤c),直至k个簇中心不再发生变化或平方误差准则函数收敛。平方误差准则函数可表示为

1.3异常辨别模块

判别分析方法是多元统计分析方法的一个分支,它是在已知研究对象分类的基础上,依据样本的数据特征建立判别函数,然后用判别函数确定研究对象属于哪一类[6]。其中,马氏距离判别法是一种有效的计算样本集间相似度的方法,具有考虑特征量间的相关性且不受特征量尺度影响的优点[7]。本文采用马氏距离判别算法辨别待稽查样本与典型用电轨迹之间的相似度,若待查样本与某典型用电轨迹的马氏距离小于设定阈值,则判定其属于该类电价类型;反之,若待查样本与各类典型用电轨迹的马氏距离均大于设定阈值,说明其用电行为与同类别正常用户相差较大,怀疑为电价执行异常用户。

(2)

假设有两类典型用电轨迹D1和D2,其数学期望分别为μ1、μ2,协方差分别为Σ1、Σ2,分布分别为F1(μ1,Σ1)和F2(μ2,Σ2),当需要判断X属于哪种类型时,可以通过计算X到两个类中心的距离D(X,D1)和D(X,D2)来判别。

X到D1和D2的马氏距离平方差

d2(x-μ1)-d2(x-μ2)=-2W(x),

(3)

式中W(x)为距离判别函数。

由式(2)、式(3)可求得上述判别问题的判别函数

显然,在P维平面上,W(x)=0把P维空间分为两部分,由此可得到马氏距离下的判别规则为:

式中G1、G2分别为P维空间中第1类和第2类样本集合。

因此,当求得判别函数W(x)≥0时,可判别样本X属于D1类,否则属于D2类。

2实例分析

2.1样本数据提取

从某供电局计量自动化系统和营销系统中提取2013年1月至2014年12月稻田排灌客户的月电量数据进行建模分析,其中,选取2013年1—12月3 518户电价正常客户的数据进行建模,提取2014年1—12月电价正常客户1 400户和已确认异常客户60户的用电数据用于模型验证。表1列出了模型构建、模型验证的数据样本信息。

表1数据样本信息

样本用途时间范围用电客户数量用电数据数量模型构建2013-01-01—2013-12-31351842216模型验证2014-01-01—2014-12-31146024000

2.2样本DP

采用三次样条插值法对缺失值进行填补,采用高斯滤波法对异常值进行平滑处理。DP前后的样本信息见表2。

表2DP前后样本信息

样本用途客户数DP前DP后用电数据量DP前DP后聚类分析351826884221632256判别分析200013372400016044

2.3典型用电轨迹聚类结果

将DP后的2 688户用电客户的月电量数据输入典型用电轨迹聚类模块中进行聚类分析,聚类后模型将所有用户分为6类,各类典型用电轨迹的聚类簇如图2所示。

图2 典型用电轨迹聚类结果

2.4电价异常辨别结果分析

将DP后的2014年1 337户用电客户的用电数据输入异常辨别模块进行判别验证,判别稽查的结果:实际电价异常用户数60,模型诊断异常用户数102(其中实际异常匹配用户数55,不匹配用户数47),电价诊断异常查出率91.67%。由此可看出,异常嫌疑用户数为102,其中47户为模型误判或实际异常但未被查出,可以通过现场核查加以证实。总体而言,智能稽查模型具有较高的诊断精度,能为营销工作人员提供稽查的范围和依据,从而有效提高电力营销稽查工作的效率。

3结束语

本文针对目前供电企业营销稽查主要依靠人工定期巡检等被动方法,无法及时发现并取缔电价执行异常用户的现状,提出了基于聚类分析算法和距离判别算法的电价执行在线稽查模型。该模型利用DM技术对计量自动化、营销等相关信息系统的海量数据进行深入挖掘与分析,以提高电价执行规范在线稽查的针对性、准确性和工作效率。实测结果证明,该稽查模型对电价异常客户具有较高的识别率,能够为供电企业电价执行稽查提供高效、智能的技术手段,具有广阔的应用前景和推广价值。

在本文研究的基础上,下一步可以通过调整判别阈值或增加其他异常判别方法加以辅助稽查,以进一步提升稽查模型的准确性;同时,为了适应未来更大量的DM分析,可以研究采用分布式计算方法来提高计算速度。

参考文献:

[1] 刘小渊, 庄华松. 电力营销稽查管理中存在的问题及策略探究[J]. 中国高新技术企业,2014(31): 162-163.

LIU Xiaoyuan, ZHUANG Huasong. Existing Problems in Electric Power Marketing Inspection and Management and Strategy Discussion [J]. China High Technolgy Enterprises, 2014(31): 162-163.

[2] 许其国. “一型五化”构建大营销[J]. 中国电力企业管理,2014 (8): 63-64.

[3] HAN J, KAMBER M, PEI J. Data Mining: Concepts and Techniques[M]. Leiden:Elsevier, 2012:703.

[4] 赵鸿图, 刘云. 基于三次样条插值的小波模极大值去噪算法[J]. 计算机工程与设计,2014,35(8): 2965-2968.

ZHAO Hongtu,LIU Yun. Denoising Algorithm of Wavelet Modulus Maximum Based on Cubic Spline Interpolation[J]. Computer Engineering and Design,2014,35(8):2965-2968.

[5] 周翔, 王丰华, 傅坚, 等. 基于混沌理论和K-means聚类的有载分接开关机械状态监测[J]. 中国电机工程学报,2015,35(6): 1541-1548.

ZHOU Xiang,WANG Fenghua,FU Jian,et al. Mechanical Condition Monitoring of On-load Tap Changers Based on Chaos Theory and K-means Clustering Method[J]. Proceedings of the CSEE,2015,35(6):1541-1548.

[6] 朱乾龙, 韩平平, 丁明, 等. 基于聚类-判别分析的风电场概率等值建模研究[J]. 中国电机工程学报,2014,34(28): 4770-4780.

ZHU Qianlong,HAN Pingping,DING Ming,et al. Probabilistic Equivalent Model for Wind Farms Based on Clustering-discriminant Analysis[J].Proceedings of the CSEE,2014,34(28):4770-4780.

[7] 肖先勇, 崔灿, 汪洋, 等. 电压暂降分类特征可比性、相关性及马氏距离分类法[J]. 中国电机工程学报,2015,35(6):1299-1305.

XIAO Xianyong,CUI Can,WANG Yang,et al. Comparability and Relevance of Voltage Sag Classifying Features and Classification Methods Based on Mahalanobis Distance[J]. Proceedings of the CSEE,2015,35(6):1299-1305.

林幕群(1980),女,广东汕头人。工程师,工程硕士,主要从事电力营销稽查、电力营销信息化工作。

彭显刚(1964),男,湖北武汉人。副教授,工学硕士,主要研究方向为电力系统优化运行与控制、营销与配电信息化等。

林利祥(1990),男,广东揭阳人。在读硕士研究生,主要研究方向为电力系统运行分析与控制、电力数据挖掘及应用。

(编辑李丽娟)

Online Inspection Model for Electricity Price Implementation Based on Data

Mining Technology

LIN Muqun1,2, PENG Xiangang2, LIN Lixiang2, ZHENG Weiqin2

(1. Shantou Power Supply Bureau of Guangdong Power Grid Co., Ltd., Shantou, Guangdong 515041, China; 2. School of Automation, Guangdong University of Technology, Guangzhou, Guangdong 510006, China)

Abstract:In allusion to the situation that marketing inspection of power supply enterprises mostly depends on some passive methods such as manual inspection, which may cause a problem of being unable to discover abnormal electricity price implementation customers, this paper introduces construction of online inspection model for electricity price implementation based on data mining technology. Taking mass power data such as measurement marketing as research objects, this model firstly uses K-means clustering algorithm to construct electricity tracking module for identifying typical electricity mode. Secondly, it uses Mahalanobis distance discriminant analysis algorithm to establish abnormal electricity price distinguish module for identifying abnormal electricity price implementation customers. Outputs of the model are regarded as suspected abnormal customers, which may provide inspection range and basis for power inspectors. This method is used for marketing inspection on electricity price implementation in some Chinese southern region and results indicate that it is able to rapidly diagnose abnormal electricity price implementation customers which means good practicability and feasibility of this method. Next research key points are using distributed computing methods to improve computing speed and carry on assistant inspection by using adjusting distinguishing thresholds and increasing distinguishing method for identifying abnormalities.

Key words:marketing inspection; electricity price implementation; data mining; clustering analysis; discriminant analysis

作者简介:

中图分类号:F407.61

文献标志码:B

文章编号:1007-290X(2016)01-0108-05

doi:10.3969/j.issn.1007-290X.2016.01.021

基金项目:中国南方电网有限责任公司科技项目(K-GD2014-0609)

收稿日期:2015-06-12修回日期:2015-09-23

猜你喜欢
营销稽查聚类分析数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
营销稽查对降低电力营销风险的作用分析
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究
一种基于Hadoop的大数据挖掘云服务及应用
高级数据挖掘与应用国际学术会议