利用大数据技术提升电力客户档案资源管理和服务能力

2022-07-20 03:13陈明刘睿李乐李锐锋曾琴李玉婷
电力大数据 2022年2期
关键词:字段决策树分类器

(陈明,刘睿,李乐,李锐锋,曾琴,李玉婷)

(1.国网甘肃省电力公司酒泉供电公司,甘肃 酒泉 735000;2.成都科普威信息技术有限责任公司,四川 成都 610042)

电力行业大数据具有体量大、速率高、类型多、真实性要求高、价值高的特点[1],智能电网大数据技术的应用,使得电力系统运行更加高效和安全[2-5],电力市场是信息流、业务流、数据流高度融合的体现,分析电力市场用户大数据,提供精准用户服务、金融服务、地区E-GDP值预测等新思路[6-9],电力客户档案管理具有提供用户满意度、提升工作效率的重要意义[10],当前供电公司客户基础档案杂乱,客户档案信息依靠人工经验判断填报,易出错、效率低,电力营销系统台账信息更新不及时,导致部分用户档案与实际不符,从而影响计量装置管理配置、电费电价核算、线损考核、线损分析等一系列问题[11]。随着大数据技术的成熟发展,客户档案管理研究已从简单的信息化管理提升为信息数字化、信息安全等角度提升档案管理能力[12-15],从电费的角度切入,与其他业务关系的深度挖掘,探索业扩报装、电费核抄、档案管理的应用效果[16];基于数据驱动的台区户-变关系核查的方法,给出疑似档案错误的用户合集,提高了工作效率[17],应用大数据挖掘及Bootstrap重采样技术对客户群体细分,了解客户机器购买力行为,为服务决策提供有力的支撑[18]。

综合已有研究,本文提出应用大数据分析技术,对电力客户档案分类、建立关键词关联模型,一是为业务人员准确填报客户档案数据提供参考,提高客户档案填报准确率,二是反查营销系统内的客户档案,识别存在错误的信息,提高档案数据治理效率。

1 数据挖掘过程

1.1 数据准备

1.1.1 数据来源

数据主要来源于国网某市级供电公司的SG186系统和用电信息采集系统内所有数据。抽取基础档案字段包含但不限于供电容量、行业类别、计量方式、电价码、功率因素、峰谷执行标志信息,在数据数量上客户基础信息数据将抽取系统所有高压用户和低压非居用户数据,涉及反查的客户电量及用电金额信息将抽取将近两年数据,按月度计算统计,反查数据总量超过百万。

1.1.2 数据质量

初次抽取的数据中发现存在一些冗余和异常的情况,未达到利用大数据技术对数据进行统计分析的质量要求,需对数据进行二次分析形成软件数据图谱[19]。对初次抽取的数据进行基于Spark框架的大数据清洗模型分析后[20],整理出数据中唯一识别的字段分别为用户编号、计量点编号、供电电源性质三个字段,即通过用户编号、计量点编号、供电电源性质三个字段关联规则进行数据筛选去重的操作。同时整理出供电电压、计量方式、行业类别、用电类别等所有抽取字段之间存在的相互影响的规则,在通过数据去重和字段规则关联处理异常数据后,数据已基本满足统计分析前数据预处理的质量要求。

1.1.3 数据预处理

(1)数据清洗

抽取的数据中,分为客户基础信息数据和客户用电信息数据。基础信息包含客户编号、户名、用电地址等数据,这类数据字段值属于独立形成,一般情况为固定值,极少变更;而客户用电信息数据包含电压等级、用电类别、计量方式、电价码、计费方式等数据,这一类数据的字段值之间存在相互依赖、相互影响的关系。

需要对抽取的数据的缺失值和异常值进行处理,为此来保证计算分析的数据的准确性。如果是基础信息的缺失或异常,因基础信息的独立性,将很难对户号、户名、用电地址缺失值进行填充,该条数据将只有作为异常数据丢弃。而用电信息数据字段之间存在直接或间接的相关性,通过找出字段值之间的关系便直接对缺失值和噪声数据进行填充和完善。

(2)数据整合

数据集成,即合并来自多个数据存储的数据。目的在于减少数据结果集的冗余和不一致,有助于提高后期数据挖掘过程的准确性和速度。

在模型使用数据过程中,可将抽取的数据按照元组、属性维度分为单一维度的基础业务信息数据和以固定周期统计的特性反查用电数据。

表1 基础业务信息数据宽表Tab.1 Data wide table of basic business information

表2 反查用电数据宽表Tab.2 Power consumption data width table for reverse check

(3)数据转换

因数据规模大,字段值格式复杂,为保证在挖掘过程中的效率和挖掘结果的准确性,对抽取的数据的字段值通过变换策略进行必要的数据变换。如在抽取的基础业务信息数据和特性反查用电数据表中,原始抽取的字段电压等级的值为“交流10kV”、“交流20kV”、“交流35kV”等以文本、字母、数字结合的值类型,将字段值直接批量转换为数字“10”、“20”、“35”来进行计算分析,减少了在挖掘过程中因数值类型复杂带来的高性能运算负担,同时也减少了挖掘数据的耗时。

2 多维统计分析

从最终确定的字段形成的数据规模来看,仅高压用户累计5550户,从2019年1月至2020年7月,电费电量信息数据累计超过23万余条。

在基础业务信息数据宽表和特性反查用电数据宽表抽取的数据中,确定抽取的所有字段两两之间、多字段间均存在相关性,且大部分字段都存在相互依存的关系,涵盖单相关、复相关、偏相关复杂的相互依赖关系[21-22]。具体如流程如图1所示。

图1 基础业务信息字段关系图Fig.1 Relationship diagram of basic business information fields

两两之间相关联的字段存在的关系成为单相关。由同一字段同时直接和间接影响同一字段的称之为复相关,两个字段之间没有明确直接相关联的关系,但结果字段值却受另一字段值影响的称之为偏相关。

在对数据的复相关性分析过程中,对有复相关性的字段进行统一整理,有相关特征的字段包含计量方式、电流变比、综合倍率、电压变比、功率因素标准,这些字段属性值的结果会由两个及以上的字段属性值共同分析得到。

偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程,判定指标是相关系数的R值。

图2 偏相关系数R值判定Fig.2 Determination of R value of partial correlation coefficient

3 模型构建

客户档案异常数据分析业务包括业务规则反查模型和数据特性分析模型,分析数据库中所有数据;业务操作分析包括新增和变更业务智能分析模型,针对工作人员在相关业务办理时对数据进行分析的过程,其要求的实时性和准确率极高,分析的数据量一般为单条数据。

3.1 基于大数据的业务规则反查模型

在业务规则反查模型中,整个模型训练的参数均按照样本选择后的算法和方法来进行计算,首先AdaBoost分类器[23-24]将每一个字段的属性值进行AdaBoost分类器分析,找出各字段属性值的占比及属性值类型,对不适合用AdaBoost分类器的字段进行筛选,用相应的分析算法分析。

将原始数据集选择S次后得到S个新数据集,新数据集与原始数据集大小相等,每个数据集都是通过在原始数据集中随机选择一个样本来替换得到的,这就意味着可以多次选择同一个样本。在S个数据集建好之后,将某个学习算法分别作用于每个数据集就得到了S个分类器,当我们要对新数据分类时,就可以用这S个分类器进行分类,选择分类器投票结果最多的类别作为最后分类结果。boosting通过集中关注被已有分类器错分的数据来获得新的分类器,boosting给每个分类器的权重不相等,每个权重代表的是对应的分类器在上一轮迭代中的成功度,分类结果是基于所有分类器的加权求和得到的。

基本步骤。首先,有n个数据,我们初始化每个数据的权重都是一样的。

(1)

接下来,我们对每一个弱分类器(1,……,M)都进行如下操作。

1)训练一个弱分类器,使得其分类误差最小,此时计算该分类器的误差计算如下公式(2):

∈m=∑yi≠fm(x)·wm

(2)

这个公式的含义就是模型的误差等于每一个错分的样本权重之和。

当该模型是第一个弱分类器(即第一次迭代的时候),该公式中的含义就是计算当前弱分类器分错的样本个数,除以总的样本数量,得到该弱分类器的误差(因为,此时每个样本的误差都是1/n)。同时注意,在后面的迭代中,每个错分的样本的权重是不同的,这里的m表示第m次迭代时候,该样本的权重。

2)根据当前弱分类器的误差,计算该分类器的权重:

(3)

该公式的含义就是,当该弱分类器的准确率(1-前面的误差)大于0.5,那么这个权重就是正值(因为此时εm< 0.5,那么对数内部就是大于1,结果就是正数了);否则该权重为负值。也就是说,只要这个分类器的准确率结果不是0.5(这个时候就相当于随机猜测了),它总会给最终的分类器提供一些信息。

3)最后,我们根据模型权重更新数据的权重:

(4)

这里的Zm是正规化系数,确保所有的数据权重总和为1。

指数内部-θmyifm(xi)这个乘积的含义是如果弱分类器m的分类结果和真实的结果一致,那么结果是-θm,是一个负值,那么exp[-θmyifm(xi)]结果小于1。也就是说该数据集的样本权重降低,否则该数据样本的权重增高。因此,通过这种计算就可以让那些容易分错的样本的权重升高,容易分对的样本权重降低。继续迭代就会导致对难分的样本能分对的模型的权重上涨。最终,达到一个强分类器的目的。

对属性值分析完后,逐一进行单相关性和复相关性的分析,在单相关性的分析时利用IF-THEN规则分类,能将两两字段之间的关系更好地进行[25]表达;所有属性值和关系规则分析训练完成,达到准确可靠的结果值,根据对应的分析结果和可靠规则完成对整个业务字段的决策树建立[26],形成业务规则分析的完整模型。

3.2 基于大数据的数据特性分析模型

数据特性分析模型主要是对用电电量数据的一套偏相关性的分析规则。

在对用户电价异常分析过程中,首先将所有用户数据进行分类,根据类型属性值利用AdaBoost分类器将宽表用户类别数据不停的迭代最终分析记为X(大工业中小化肥、非工业、非居民照明、农业排灌、农业生产用电、贫困县农业排灌用电、商业用电、中小学教学用电、大工业用电、普通工业、其他)。

通过分类后进行筛选可得到每一个用电类别的用电电价区间记为Dm=(x1,x2,……,xn),对应区间如下:

商业用电:0.5843~0.6043

大工业用电:0.2359~0.9632

大工业中小化肥:0.3932~0.4132

非工业:0.2443~0.8176

非居民照明:0.5664~0.6043

农业排灌:0.0755~0.4605

农业生产用电:0.4289~0.4489

贫困县农业排灌用电:0.0755~0.3805

普通工业:0.5843~0.8943

中小学教学用电:0.515~0.525

其他:0.0422~0.6422

将Dm所有的区间与X元组的所有用户进行相关性分析,在模型中通过散点分布的形式可视化电价可能存在异常的用户,在区间内的数据则为正常用户执行电价,反之区间外的散点数据则为可能存在异常的数据。

图3 不同用电类别电价异常分析Fig.3 Analysis of abnormal electricity prices for different power consumption categories

在功率因素标准异常分析模块中,利用AdaBoost分类器将所有用户数据的NAME.pfStdCode(功率因数考核标准)的属性值按照固定的考核指标0.8、考核指标0.85、考核指标0.9、不考核分别分成不同的类,定义为P元组。

在用户基础业务信息数据宽表中独立划分所有用户contract_cap(合同容量)、elecTypeCode(用电类别)以及contract_cat(合同类别)的值,形成单独的类元组数据,按照规则将NAME.pfStdCode与字段contract_cap、elecTypeCode、contract_cat属性值进行分析,形成单独的结果元组集E,利用偏相关性系数算法对字段contract_cap、elecTypeCode、contract_cat每两两之间在此进行可能存在的偏相关性分析,结果显示没有相关性结果值,随后将P与E进行分类分析,根据P可得出可能存在异常的用户数据。结果以可视化效果展示。

图4 功率因素标准异常分析Fig.4 Abnormal analysis of power factor standard

在力率调整电费分析中,需要对基础业务信息数据宽表和特性反查用电数据宽表的数据统一分类到单独的类表来做处理,通过确定主键字段cons_no(用户编号)—mp_no(计量点编号)共同决定对类表的分类。将NAME.pfStdCode、cons_no、mp_no、actual_pf(功率因数)进行重新分类后形成新的类表,在类表中,通过Apriori算法将actual_pf属性值进行连接形成图网分析,随后按照层级一次进行剪枝,将分析的结果进行可视化。

图5 力率调整电费异常分析Fig.5 Abnormal analysis of power rate adjustment electricity tariff

分析结果以正负坐标图的散点坐标进行显示,分析结果在正象限时,则这部分用户的力率电费为应该增收的用户,反之在负象限这些用户在一定程度应该奖励电费。

在基本电费异常分析中,根据NAME.baCalcMode(基本电费计算方式)的属性值将数据分为按容量、实际最大需量、合约最大需量、不计算类元组,定义为B1、B2、B3、B4;随后再将分裂的元组中的THIS_READ_PQ(需量考核定值)、ba(电价基准值)、BA_VALUE(最大电量值)通过AdaBosst分类器将其划分出来,属性值表示为X={x1,x2,x3,……,xn},Y={y1,y2,y3,……,yn},Z={z1,z2,z3,……,zn},按照B1、B2、B3对应的规则基数与用户每一个属性值进行计算分析,得出一个结果元组集R,最后按照cons_no将R与ba进行计算分析,最终结果以可视化的形式展示。

图6 基本电费异常分析Fig.6 Abnormal analysis of basic electricity bill

3.3 基于大数据的业务智能分析模型

新增、变更业务智能分析模型主要目的是在客户办理新装、增容、减容等业务时,仅输入用电容量、用电性质、行业关键字,模型自动输出用电类别、行业分类等基础信息,为业务人员准确填报数据提供参考。在模型场景输出最正确的电价码、功率因数考核、峰谷执行标志,提高电价执行合规性。

根据该模型所需要实现的功能,分析其数据结构和格式,采用决策树作为所有字段的框架建立的算法,利用IF-THEN规则[27]分类实现对所有字段两两之间存在的单相关性进行计算分析。

IF-THEN规则分类主要寻找所有字段属性值之间存在的关系,将所有关系进行归类,随之将利用决策树的算法将所有字段和属性值进行层级的树枝分类计算,并将相关关系的归类规则融入到决策树的过程中,形成决策树的细分类,决策树分类模型主要分为两类,即单分类决策树模型和集成分类决策树模型。在该模型中采用单分类决策树模型。

单分类器模型是不断用新的数据来递归地更新自身结构,使自身结构能够适应流中数据的变化,并在流中对实例能够准确分类。最早提出用于处理数据流的决策树分类算法是基于Heoffding树,后继很多决策树算法也是基于Hoeffding不等式设计而来的。

Hoeffding树算法的一个关键特性是,它可以保证产生的树渐近地接近批量学习分类器生成的树[28]。换句话说,Hoeffding树算法的增量特性不会显著影响其生成树的质量:为了做到这一点,需要定义两个决策树之间不一致的概念,如定义1和定义2。设P(X)是被观察到的属性向量X的概率,I为指标(评估)函数,如果其参数为true则返回1,否则为0。

定义1:两个决策树DT1和DT2之间的差异Δu,是它们产生不同类预测的概率,如式(5)所示:

(5)

如果两个内部节点包含不同的测试结果,那么这两个内部节点是不同的。如果它们包含不同的类预测,那么这两个叶子也是不同的,并且内部节点与叶子是不同的。另外,如果树中的两条路径长度不同,或者至少在一个节点上不同,那么也要考虑它们是不同的。

定义2:两种决策树DT1和DT2之间的差异率Δi,是指一个示例通过DT1的路径与通过DT2路径不同的概率,如式(6)所示:

(6)

式中,Pathi(X)是示例X到树DTi的路径,两种决策树DT1和DT2在某种意义上有如下式(7)关系:

∀DT1,DT2Δu(DT1,DT2)≤Δi(DT1,DT2)

(7)

定理1:如果HTΦ是由Hoeffding树算法生成的树,所需的概率为Φ,给出无穷多个例子,DT*是渐近批处理树,p是叶节点概率,则有如下关系式(8)成立。

E[Δi(HTδ,DT*)]≤φ/P

(8)

Hoffding界表明,以概率1-δ,范围为R的随机变量的真实均值不会与n次独立观测后的估计均值相差超过:

(9)

式中,R=log2C,C是类的数目,δ是分裂置信度,n是叶节点数。

在该模型中,IF-THEN规则分类只作为树模型的构成语句,由一个或多个针对预测变量的if-then语句组成,它们被用来对数据进行划分,基于这些划分,一个特定的模型将用来对结果变量进行预测。IF-THEN规则分类同样将所有属性值规则进行分析后利用决策树分类器将所有属性值通过节点和分支的形式整合成一个完整的树状网。

4 成效及结论

基于大数据的业务规则反查模型解决了营销部门对国网用户用电异常数据的困扰。通过搭建的业务规则反查模型实现了一次性对所有用户数据的计算分析,且经过多次反复的对模型的训练,实现了对公司营销系统数据的治理。结果以表格及统计图表的可视化效果展示。

图7 业务规则反查模型应用效果Fig.7 Application effect of business rule reverse inspection model

数据特性分析模型从偏相关的角度出发对国网酒泉供电公司系统数据进行了分析,对用户执行电价、峰谷执行标准、功率因素执行标准、力率调整电费以及公司收回的基本电费进行了综合性的计算分析,对分析结果直接进行了可视化的展示,同时对异常数据也形成单独的列表展示。

图8 数据特性分析模型应用效果Fig.8 Application effect of data characteristic analysis model

业务智能分析模型主要对供电公司营销部门的日常新装、增容、减容、改类、改压、分户、暂停业务实现了业务过程数据的预测分析,输入不同字段,自动输出相关字段结果,所见即所得的可视化操作方式,如图:

图9 新增业务智能分析模型应用效果Fig.9 Application effect of new business intelligence analysis model

5 问题及展望

本文对电力客户档案中的字段关系进行了初步实际应用效果探究,仍需要不断地实践应用以调整模型,提高其准确率和稳定性。在当前社交网络服务、电商网络平台等,存有海量用户及随时更新变化的数据,通过大数据技术、人工智能分析形成推荐算法系统,以满足公众差异化、精细化服务需求[29-31]。供电公司作为大型供电系统,同样存有海量用户数据,如何整合复杂属性环境非关系型数据,实现数据的最大化价值还需要不断探索。

猜你喜欢
字段决策树分类器
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
带钩或不带钩选择方框批量自动换
基于朴素Bayes组合的简易集成分类器①
简述一种基于C4.5的随机决策树集成分类算法设计
基于AdaBoost算法的在线连续极限学习机集成算法
决策树学习的剪枝方法
无正题名文献著录方法评述
无正题名文献著录方法评述
决策树在施工项目管理中的应用