宋建林,戴登慧
1.国电南京自动化股份有限公司,江苏 南京 211100
2.南京华盾电力信息安全测评有限公司,江苏 南京 211100
随着我国电力体制的改革步伐不断加大,电力市场化进程也在不断加快,这个过程中就对电力企业提升电网安全生产、电网规划、优质服务等方面提出更多要求。随着电力数字化过程中产生的相关内部数据也越来越多,采用大数据技术,可以有效分析采集来的电力客户数据,及时、准确地掌握客户用电行为特征,同样也可以及时发现用电异常行为。一方面有利于对企业的电力营销和调度进行决策支撑,另一方面也可以保障电力企业自身利益不受损失,显著提升企业的盈利能力和竞争能力[1-2]。
文章将采用随机森林算法来分析用电行为,为电力企业及时有效分析用户用电行为提供一定参考。
电力企业根据用电客户历史用电行为特征、贡献度大小、用电需求等特点,基于大数据分析技术,从行业特点、客户价值、用电需求、成长性等方面刻画用电客户群体特征,采用现代统计分析方法及数据挖掘算法将电力用户分类,比如高压用户,低压居民用户和低压非居民用户等用电形式的用户,按照不用用户的用电行为特点建立起用户用电模型以及公共设备用电模型,从而有效监测电力使用状态。当然以往电力企业在电力用户用电监测领域仅依靠线损率来估计用电用户的用电行为,存在一定的技术局限性。因为只有当线损率超过15%的阈值时,才有充分证据证明这个用户是用电异常。
目前,很多人采用了机器学习同电力数据相互结合的方法来进行用户用电行为特征的提取,对用电过程进行挖掘。而随着智能电网的普及,电力用户的数据呈现快速增加的态势,使得用电数据特征数目也随之快速增长,且呈现出连续化的变化特征。
如果采用传统CURE算法对数据进行挖掘,首先需要对数据进行离散化的操作,具有计算量大、消耗时间长、一些重要的特征信息容易丢失等缺陷,相对而言,如果采用信息嫡原则的分析法对特征值进行提取,则可以使得预测准确度得以进一步提升。在用电分析模型所含的单项指标中,主要包括了每天用电量、最大线损率、电表类型、台区线损等,再进一步利用人工神经网络对用电行为进行分析,只不过这样的分析只是对其中一个用户的用电异常可疑性大小进行判断,无法分析用电预测样本的准确程度。按照一段时间内用户用电量的总体变化趋势判定窃电行为的发生,然而却没有与机器学习等新技术相融合,没有更高的工作效率。
随机森林就是建立很多决策树,组成一个决策树的“森林”,通过多棵树投票来进行决策。这种方法能够有效地提高对新样本的分类准确度。随机森林在以决策树为基学习器构建Bagging集成(样本的随机选取)的基础上,进一步在决策树的训练过程中引入随机属性选择。具体来说,传统决策树在选择划分属性时是在当前节点的属性集合(假设有d个属性)中选择一个最优属性;而在RF随机森林中,对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含K个属性的子集,然后在从这个子集中选择一个最优属性用于划分。
在人工智能领域,随机森林算法包括了数个决策树分类器,个别树输出的类别众数决定了其输出的类别。随机森林的生成具体算法步骤如下。
首先,对样本数据进行有放回的抽样,得到多个样本集。具体来讲就是每次从原来的N个训练样本中有放回地随机抽取N个样本(包括可能重复样本)。
然后,从候选的特征中随机抽取m个特征,作为当前节点下决策的备选特征,从这些特征中选择最好地划分训练样本的特征。用每个样本集作为训练样本构造决策树。单个决策树在产生样本集和确定特征后,使用CART算法计算,不剪枝。
最后,得到所需数目的决策树后,采用随机森林方法对这些树的输出进行投票,以得票最多的类作为随机森林的决策。
电力系统用户的用电数据,主要是从营销系统里面抽取的,在判定用户数据的同时合理进行筛选,将不存在用电异常可能性的数据排出,再对筛选后的原始数据进行预处理,包括将用户用电监测数据与其他类型用户数据进行对比,对二者用电特征的差异进行比对分析,提取出差异明显、特征鲜明的用电特征,之后构建专家样本集,并对特征进行提取操作,特征提取包括提取方差特征和提取含零百分数特征[3]。
利用随机森林算法对预处理后的数据进行测试并计算得出最终的实验结果,具体操作步骤:通过随机森林算法,对用户数据进行决策树分类,最终分类结果由训练出的决策树投票决定,以此判定用户是否有用电异常行为。用电数据预处理和特征提取流程如图1所示。
图1 用电数据处理及特征提取流程
提取方差特征具体公式:
式中Vi为用户用电量的方差;Xik为第i个用户第k天的用电量;为用户平均用电量;k为用户数据量的大小。方差主要体现出了数据的波动情况,当某一用户用电数据出现大幅度的波动现象,如用电量长期忽高忽低、方差较大,则可以预警该用户用电存在异常。
提取含零百分数特征具体公式:
式中Pzeroi为含零百分数;Xj为第i个用户有包含j个零数据;Xi为第i个用户总的数据量。
除极特殊情况外,某用户用电量每天都为零,则该用户用电异常行为可能性极高。若某用户除少数日期外,大多数时间用电量均为零,则有较大可能存在用电异常,若某用户用电量断续为零,则存在一定可能有用电异常行为。
根据用电客户历史用电行为特征、贡献度大小、用电需求等特点,基于大数据分析技术,从行业特点、客户价值、用电需求、成长性等方面刻画用电客户群体特征,采用现代统计分析方法及数据挖掘算法将电力用户分类,包括高压用户,低压居民用户和低压非居民用户等用电形式的用户,针对不同的用户类别建立不同的用户用电模型以及公共设备用电模型,从而对企业的电力营销和调度进行决策支撑,为用电需求侧管理、优化客户服务管理规范提供辅助决策。