史玉良 荣以平 朱伟义
1(山东大学软件学院 济南 250100)2(山大地纬软件股份有限公司 济南 250100)3 (国网山东省电力公司 济南 250001) (shiyuliang@sdu.edu.cn)
近年来,我国窃电相关的纠纷案件数量逐年上升,窃电手段不断变化发展,使得窃电范围不断扩大,对电力系统的正常运行造成了阻碍.为规范管理生产生活用电、提高电能利用率、推进电力企业健康稳定发展,开展用电检查与反窃电工作是电力企业的一项迫切工作.
早期,传统的电费收取方式为人工手抄表,体力劳动强且涉外人员数量不足,窃电查处问题也由涉外人员承担,用电检查人员数量难以满足需求;其次,由于传统用电管理思想观念根深蒂固,供电企业对窃电行为不够重视,造成用电检查及打击窃电行为力度低,助长了窃电行为.随着社会进步、经济发展,用户用电数量不断增多,社会生产生活对电能的需求量越来越大,电力企业也随之引进智能电表,以用电信息采集系统和SG186营销业务应用系统有效实现远程费控,然而窃电查处问题并未随之解决,且在经济利益的驱使下,窃电者不再局限于过去的居民、个体等,逐渐发展成为了集体企业、中外合作企业等,发展速度十分快,严重干扰了电力企业供电安全与秩序.此外,随着科学技术日新月异,高科技手段被窃电人员广泛应用,随着窃电技术的智能化、科技化发展,使得高科技含量的窃电方式越来越多,如无线遥控、有线远方控制等,此类窃电手段往往十分隐蔽,传统用电检查方法根本无法检测,且用电检查人员综合素质较低,难以满足用电检查和反窃电工作的现代化需求[1].
因此,亟需采取有效方法,利用电力企业现有系统所提供数据实现反窃电分析,对窃电嫌疑用户行为进行概率推测和诊断,精准识别重大窃电嫌疑用户,提高反窃电工作成效,加强我国电力企业对电能输出的高效监管力度.通过采用强有力的窃电监控识别手段,加大窃电的查处惩治力度,维护正常的供用电秩序,保障公司经营效益.
本文的主要贡献有3个方面:
1) 在用电特征提取阶段.一方面基于过滤式算法筛选窃电特征数据项,另一方面深化特征数据项的有效性,针对动态数据以规则与阈值结合的方式识别特征异常类型,并以日、周、月、季、年5类数据,实现当前用电数据与历史用电数据的对比,从而实现对人工判别异常数据的模拟.
2) 在模型算法选择阶段.以逻辑回归算法实现窃电行为的数据挖掘,始终着眼于整体数据,对全局数据的综合性把握较高,特别随着新数据的参与,模型可基于反馈数据快速调整其输入特征及参数变化.
3) 在模型训练阶段.基于用电信息采集系统和SG186营销业务应用系统积累的大量客户用电信息,结合大量典型窃电案例,综合考虑各种窃电因素,依据事物发展变化的因果关系来识别数据的异常走势,是一种从定量至定性的诊断方法,具有模拟人工识别异常数据和多维数据的综合信息挖掘的优点.
目前,反窃电工作越来越受到各级电力企业的重视,并引起社会各界的广泛研究与关注,反窃电手段亦得到不断发展.如针对当前常见的窃电技术和存在的缺陷,采用4G通信模块、智能视频取证等关键技术,集成防窃电和实时视频监控的智能视频监控终端的防窃电监测方式[2];针对电力传输过程中产生的线损数据,对高线损异常用户进行识别,从而实现反窃电监测的方式[3];针对异常用电用户,提出基于无监督学习的异常用电模式检测模型,主要以特征提取、主成分分析、网格处理、计算局部离群因子等建模,输出所有用户用电行为的异常度及疑似概率排序,以检测异常度排序靠前的少数用户查出异常用户[4].
由参考文献[2-4]可以看出,反窃电工作越来越具体化与目标明确化,且主要以远程侦查为发展目标,由此减轻涉外人员的工作强度;同时带来的问题是,如何在不增加电力企业经济压力的前提下,实现对窃电行为的全面侦查,特别随着用电信息采集系统和SG186营销业务应用系统的全覆盖应用,“数据海量,信息匮乏”的现象正反映了反窃电工作的尴尬处境.针对窃电问题带来的电力企业用电监管问题,本文基于当前电力系统积累的大量客户用电信息,综合考虑各种因素,建立窃电行为识别方法[5],对窃电嫌疑行为进行概率推测和诊断[6],精准识别重大窃电嫌疑户.
本方法旨在构建有效可行的窃电用户行为识别模型.在该模型特征数据输入阶段,为有效提取窃电行为的相关数据和异常数据,一方面基于过滤式算法筛选窃电特征数据项,一方面基于反窃电领域专家经验设定动态数据曲线异常识别规则及阈值,从而提高了模型输入特征数据的有效性;随后以逻辑回归算法[7]构建用户窃电行为诊断模型,以样本特征数据为输入,输出样本分类的方式实现对用户窃电行为的识别,整体采用一种闭环工作的反窃电诊断机制[8],满足精准识别重大窃电嫌疑户的业务需求,整体方法流程步骤如图1所示:
Fig. 1 The flow chart of stealing behavior diagnosis method图1 用户窃电行为诊断方法的总体流程图
① 自SG186营销业务应用系统搜集窃电样本、无窃电正常样本、用户档案类数据,从用电信息采集系统获取用户计量指标数据,窃电样本数据与正常样本数据构成数据样本集;
② 基于窃电样本,对样本进行典型窃电案例精简,初始化典型窃电案例的专家样本库;
③ 基于典型窃电案例反向分析,基于过滤式算法筛选窃电特征数据,建立基于窃电行为的特征数据库,即窃电行为诊断指标体系,初始化特征数据库;
④ 基于特征数据项提取模型输入数据信息,选取多时间域的用户用电数据动态曲线,基于规则和阈值识别特征异常类别;
⑤ 基于用户基本特征数据项和异常数据类别,利用逻辑回归算法构建用户窃电行为诊断模型,实现对窃电用户行为的识别,若识别正确率后期降低,则将信息反馈至④,从而对新特征异常类别加以重构;
⑥ 以某一时间段内的用户数据构建验证数据样本集,对本文构建的用户窃电行为识别方法进行验证;
⑦ 根据验证输出的窃电嫌疑用户生成窃电排查工单,现场进行检查取证、查处工作,对现场排查确认的窃电用户,确认窃电行为及采用的窃电方式;
⑧ 现场核实结果反馈至SG186营销业务应用系统,提取有效的窃电数据作为案例加入专家样本库中,完善窃电行为诊断指标体系,根据反馈的窃电案例对窃电行为识别方法不断修正优化.
本文主要对窃电行为识别方法的构建加以阐述,并以matlab仿真对模型的训练与测试效果进行验证,实践应用环节还有待开展,并可基于后期反窃电开展工作不断优化提高窃电行为识别方法的性能.
本文构建的窃电行为识别方法主要包含2部分:1)基于多尺度识别用电特征异常,实现对人工识别窃电异常数据的模拟;2)基于用户基本数据和特征异常识别数据,采用逻辑回归算法[9]构建用户窃电行为诊断模型,从而完成嫌疑用户窃电行为识别.
本文对历年窃电用户在采集、营销系统的电量、电压、电流、报警、信用等数据进行反向分析,构建本次建模的指标体系[10],主要分为2部分:1)基于过滤式算法筛选窃电特征数据项;2)基于规则和阈值设定识别动态用电异常特征数据.
1) 基于过滤式算法筛选窃电特征数据项
Fig. 2 Discriminating curve of voltage phase failure图2 电压失压断相判别数据曲线
本文首先对样本特征数据进行规范化处理,特征数据取值为[-1,1];随后,基于过滤式算法对样本数据进行特征选择,主要方法为针对每一个初始特征,以特征相关性度量特征对分类结果的重要性.
(1)
由式(1)可得,对于属性j,若xi与其猜中近邻xi,nh的距离越小,与其猜错近邻xi,nm的距离越大,则其相关统计量δj越大,说明特征属性j的区分窃电与非窃电类别的能力越强,将δj进行降序排列,设定阈值τ,将相关统计量大于阈值τ的特征作为筛选特征.
2) 基于规则识别动态用电异常特征数据
在传统的反窃电侦查过程中,工作人员往往通过用电信息采集系统、营销业务应用系统提供的采集数据和历史数据对比进行人工识别,由于用电数据动态变化往往包含清晰的窃电识别信息,反窃电专家往往基于此结合丰富的反窃电经验对此作出甄别,故本文针对此类用电动态数据制定数据异常判别规则[11],结合阈值的方式识别特征数据异常并给出异常类别,如电流三相不平衡、电量突减、相位角反极性等.
基于反窃电专家历年窃电诊断经验,本文对电流数据、电压数据、电量数据和相位角数据进行特征异常类别甄别.由于反窃电诊断是基于当前采集数据进行,故识别数据曲线为当日采集数据、前推一周采集数据、前推一月采集数据、前推一季度采集数据和前推一年采集数据.判别规则分类制定,图2为由采集数据获取的电压失压断相实际曲线,其规则及阈值设定如下:
三相四线断相:任一相电压小于K×额定电压,另两相电压中任一相电压不小于K×额定电压.
若上述规则成立,则判定其为电压失压断相.
图3为电量趋势突减异常采集数据曲线,电量趋势下降指标作为模型的异常特征指标,部分行业的用户在春节及长假数据可能对结果造成误判,需要剔除,故其量化公式为电量趋势判断规则如下:
Fig. 3 Discriminating curve of electricity trend图3 电量趋势判断数据曲线
(2)
其中,kl为当天下降趋势指标,gr为当天电量,gl为前后几天电量,αr为权重,d为前后天数.
图2为单日电压数据采集曲线,反窃电专家从该数据变化判别该用户电压数据异常,即电压失压断相;然而,仅依赖于单日采集数据进行特征异常判别,往往导致局部视角狭窄,如图3所示,在2016-04-15—2016-06-15区间的单日电量数据难以察觉其用电量异常,需结合前推一季度乃至前推一年的用电量加以判别.本文基于反窃电专家的判别经验,尽可能地以动态规则的视角模拟人工识别视角,以多尺度的规则及阈值设定实现单类特征异常识别,从而最大程度地拟合人工识别,提高窃电类型识别的精准度.具体异常特征识别类型如表1所示:
Table 1 Abnormality Feature Identification Type表1 异常特征识别类型
用户窃电行为诊断模型是本方法的核心内容,以逻辑回归算法为数据处理原理,主要包含模型训练与模型测试2部分,具体模型构建流程如图4所示,包括8个步骤:
步骤1. 基于用户用电数据选取等比例窃电样本数据与正常用电样本数据作为模型样本集,从模型样本集内分别随机抽取相应比例的数据构成训练集数据及测试集数据;
步骤2. 将训练集数据进行用户样本集定义X={x1,x2,…},特征权重向量θ=(θ1,θ2,…),则目标函数f(θ)=θT×X,类别集合C∈{C1,C2},初始化迭代次数k=0,允许误差ε>0,基于一定范围对θ随机赋值;
步骤3. 进入迭代求解过程,k=k+1;
步骤4. 采用拟牛顿法对目标函数进行最优求解,目标函数的梯度
(3)
Fig. 4 The flow chart of the stealing behavior diagnosis model图4 构建用户窃电行为诊断模型流程图
计算海森矩阵Hk+1:
(4)
梯度下降方向
(5)
进而从x(k)出发,延方向d(k)搜索,求步长λk,求解方程满足如下:
(6)
更新特征权重向量θ=(θ1,θ2,…),
θ(k+1)=θ(k)+λkd(k).
(7)
步骤5. 将特征权重向量θ代入目标函数f(θ),判断式(8)是否成立
(8)
若成立,则返回步骤3继续进入迭代求解过程;若不成立,则获得本次计算所得的最优化目标函数,进入步骤6.
步骤6. 基于最优化目标函数构成用户窃电行为诊断模型,
(9)
对用户窃电行为诊断模型进行样本测试,比较概率,概率与类别比例相比较获取对应类标号,进行测试样本分类,其中,xj为测试样本数据,属于步骤1所得的测试集数据.
步骤7. 计算测试集数据的测试参数,判断是否满足用户窃电判别要求,若不满足,则返回步骤2对θ更新随机赋值,若满足,则进入步骤8.
步骤8. 构建完成用户窃电行为诊断模型,并输出本次更新模型.
为验证本方法的可行性和有效性,本文基于国网山东省电力公司用电信息采集系统为背景实施平台,并作为基础数据来源.其中,窃电行为诊断包含与外围系统连接的输入输出信息模块,存储单元包含3类数据库:1)数据库存储输入信息与信息预定义;2)数据库存储解决方案与测试结果;3)数据库存储专家样本与样本特征.
自SG186营销业务应用系统搜集从2009—2016年的窃电样本1万例,对应相关窃电用户从用电信息采集系统获取用户计量指标数据、SG186营销业务应用系统获取用户档案类数据、采集终端获取异常事项数据,此外,从山东省各地市全面地抽取无窃电记录用户1万例,其对应相关数据作为正常用户数据,窃电样本数据与正常用户数据构成数据样本集,基于1万余例可用窃电样本,对样本进行典型窃电案例精简,初始获取77例典型窃电案例的专家样本库,进而建立基于窃电行为的特征数据库,即反窃电预警诊断指标体系.
基于获取的1万余例可用窃电样本数据,采用过滤式算法筛选窃电特征数据项,如表2所示:
Table 2 Results on Feature Data Screening 表2 特征数据筛选结果
随后,针对筛选特征项内的动态变化数据,采用基于规则和阈值设定的方式识别用电异常特征数据,并以部分识别的异常数据为例进行展示,结果如表3所示:
Table 3 Results on Partial Abnormal Data Feature Recognition表3 部分异常数据特征识别结果
综上所述,针对于用户窃电行为诊断模型的训练和测试,本文采用77例典型窃电案例实现特征异常数据规则与阈值的设定,采用2万例样本集数据用于实现对逻辑回归概率预测的构建,并以此作为模型特征数据的筛选与提取.
基于2万例样本集数据[12]构建用户窃电行为诊断模型,为获取更优化的逻辑回归概率预测,本文采用重复3次训练过程优化逻辑回归概率预测,训练样本为1.6万例,累计获取8次特征权重向量重新赋值,迭代次数阈值设定为200次,模型优化准确率目标为98%,模型分别在第3次、第5次、第8次迭代过程中取得满足准确率识别要求的参数解,其迭代次数分别为165次、158次和200次,其历次准确率与迭代次数变化如图5所示,其中OI(output iteration)表示输出迭代值:
Fig. 5 Iterative solution process for model building图5 构建模型的迭代求解过程
根据图5的模型训练结果,本文选取准确率满足要求的3例模型,以4 000例测试样本对其进行测试,最终获取测试结果的正确率、召回率及精准率如表4所示:
Table 4 Test Results on the Model of Stealing BehaviorRecognition
表4中,True/False表示样本实际是否是窃电数据;Positive/Negative表示数据通过模型后输出结果是否是窃电(模型判断是窃电的为Positive,反之为Negative).
由于本文为窃电监测类识别,故需在保证准确率的情况下提高召回率,即尽可能地识别实际窃电的用户,故采用综合评价指标(F-Measure),在准确率和召回率出现矛盾的情况,通过加权调和评价,计算为
(10)
由综合评价指标计算可得,Model 1,Model 2和Model 3分别为94%,93.94%和93.4%,故选择Model 1为最终用户窃电行为诊断模型.
为说明本文所使用方法的合理性,本文基于4.2节实验数据,选择当前反窃电研究热点领域的2种方法作为窃电行为识别的对比方案,并将本文所述方法作为第3种方案,开展对比实验并对实验结果加以说明,具体方案如下:
1) Options 1. 基于采集数据,建立基于正态分布离群点算法的窃电行为识别方法[13].
2) Options 2. 基于本文的特征提取数据,建立基于无限深度神经网络的窃电行为识别方法[14].
3) Options 3. 本文基于用电特征分析的窃电行为识别方法.
最终实验结果如表5所示:
Table 5 Comparison of Experimental Results forThree Options
由表5可知,由于Options 1基于采集数据的离群点检测构建正态分布概率统计模型,与本文所述方法的用电异常特征数据筛选环节原理相似,但本文一方面结合了反窃电专家的数据甄别经验实现异常特征规律的人工判别模拟,另一方面以多特征而非单一异常特征实现窃电行为识别,从而提高了模型的综合性和整体性识别水平,故本文所用方法虽然平均时耗高于Options 1,但在综合评价指标方面体现出较大优势.随着机器学习的发展,无限深度神经网络开始成为各领域的研究热点,Options 2亦基于此方法开展窃电行为识别的训练与测试,该模型构建须基于海量数据支撑,且在数据质量不稳定时存在较高风险,尤其对于当前处于发展阶段的预测分类,其输入/输出数据的变动,往往导致模型产生高重构代价的风险,虽然在再训练过程中可借鉴历史经验,但是其调参复杂迭代次数往往为5 000~10 000次,甚至再训练时间多达几天,且基于当前的有限采集窃电样本,构建的模型综合评价指标测试结果不理想,仅为87.2%,故在时效性、精确性和合理性方面,Options 2在本文所述应用环境中均受限.
银行行业的预测模型中,80%是采用逻辑回归算法构建[15],可见逻辑回归方法在模型构建、数据处理稳定性方面具有显著优势,通过表5的测试结果亦可得,基于现有的历史数据,本文所述方法的窃电行为识别的综合评价指标均高于Options 1和Options 2.且反窃电工作属于发展阶段,随着科技技术的日新月异,窃电技术亦不断发展,故在输入/输出数据均存在变动性的情况下,本文所述方法可快速实现模型的再训练,适应性更强.由以上数据显示,本方法对窃电概率预警具有高效预测能力,可有效辅助国网山东省电力公司相关工作人员开展反窃电工作.
本文以国网山东省电力公司集成化数据平台为背景,对用电信息采集系统、SG186营销业务应用系统及采集终端可提供的用户数据进行分析处理,构建了一种基于用电特征分析的窃电行为识别方法.首先基于窃电样本可用数据对窃电行为用电特征数据进行筛选,随后基于窃电样本筛选典型窃电案例构建专家样本库,并基于此设定窃电行为导致用电数据异常的规则与阈值,从而提取出用电特征中的异常数据类别,上述数据作为模型输入.基于逻辑回归算法构建用户窃电行为诊断模型,并以拟牛顿算法求解最优目标函数有效减少迭代求解次数,上述模型实现对窃电嫌疑用户的筛查.
此外,本方法采用预警、排查和处理反馈的闭环工作机制不断丰富专家样本库,模型根据反馈案例持续进行学习训练、优化重构,不断提高模型的精度和泛化能力,提高识别窃电嫌疑用户的精准度.由算例分析数据可得,本方法是高效可行的,可精准识别窃电嫌疑用户,它提供一种强有力的反窃电监控预警手段,有助于加大反窃电的查处惩治力度,维护正常的供用电秩序.
ShiYuliang, born in 1978. PhD, professor. His main research interests include cloud computing, database and privacy preserving.
RongYiping, born in 1977. Senior engineer. His main research interests include electricity marketing, power information.
ZhuWeiyi, born in 1971. Senior engineer. His main research interests include electricity marketing, power information.