冯歆尧 黄剑文 孟禹
摘 要: 针对传统窃电行为的识别方法难以有效解决窃电技术提升带来的高频窃电问题,研究了电力企业已有数据现状,提出半监督分类模型识别窃电用户。通过深入分析业务并设计特征指标,围绕广东电网高压用户的海量用电行为数据,开展半监督三训方法的窃电用户识别研究与应用。研究结果发现,半监督分类模型预测提升度超过1.5,对比最优的有监督学习模型,效率提升7.3%,有效提升窃电用户识别效率为电网企业的反窃电工作提供有力的支撑。
关键词: 窃电用户; 半监督学习; 三训方法; 窃电识别; 识别效率
中图分类号: TM 文献标志码: A
Research and Applcaton of dentfcaton Stealng Users
Based on Sem-supervsed Three Tranng Methods
FENG Xnyao1, HUANG Janwen1, MENG Yu2
(1.Guangdong Power Grd Co. Ltd., Guangzhou 510000;
2.Guangzhou Brllant Data Analytcs nc. Ltd., Guangzhou 510000)
Abstract: Amng at the dffculty n effectvely solvng the problem of hgh frequency power larceny caused by the mprovement of electrc larceny technology by usng the tradtonal method of dentfyng electrc larceny behavor, ths paper explores the exstng data status of electrc power enterprses, and proposes sem-supervsed classfcaton model to dentfy electrc larceny users. Through n-depth analyss of busness and desgn of characterstc ndcators, ths paper conducts research and applcaton on dentfcaton of electrc stealng users by sem-supervsed tr-tranng based on massve electrcty behavor data of hgh voltage users of Guangdong Power Grd. The results show that the forecast mprovement degree of sem-supervsed classfcaton model s more than 1.5, the effcency s mproved by 7.3% compared wth the optmal supervsed learnng model, and the dentfcaton effcency of power-stealng users s effectvely mproved, provdng strong support for the ant-power-stealng work of power grd enterprses.
Key words: Power-stealng users; Sem-supervsed learnng; Three tranng methods; dentfcaton of electrc larceny; dentfyng effcency
0 引言
隨着经济与技术的发展,在电力行业中,窃电主体逐渐团队化,窃电技术逐渐科技化,窃电行为逐渐隐秘化,使供电企业的反窃电难度不断变大。电力企业的信息化发展为供电企业的数据挖掘提供了基础支撑,通过深入挖掘计量系统的海量监测数据,对窃电用户的类型及规律进行特征刻画与分析,建立数据分析模型,实时监测窃漏电情况,筛选风险用户、确定检查方向并制定检查计划。
针对反窃电的数据挖掘问题,王颖琛等利用随机矩阵分析法构建窃电风险识别模型筛选窃电风险用户[1],乔亮等根据报警事件发生前后客户计量点有关的电流、电压、负荷数据情况等,构建基于指标加权的用电异常分析模型检查窃电行为 [2],曹峥等使用有监督方法,构建大量业务指标并转换为数据指标,构建窃电风险模型[3],这些研究应用一定程度上提高了反窃电的工作效率。大部分电力业务系统的窃电标识较少,常规分析挖掘方法对窃电风险用户的识别效率有限,但电力业务系统累积了海量的窃电未标识数据,所以,应用效果与实际需求还有一定的提升空间。
本文以有效识别窃电风险用户为研究目的,基于营销系统、生产系统及计量系统等信息化系统的数据,借助半监督分类方法,使用Oracle 11g与R-3.3.0等工具进行数据挖掘,充分利用海量窃电未标识数据,有效识别窃电风险用户。
1 半监督分类模型
许多实际应用中,样本的有类标识的判定成本较高,由此,许多情况下,样本中包含极少量的有类标识的样本和过剩的无类标签的样例[4-6]。半监督分类为了弥补有类标识的样本L不足的缺陷,在有限的有类标识的样本中加入大量的无类标签的样例U,期望训练得到分类性能更优的分类器,从而识别无类标签的样例T的类标签[7, 8]。
协同训练方法的是最初提出的基于差异的半监督分类方法[9],这个方法需要满足两个假设条件:(1)视角充分冗余假设,即有类标签的样本数量足够;(2)条件独立假设,即每个视角的特征描述都条件独立于另一视角的特征描述。
在有类标签的样本Y={y1,…,yl}中,从两个不同视角出发,根据已知标识及特征,每个视角获得样本Lj={(x1,y1),…,(xl,yl)},学习特征到标识的映射f为式(1)。f:X→Y
(1) 得到学习机两个不同的学习机Hj=f(x),j∈{1,2},其中,样本x∈Rm,类标识y{c1,c2,…,cC},cm∈N,=1,…,l。
然后用这两个学习机Hj=f(x),j∈{1,2}预测无类标签样例U={xl+1,…,xl+n}的类标签,每个学习机选择标记结果置信度最高的预测类标签V1={(xl+1,yl+1),…,(xl+k,yl+k)},k≤n,加入另一个学习机的有类标签的样本集中L2。
这个过程反复迭代进行,直到满足停止条件,获得最终的识别模型H,用于预测样本T={xtest1,…,xtestt}的分类标识为式(2)。H(t)≈y, y∈{c1,c2,…,cC}
(2)2 半监督分类的三训算法
在窃电风险识别的实际问题中,训练数据往往不满足视角充分冗余假设,三训算法是由Zhou提出的一种协同机制的半监督分类算法[10],算法通过构造三个不同的分类器进行协同训练,最后通过Baggng算法进行集成[11-13],对于数据集不需要两个冗余角度。
假设初始的少量有标记样本集为L={(x1,y1),…,(xl,yl)},未标记样本集为U={x,x∈U};首先对有标记样本集进行可重复采样 [14]以获得三个有标记训练集L1,L2,L3;对三个不同的训练集进行训练为式(3)。L1={(x11,y11),…,(x1l,y1l)};f1:X1→Y1
L2={(x21,y21),…,(x2l,y2l)};f2:X2→Y2
L3={(x31,y31),…,(x3l,y3l)};f3:X3→Y3
(3) 得到三个初始分类器H1={H1,H1∈H1},1≤≤3;在三训算法的迭代过程中,每个分类器新增的训练样本由另外两个分类器协作提供。对于分类器H11,如果H12和H13对同一个未标记样本x(x∈U)有相同的标记,那么将x标记为H12(x),并将x加入到H11的训练集L11,可得到新的H11训练集为式(4)。L11=L1∪{x∈U,H12(x)=H13(x)}
(4) 同理,H12和H13的训练集分别扩充为L12、L13。
用新扩充的训练集分别重新训练为式(5)。L11={(x11,y11),…,(x1l1,y1l1)};f11:X11→Y11
L12={(x21,y21),…,(x2l1,y2l1)};f12:X12→Y12
L13={(x31,y31),…,(x3l1,y3l1)};f13:X13→Y13
(5) 获得三个分类器H2={H2,H2∈H2},1≤≤3。
如此重复迭代,每次迭代获得三个分类器为式(6)。Hj={Hj,Hj∈Hj}, 1≤≤3, j>1
(6) 直到三个分类器不再变化为式(7)。Hn-1≈Hn, n>1
(7) 训练过程结束。
3 建模及仿真研究
3.1 特征设计
本文分析窃电相关业务整体流程,从业务角度刻画业务特征,并设计业务指标,共設计出14个业务指标,有关业务指标的含义如表1所示。
3.2 算例数据
本文选取广东电网的高压用户相关数据进行研究与应用,将业务指标映射到业务系统的数据字段,包括“用电客户表”、“运行变压器”、“应收电费记录”等九张源数据表,选取各个源数据表的时间范围为2017年7月-2018年6月。利用数据量化业务指标,获得业务指标的数据计算规则。
基于数据计算规则对多个数据源进行聚合汇总,提取检查项目结果表中高压用户的特征数据与标识数据,以2018年6月的窃电标识结果及其前1年的行为特征数据构建训练集,其中,训练数据集包括322 768条样本记录。同时,对源数据进行质量检查,包括检查原始数据的完整性、取数范围、异常情况等。
本文对数据集中大量缺失值、异常值等脏数据进行相应预处理,获得含有类别标识的数据集6 747条样本及218 473条未知标识样本,其中有类标识样本包括446条窃电用户标识样本及6 301条非窃电用户标识样本。
3.3 评估方案
针对二分类问题,普遍采用混淆矩阵对分类模型的预测结果进行效果评估。如图1所示。
其中,针对窃电风险用户的识别问题,供电企业实际业务人员更为关注窃电用户识别的正确率,因此,研究人员通常采用反映模型预测全面性的覆盖率、反映模型预测准确性的命中率及反映模型识别效率的提升度刻画识别正确率为式(8)-式(10)。TPC=TPTP+FN
(8)
TPH=TPTP+FP
(9)
lft=TPH(TP+FN)/(TP+FP+FN+TN)
(10) 本文将获取的数据集按照7∶3的比例进行划分,70%的数据作为训练数据集,30%的数据作为测试数据集。
3.4 研究结果
针对当前常用的有监督算法,选择logstc模型、随机森林、支持向量机作为三训方法的3个分类器,通过拟合本文准备的数据,三训算法的最大迭代次数为16。
利用测试数据集测试不同算法的窃电用户识别率,获得窃电用户识别的命中率、覆盖率及提升度,有监督分类模型的命中率最高46.4%,半监督分类模型的命中率可以48.3%,有监督分类模型的覆盖率最高达到59.8%,半监督分类模型的覆盖率则达到64.1%,半监督分类模型对比空模型可提升53%的识别效率,如图2、图3所示。
4 总结
对比传统地利用有监督学习模型进行窃电排查,本文通过半监督学习模型,基于已知窃电标识数量少的实际情况,利用广东电网海量的无类标识数据,有效提升窃电用户识别效率。本文的研究与实践过程中,根据半监督学习模型识别的用户,向实际业务人员提供窃电高风险用户清单,并分析窃电用户的用电行为,探索窃电行为规律,帮助业务人员更高效地进行反窃电排查工作。实践证明,模型可以为电网企业的反窃电工作提供有力的支撑。
参考文献
[1] 王颖琛,顾洁,金之俭. 基于高维随机矩阵分析的窃电识别方法[J]. 现代电力2017,34(6):71-78.
[2] 乔亮,杨丽.地区电网在线安全稳定预警与辅助决策系统.电力系统保护与控制.2016,44(24):164-169.
[3] 曹峥,杨镜非,刘晓娜.BP神经网络在反窃电系统中的研究与应用[J].水电能源科学,2011,29(9):199-202.
[4] 刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617.
[5] 崔宇童,牛强,王志晓.基于信号传递的半监督谱聚类社区发现算法[J].计算机工程与设计,2018(5):1201-1205.
[6] 蔡毅,朱秀芳,孙章丽, 等.半监督集成学习综述[J].计算机科学,2017(S1):7-13.
[7] 孟岩,汪云云. 典型半监督分类算法的研究分析[J].计算机技术与发展,2017(10):43-48.
[8] 许勐璠,李兴华,刘海.基于半监督学习和信息增益率的入侵檢测方案[J].计算机研究与发展,2017(10):2255-2267.
[9] Blum A, Mtchell T. Combnng labeled and unlabeled data wth co-tranng[C]//Proceedngs of the 11th Annual Conference on Computatonal Learnng Theory. Madson, USA, 1998:92-100.
[10] Zhou Z H, L M. Tr-tranng: explotng unlabeled data usng three classfers[J]. EEE Transactons on Knowledge & Data Engneerng,2005,17(11):1529-1541.
[11] Blum A. Combnng labeled and unlabeled data wth co-tranng[C]//Proceedngs of the eleventh annual conference on Computatonal learnng theory(地点), 2000:92-100.
[12] 高玉微.CBR 系统中基于半监督 ELM 的相关反馈研究[D].保定:河北大学,2014.
[13] 夏陆岳,王海宁,朱鹏飞,等. KPCA-baggng集成神经网络软测量建模方法[J].信息与控制,2015,44(5):519-524.
[14] 王焱,汪震,黄民翔,等.基于OS-ELM和Bootstrap方法的超短期风电功率预测[J].电力系统自动化,2014,38(6):14-19.
(收稿日期: 2018.09.07)
作者简介:冯歆尧(1991-),男,天津市人,大数据工程师,研究方向:大数据研究及数据挖掘技术。
黄剑文(1962-),男,广东梅州人,教授级高级工程师,研究方向:电力信息系统建设与技术管理。
孟禹(1982-),男,广东广州人,大数据项目经理,研究方向:电力系统的大数据挖掘项目建设与管理工作。文章编号:1007-757X(2020)01-0154-03