陈启鑫, 郑可迪, 康重庆, 皇甫奋宇
(1. 电力系统及发电设备控制和仿真国家重点实验室, 清华大学, 北京市 100084;2. 内蒙古电力经济技术研究院分公司, 内蒙古自治区呼和浩特市 010020)
电网运行中的输配电损失可以分为技术性损失(technical loss,TL)和非技术性损失(non-technical loss,NTL)两大类。NTL是指电网输配电损失中剔除TL后剩余无法用技术解释的部分,用户异常用电行为如窃电等,则是造成NTL的主要原因[1-2]。根据不完全统计,中国福建省每年因窃电行为造成的电费损失可达1亿元人民币,可以估计,在全国范围内的损失每年可达几十亿元人民币。美国在2009 年因用户窃电而导致电力提供商的损失约60亿美元[3]。美国智能电网咨询服务公司Northeast Group在2017年1月发布的研究报告[4]中指出,50个被调研的发展中国家大多面临严重的NTL,每年合计的损失达到647亿美元。纵向比较Northeast Group公司从2014年至今发布的同一系列报告[5],被调研的50个发展中国家2013年至2016年NTL的年均增长率约为11%,远远高于大多数发展中国家年均4%~5%的GDP增速。因此,NTL问题仍是一个亟待解决的难题。而随着中国新一轮电力市场化改革的不断深入,售电侧市场建设不断推进[6],在试点地区开始出现“自担风险,自负盈亏”的独立配电、售电公司,NTL的管理将直接决定售电公司的利润,因此异常用电检测对独立配电、售电公司的经营显得尤为重要。
与此同时,随着智能电网的发展,高级量测体系(advanced metering infrastructure,AMI)正逐渐建立,智能电表的普及率也不断上升。美国联邦调查局在2010年的一份报告[7]中指出,用户对智能电表的篡改每年造成波多黎各电力公司4亿美元的损失。中国2013年的新闻报道了全国首例智能电表高科技特大窃电案[8],窃电者为用户的智能电表安装窃电模块以减小表计的数值。可见,过去用户进行窃电所依靠的破坏传统电表或私拉电线等手段已经转变为通过数字存储技术和网络通信技术对智能电表的攻击[9],通过数据的篡改使对应时刻的用电量变小或直接归零,以帮助攻击者降低应付电费。
AMI体系下,用户的异常用电行为检测将从以下两个方面分别带来挑战与契机:一方面,针对智能电表的攻击将使得NTL的产生更加“没有头绪”;而另一方面,相比于传统电表的人工定期抄表,智能电表可实现每天数十次以上频度的用户用电数据记录,这些海量数据将为异常用电行为的检测提供“证据”。应用先进的异常用电检测方法,还可以进一步对异常用电用户进行更加精准的定位与更加细致的行为分析。研究表明,意大利某配电公司在安装智能电表后对窃电的检测率从5%提升至50%[10],效果明显。
传统意义上对于窃电行为的检测主要依靠配电公司派遣技术人员进行人工筛查,也有一些依靠摄像头或无人机监控以防止窃电发生的方法[11],这些方法通常会消耗配电公司较多的人力和物力。同时,物理上的监控依然无法避免通信和网络中的高级攻击手段对电表进行操纵或篡改。本文认为,为了解决异常用电行为带来的NTL经济损失,配电公司一方面需要在硬件技术层面提升电表的安全性;另一方面,应当进一步构建基于用户用电数据的异常用电检测工作体系,充分利用AMI的海量数据对电力异常用户进行筛查定位,这也是本文研究工作的重点。关于硬件反窃电计量技术方面的研究,读者可以参照文献[12-14]。
严格来说,异常用电检测与用户行为分析存在一定程度上的重叠。传统的用户行为分析目的是对用户进行精细化建模,提高负荷预测、需求响应等的精度,更侧重用户行为的分布、相关性研究以及可视化。异常用电检测则不仅局限于在用户用电行为中找出与期望不符的模式,还可以结合配电网运行状态、窃电者与配电公司之间的博弈行为进行更深入的研究。
本节主要介绍该领域研究的基本模型与共性问题,即攻击者与检测者在AMI下的相互关系与数据信息。现有的研究工作中,主要涉及的研究内容包括用户异常行为建模、异常检测算法研究、检测效果评价等。本质上,用户异常用电并非随机用电,即其异常行为由于其目的性也往往具有一定规律,攻击者模型即描述了这一规律。检测者模型则从检测异常的角度描述了一般检测算法的普遍性的数学目标,这也是后续所有分析工作的基础。最后,对研究中采用的数据集进行了简要介绍,这也是开展用电异常行为检测的基础性内容。
(1)
即篡改后的电费较原来更低。用户可能会将某几个时刻的智能电表读数直接篡改为0,或按一定比例削减自己的用电量,也有可能在不改变自己总体用电量的同时对自己的用电曲线进行移峰,以取得式(1)的效果。大部分窃电者通常会选择前两种篡改方法,有关移峰以规避高电价时段的更深入的讨论可以参见文献[15]。文献[16-17]提出了8种用户恶意篡改电表的模式,均与式(1)的形式相契合。
图1展示了实际中存在的6种攻击模式[17]对原始用电曲线造成的不同影响,可见在AMI体系下异常用电行为对用电曲线产生的变化多样。由于用户用电行为的随机性,异常模式识别的难度较大。
图1 6种攻击模式产生的异常用电曲线Fig.1 Abnormal electricity consumption curves resulted from six attacking modes
检测者在AMI和智能电表数据的支持下,可以应用集中式的电表数据管理(meter data management,MDM)[18]系统对收集到的数据进行分析。在MDM中,检测者可以应用一些软件和算法对用户侧的时间序列数据进行分析,并将其与历史趋势和同类型的数据进行对比,以检测窃电者或异常用户。当然,检测者也可以致力于提高电表的安全性和反入侵系统的构建。本文所讨论的检测方法主要是指MDM中的数据分析和异常检测算法。
D:{Mi}→{0,1}
(2)
式中:0代表正常用户,1代表异常用户。
还有一些检测方法不是直接对用户数据进行分类,而是给出了用户的异常指标,指标越大的用户异常程度越大:
D:{Mi}→[0,1]
(3)
式(2)和式(3)的表述没有本质的不同,最终还将归结到用户行为的分类。虽然整体上检测者的模型均符合式(2)、式(3)的形式,但是在实际应用中,为了建立从用电数据集到用电异常集的映射关系,研究者们从不同的角度建立了相关模型。本文从基于系统状态、基于数据驱动和基于博弈论3个角度对这些方法进行了归类,分别对应于物理系统、用电习惯、互动行为3个层面。从传统的物理系统层面,主要采用基于系统状态的方法,其核心思想是利用配电网状态估计与用户计量数据之间的矛盾进行NTL的检测。从用户用电习惯层面,主要采用基于数据驱动的方法,其核心思想是直接从用户用电曲线的形状和电量分布等特征出发实现异常检测。从用户和检测者的互动行为层面,主要采用基于博弈论的方法,其核心思想是根据攻击者和检测者的行为互动分析相应的博弈均衡,从而对不同类型用户间电量分布的差异进行NTL检测。
当算法完成对用户的分类后,检测者还需要消耗人力资本对检测出的异常用户进行调查,因此,检测方法D的准确性就显得至关重要。一方面检测者希望更多的窃电者被检测出来;另一方面则希望正常用户不会被误检为窃电者。为了衡量方法D的好坏,检测者通常应用表1所示的混淆矩阵。
表1 异常用电行为检测中应用的混淆矩阵Table 1 Confusion matrix applied in detection for abnormal electricity consumption behaviors
混淆矩阵将所有用户按照其实际归属和检测归属分为TP,FN,FP和TN这4类,TP和TN为正确分类的部分,比例越高说明检测效果越好。定义命中率(true positive rate,TPR)和误检率(false positive rate,FPR):
(4)
(5)
容易知道,TPR和FPR的取值区间为[0,1],TPR越接近1,FPR越接近0说明检测效果越好。除了TPR和FPR外,检测者常用的衡量指标还包括准确率ACC和F1值等。
改变D的分类阈值,使之由宽松到严格,可以得到连接点(0,0)和(1,1)的(FPR,TPR)的轨迹,即图2中的受试者工作特性(receiver operating characteristic,ROC)曲线[19]。越靠近左上的ROC曲线意味着在同样的检测命中率下造成的误检率越低,检测效果越好。随机猜测的ROC曲线是一条直线,任何情况下都满足FPR=TPR。
图2 3种检测方法及随机猜测的ROC曲线Fig.2 ROC curves by three detection methods and random guess
该领域研究目前的一个局限是没有开放的异常用电行为数据集。文献[20-22]等使用电网公司提供的保密数据集,而文献[16-17]等则基于开放的智能电表数据集和由作者定义的异常用电函数(符合本文1.1节中的攻击者模型)以生成包含用户异常用电行为的数据集。高质量的开放数据集包括:爱尔兰智能电表数据集[23]、伦敦低碳项目数据集[24]和澳大利亚居民负荷数据集[25]。
电网的物理本质决定了系统电压、注入功率等物理量的量测结果应基本符合潮流计算的结果,即系统状态具有一致性。在实际中,用户可能对功率读数进行篡改,也可能篡改电压、电流等配电网量测数据,但对多数用户来说,对这些数据同时篡改的难度较大,即使篡改也很难实现数据间的协同。因此可以利用用户侧的智能电表数据,结合配电网中的电压、电流和节点功率等额外量测数据进行检验。
文献[26]利用配电系统中的功率和电流数据进行线性回归,估计了配电线路的电阻,进而估计出配电网络的NTL,最终确定窃电用户。为了保证电阻估计值的准确性,必须保证回归所用到的数据是未经篡改的真实的功率数据和电流数据。文献[27]读入各种测量系统提供的配电系统的拓扑及各节点的电压幅值、相位及有功无功的注入,使用加权最小二乘法对系统进行状态估计,并计算系统目标函数值,当该值超过一定阈值时,即认为系统中存在测量值与正常值偏离的情况。随后,可以通过比较正规化的残差值来剔除经过篡改的测量值,使用余下的测量值重新对系统进行状态估计,直到目标函数值不再超过阈值。用最后的状态估计结果与最初的测量结果进行对比,即可确定经过篡改的数据。文献[28]利用配电网各节点的电压幅值和相角以及功率的有功无功数据和配电网的导纳矩阵,使用局部线性化的思想估计了配电网在各个时段的TL。作者假设总损失和TL均满足正态分布,通过各个时段的数据和计算结果容易知道二者满足的均值和方差。如果总损失和TL在概率分布上出现明显的差别,则一定存在NTL。文献[29]使用状态估计的思想,当状态估计的电压与实测节点电压出现差值时,从配电网的根节点出发,进行广度优先搜索,比较同一深度下的差值大小,以确定产生NTL的源头。当搜索至叶节点时,即完成了NTL 的路径寻找。此外,作者还考虑了地理信息系统(geographic information system,GIS)等作为辅助手段。文献[30]根据电网结构和实时测量结果进行系统状态估计,随后针对状态估计的结果应用深度置信网络进行实时坏数据注入(false data injection,FDI)检测,在仿真情况下检测准确率高达95%。
文献[31]假定窃电者在篡改电表时,篡改前后的数据满足非时变的函数关系。对该函数进行泰勒展开后可以用一定次数的多项式进行近似,当拥有区域内可靠的总能耗数据及各个子区域的电表读数时,可以通过拉格朗日插值法计算泰勒多项式的系数,确定篡改前后数据的函数关系。文献[11]是文献[31]工作的一个特例,当窃电者按一定比例篡改电表数据时,可以对总能耗数据及各子区域电表读数进行递归最小二乘(recursive least square,RLS),以较快的计算速度获得窃电的比例系数。文献[11,31]较好地解决了非时变窃电策略的情况,但在实际中,用户的异常行为几乎不可能一成不变,这将导致泰勒多项式的比例系数不再固定,作者提出的方法也不再收敛。
大部分状态估计的方法都依赖于配电网的详细拓扑结构和参数,但在实际中,配电网的某些连接会发生变化,而参数也未必一成不变,因此文献[27-29]中的算例以配电网中NTL的节点定位为主,而无法确定节点下具体发生异常用电的用户。文献[11,31]的方法则可以较好地应用于同一节点下窃电用户的定位问题,只要知道该节点下真实的总能耗数据和节点下各用户的能耗记录数据,就可以使用此方法确定发生窃电的用户。其缺点在于,当篡改前后的电表读数不再是固定的函数关系时,方法存在收敛性问题。
智能电网时代下用户用能数据被赋予了海量、高速和多样(volume,velocity & variety,3V)[32]的特性。数以百万计的智能电表每天以固定的高频收集大量的用电数据,气象和经济多样数据也被加入用户用能行为分析中,为基于数据驱动的异常用电行为检测提供了基础。本文将近年来应用于用户用电行为异常检测领域的数据驱动方法分为基于分类、基于回归以及基于聚类的3个子类。分类和回归属于有监督学习(supervised learning)的方法,而聚类则属于无监督学习(unsupervised learning)的方法。虽然这些方法的思想和模型不尽相同,但都遵循一个共同的假设,即异常用电者的行为模式将较正常模式发生偏离。
此类方法或模型根据输入的特征量将输入对应的集合划分为几类。在异常用电检测中,分类的目标则是根据用户的特征量将用户集划分为正常和异常两类。通常情况下,基于分类的方法需大量带标签的训练集提供样本,通过训练以提高分类的精度。
文献[22]使用了极限学习机(extreme learning machine,ELM)神经网络作为分类器,将标幺化的用户日负荷曲线作为特征输入,即可输出该用户是否存在窃电。作者使用了马来西亚某配电公司提供的数据验证方法的有效性,选取了sigmoid 和径向基函数(radical basis function,RBF)两种激活函数,最终分类的最高准确率达到54.61%。文献[33]使用了支持向量机(support vector machine,SVM)作为分类器,数据亦由TNB配电公司提供,除用户的日负荷曲线外还引入了配电公司给每个用户的信用评级作为特征输入。作者针对训练集进行了SVM的参数优化,使得最终的准确率超过了60%。文献[34]使用了多层感知器(multi-layer perceptron,MLP)神经网络作为分类器,并引入了一些新的优化算法,使得检测效果较原本的误差反向传播(back propagation,BP)算法有一个显著的提升。在一家巴西的电网公司提供的工商业和居民数据库上测试,检测准确率达到90% 以上。文献[21]将深度卷积神经网络(convolutional neural network,CNN)应用到异常用电检测中,并在国家电网提供的数据集中达到了90%~95%的准确率。
文献[35]讨论了几种用户用电数据异常的类型,针对这些类型对用户数据进行了特征提取,并使用k-近邻(k-nearest neighbors,KNN)算法对异常数据进行分类。文献[36]利用基于随机权网络的有监督学习构建随机森林(random forest,RF)模型,并对其进行稀疏化,通过Hadoop分布式计算实验验证了稀疏RF分类器对异常用电行为的辨识能力。文献[20]测试了逻辑回归(logistic regression,LR),KNN,SVM 和RF四种分类算法在NTL检测中的效果,并额外在特征输入中增加了邻居信息,各方法准确率约为60%。加入了邻居信息后的分类效果显著优于单纯对用户用电序列的分类效果。
一个分类模型的建立过程一般较为复杂,通常涉及激活函数的选取和参数的优化。由于使用了带标签的数据集,因此基于分类的方法具有较高的检测准确率,但带标签的数据集也成为其在实际应用中的一个短板。在智能电表安装初期,对应区域的窃电数据集完全空白,若想获得一个成规模的数据集,配电公司必须安排技术人员上门排查并对用户曲线进行标记。由于窃电发生的频率不高,因此获得数据集的过程将会是一个相当消耗人力、财力、时间的过程。
在电力系统中,回归方法常用于负荷预测、消费预测和电价预测等。应用此类方法进行异常用电行为检测的通常思路为:首先对目标用户进行短期负荷预测,再根据实际耗电量与预测量的偏差进行异常判断。假定负荷预测足够准确,当用户行为严重偏离预测值时,即出现异常情况,而一个经常出现异常情况的用户则很有可能是窃电者。
文献[37]首先根据用户的历史用电数据进行加权平均以预测未来的用电情况,再根据实际观测到的用电量与预测的用电量之间的偏离大小作为衡量用户用电行为异常程度的指标。文献[38]应用了差分整合移动平均自回归模型(autoregressive integrated moving average model,ARIMA)和人工神经网络(artificial neural network,ANN)对楼宇的天然气消耗量进行了短期预测,将预测值与实际值偏离较大的情况认为是异常情况。文献[39]使用了考虑外生变量的周期自回归(periodic auto-regression with eXogenous variables,PARX),并引入温度作为外生变量,根据历史数据给出用户用电量的预测,再假定用户用电量满足高斯分布,计算实际观测点对应的概率密度函数,当其小于一定阈值时即标记为异常点。
近年来学术界对电力负荷预测的相关研究非常深入,在信息足够的情况下对区域整体的负荷预测精度可以达到很高,但是由于用户用电行为的随机性,单一用户短期负荷预测的精度还不够理想。另外,由于每个人的用电模式不同,因此在异常检测时通常需要对每个用户建立回归模型,这将产生很大的计算量。为了提高预测精度,通常还需将电价预测、天气预报等外生数据作为模型的输入,即使如此,偶然事件所造成的用户用电不符合预期的情况仍无法避免。另外,基于回归的方法重视的是用户本身用电行为的变化,而缺乏了用户之间的横向对比。如果用户持续而有规律地进行窃电,则很难依靠现有的方法进行准确检测。
聚类通过某些特定的算法将相似的对象通过静态分类的方法分成不同的组别或者更多的子集,使得在同一个子集中的对象都具有相似的一些属性。近年来聚类被广泛应用于用户肖像描绘[40-41]中,以提取用户的典型特征。在异常检测中,需要对用户用电特征进行提取,并找出不符合多数用户用电行为的少数异常用电者。常见的聚类方法有基于划分、基于层次、基于密度和基于网络的等[42],应用于用电异常行为检测的主要有基于划分的和基于密度的两类。基于划分的聚类将用户的特征集合经过划分后将子集合中离中心较偏远的离群点作为异常点,基于密度的聚类则认为那些远离高密度点并且自己本身处于低密度区域的点属于异常点。
文献[43]使用了最优路径森林(optimum-path forest,OPF)聚类方法,并与著名的基于划分的聚类方法如k-均值(k-means)聚类、高斯混合模型(Gaussian mixture model,GMM)聚类和吸引子传播(affinity propagation,AP)聚类等进行比较,几类方法的准确率均在60%附近。文献[44]使用了模糊C-均值(fuzzyC-means,FCM)聚类以检测用户负荷曲线中的异常情况,并根据负荷曲线归属到各类的模糊程度来判断异常程度。文献[17]在k-means聚类、FCM和自组织映射(self-organized map,SOM)的基础上构建了半自动特征提取方法,实现基于特征的异常用电检测逻辑判断规则,在特定的攻击者模型测试中取得了较高的检测准确率。
文献[45]使用DBSCAN(density-based spatial clustering of applications with noise)聚类方法对用户负荷曲线的波动区间进行分簇,并计算离群对象的得分作为异常检测的依据,对比了不同参数下的ROC曲线。DBSCAN是一种基于密度的聚类方法,在该方法中,预先指定邻域的大小和阈值,即可将所有的数据点划分为核心点、可达点和异常点。文献[46]结合分布式流式计算平台Spark Streaming设计并实现了面向大数据流的快速流式DBSCAN聚类算法,提高了检测系统的实时性,使得密度聚类方法更贴近于异常检测的应用层面。
由于采用了无监督学习的方法,聚类的优点是不需要带标签的数据集即可进行检测,这非常适用于检测者在初期尚未构建异常用电数据集时的检测。其缺点是,传统的聚类方法如k-means聚类和DBSCAN等对参数的依赖性很强,而参数的选取通常不是一个简单的问题。尤其是DBSCAN中还需要对多个外生参数进行选取,甚至需要涉及网格优化等手段来提升效果,使得算法的复杂程度上升了至少一个量级。而在实际应用中,由于区域之间用电行为的不同,优化后的参数在不同区域甚至不同季节时段的适用性也不同,在新的区域或新的时段应用聚类时又必须考虑参数的重新优化。
博弈论[47]一直是研究多方主体决策行为的重要方法,目前在生物学、经济学和政治学等领域有着广泛的应用。近年来,美国和法国的学者们将博弈论应用到异常用电检测的领域[48-50],以分析配电公司和窃电者的决策行为,提出相应的异常用电检测方法,并为市场监管者和配电公司提供了相关建议。根据博弈论,每个用户的决策行为均为最大化自身效用,窃电用户的决策集与正常用户不同,最终将影响双方在付费电量分布上的不同,可以基于这种区别实现异常检测。
文献[48]对用户用电偏好和配电公司在存在窃电者时的利润进行了建模,分别分析了配电公司在未受电价管制和受到电价上限管制两种情况下的配电公司—用户博弈模型。用户的决策变量为付费电量qB和窃电电量qU,配电公司的决策变量为其向用户提供的电价方案T(·),需要向电网或发电厂购买的电量Q和反窃电设备投资水平e。配电公司和用户之间构成了非零和Stackelberg博弈。文中主要讨论了配电公司在反窃电设备投入方面的激励,以及电价上限管制对最优决策结果的影响。
文献[50]在文献[49]的基础上对博弈论的应用进行了更深入的研究,并对用户和配电公司效用建模中包括电价、窃电者比例等在内的更多参数进行了讨论,简化了似然比检验在用户用电量服从指数分布时的形式。作者讨论了窃电者在配电公司不同排查力度下的最大剩余情况,并与正常用户的最大剩余进行比较,阐述了用户本身存在着窃电的趋势。另外,作者还分析了配电公司在寡头垄断和完全竞争两种情况下的决策行为。
在博弈论的模型中,e的取值对应了图2的ROC曲线上的某一具体位置。在某一种特定检测方法下,e越大,则检测者投入的人力资本越大,允许派遣技术人员进行检查的人数越多,(FPR,TPR)越接近(1,1)。博弈论的应用可与其他方法相结合,指导检测者选取合适的阈值,最大化检测者剩余。
博弈论的方法贯彻了经济学研究的思想,更重视存在窃电情况下配电公司和用户双方主体的决策行为分析和建模,在具体的异常用电检测方案上没有过多的讨论,只提出了似然比检验的方法。其效用一致化和用户用电量独立同分布的假设,忽视了用户用电偏好的多样性和用电行为的差异性。而且,应用了博弈论的方法只经过了理论的推导和仿真,尚未得到实证的检验。
表2对比了基于系统状态、基于数据驱动和基于博弈论的NTL检测方法特点。由于各类方法对应文献较多,使用算法各不相同,命中率和误检率也有所差异,本文只给出其总体上的定性比较结果。
表2 各异常用电行为检测方法对比Table 2 Detection methods comparison of abnormal electricity consumption behaviors
检测者从AMI和智能电表数据出发,建立检测模型到最终完成异常用电检测,所涉及的关键技术包括数据集的处理、模型的选取构建、高效精确的求解技术等。
虽然在实际中,异常用电行为造成了严重的经济损失,但在数据集中,异常用电用户占全部用户的比例通常很低。不平衡的数据集会影响到算法的检测效果,因此检测方法必须适应不平衡数据集。假设100个用户中有5个异常用电者,若算法将所有用户都标记为正常用户,其准确率将达到95%,若算法将所有用户都标记为异常用户,则其准确率只有5%。由于许多算法本身是精度驱动的,模型的目标是最小化总体误差,而异常用户这一子类对总体误差的贡献很低,算法趋向于提高正常用户的分类准确率,往往忽视了异常用电者的检测率[51]。为了解决数据集不平衡问题,需要通过对数据集的重构与筛选,构建一个相对平衡的数据集,或基于表1的混淆矩阵提出更契合实际问题的检测效果衡量指标作为模型的优化目标。
特征选择是机器学习中的重要一步,直接影响到相关的异常用电检测算法的模型训练时间和最终检测效果。用户用电数据存在漂移、波动和可分解等特性,好的特征可以捕捉到用户数据的本质特征,提高模型在特定场景下的适用性,极大提升异常用电检测的效率。检测者可以选择直接将用户用电序列作为特征,也可以从负荷特性出发,构建如波动区间、曲线毛刺宽度等特征,还可以应用时间序列分析和机器学习的算法进行特征提取。时间序列分析算法包括傅里叶变换和Hilbert-Huang变换等,机器学习算法包括主成分分析(principal components analysis,PCA)[52]和稀疏编码[53]等。
不同的文献在测试检测模型效果时选用的数据集不尽相同。数据集包含的用户数量、NTL比例和时间尺度等因素均影响了检测效果,因此不能单纯从文献中的结果出发进行模型的选取。检测者需要从模型的基本原理出发,基于数据集实际的特点进行模型选取,综合考虑时间复杂度、空间复杂度和检测效果对模型进行构建。通常来说,复杂度较高的模型对于数据的挖掘可能更深入,但是在对检测实时性要求较高的场合,则需要兼顾模型的复杂度和检测效果。此外,考虑到用户数据的随机性,单一模型往往很难适应不同的场景,难以实现稳定的高准确度检测。检测者需要选取多个适用场景类似的模型,再使用Ensemble[54]等方法对模型进行综合构建,以优化检测效果。
未来的研究将与大数据技术结合,适应新的用户用能形势,检测方法也将更贴近真实场景,并能挖掘、利用更多信息。下文将从4个方面进行展望。
用户用能数据3V特性中的海量和高速特性需要应用高效的分布式计算和流式计算[55]等新的算法形式。现有文献中的方法以静态、集中式的为主,虽然在小数据集测试中取得了较好的效果,但较难适应大数据场景下的实际应用。目前常见的流式实时分布式计算平台包括Spark和Storm等,开发新的异常用电检测算法,并将其与这些计算平台进行结合将是未来的研究趋势。
另外,近年来数据挖掘领域的研究工作也取得了令人瞩目的成果,深度学习的方法在语音识别、图像识别和自然语言处理等方面达到了前所未有的高度。除了深度学习的方法外,还出现了新的统计分析方法[56]、密度聚类方法[57]等。将这些新的大数据方法进行改进并应用于异常用电检测,有望取得更高的检测率和更快的检测速度。
在能源互联网时代,可再生能源以高渗透率接入配电网,带来了新的不确定性[58]。随着分布式电源、储能和电动汽车在需求侧的普及,电能将在智能电表两端发生双向流动,用户用电行为也将发生较大变化。现有的异常检测方法主要基于对分布式电源和储能出力的估计而对用户实际用电量进行修正[59],精确的异常检测还需要更好地理解用户在源储车接入时用电行为的变化机理和外在表现。近几年的研究利用电价、气象等多元数据对能源互联网下的用户用电行为进行了更深入的研究,结合多元数据对用户在能量双向流动下的用电行为构建异常检测模型将是未来研究的热点。
许多NTL检测算法的应用场景有所不同,应有所区别,也可有机结合。基于系统状态的方法重视NTL的节点定位,另外一些方法则试图利用总能耗数据和用户能耗数据进行NTL的用户定位;基于数据驱动的方法侧重于在一定规模用户数据中找出异常用电的用户;基于博弈论的方法则主要考虑对用户用电序列进行假设检验。各类方法的应用场景各不相同,缺乏通用场景下的检测方法[60]。而在实际中,配电公司所面临的检测场景却往往有限,场景集本身具有较高的相似性。检测者通常拥有配电网的量测数据和一定量的用户数据,在这种情况下,需要将几种方法综合在一起,构建一个更为系统的异常用电行为检测框架,实现全场景下的异常用电行为检测。
现有的研究工作几乎都着眼于从用户曲线和智能电表实时能耗数据的角度进行异常用电行为的检测,这种实时数据中蕴含的信息量无疑也是最高的。然而,电网公司、配电公司等检测者在实际中还掌握了其他多时间尺度的数据,如用户的日电量、月度电量等。对于这些数据的挖掘,探索其中的行为特征与规律,无疑对于异常用电行为检测的过滤、分类、标签辨识和有效性印证等具有重要意义,也有利于降低异常用户定位工作的复杂度,提升整个检测过程的效率和准确率。因此,面向不同时间尺度的异常检测算法也是未来的一个研究趋势。
近年来,NTL给世界各国的电网企业带来了严重的经济损失,而利用AMI体系下的量测数据实现异常用电检测将有助于提高电网企业规避相应的损失,提高运营效率。本文首先介绍了异常用电检测的基本模型,将其抽象为一个普遍性的攻击者和检测者的互动模型。随后,对相关领域的文献进行了广泛的调研分析,将异常用电检测的方法归类为基于系统状态、基于数据驱动和基于博弈论3个基本类型,对不同方法的原理进行了论述,并从数据依赖、模型应用、建模复杂度、检测准确率等方面进行了比较,总结了不同方法的优缺点。最后,从数据和模型的角度归纳了异常用电检测的若干关键技术,并展望了未来的研究方向。
随着能源互联网的建设和电力市场化进程的加速,用户侧数据将更加丰富,而检测结果的应用场景也将进一步呈现,这些无疑将促进该领域研究工作的不断深入。
陈启鑫(1982—),男,通信作者,副教授,博士生导师,主要研究方向:电力市场、电力系统规划等。E-mail: qxchen@tsinghua.edu.cn
郑可迪(1995—),男,博士研究生,主要研究方向:用电大数据、能源互联网及负荷预测。
康重庆(1969—),男,教授,博士生导师,主要研究方向:电力系统规划、电力经济与信息等。