任禹同,曹晓冬,李世洁,黄艺璇,吴恒
(1.江苏智臻能源科技有限公司,南京 211100;2.国网江苏省电力有限公司 电力科学研究院,南京 210008;3.国网江苏省电力有限公司,南京 210024)
随着全球进入信息化、数字化时代,中国的城镇化和城市化发展日趋成熟,大数据挖掘、云计算、人工智能、高级量测等技术应用日趋广泛,对我国社会治理的思想观念、体制建设、技术手段等方面提出了新的要求。市域社会治理是国家治理的基石,也是实现国家治理体系现代化和治理能力全面化的基础工程[1]。现阶段,推进数字化等创新技术与多维数据驱动的市域社会治理深度融合,充分发挥多维数据、科技创新的支撑作用,提升市域社会治理的智慧能力水平,是当下研究的热点。
电力数据具有巨大的潜在价值,具有典型大数据特征[2]。文献[3]归纳了智慧城市对电力数据挖掘的整体需求,从服务政府角度出发,可在区域经济发展趋势、城市人口精细化管理以及电价等相关扶贫政策制定等多个领域提供决策依据。针对数据融合方面,文献[4]应用Logistic回归建立了气象因素条件与电力事故的影响模型,探究了电力数据与如气象数据、地理信息数据等非电数据深度融合分析,在决策中发挥日益重要的作用;文献[5]中,美国学者基于电力数据、土地使用数据以及人口统计数据等,利用电力数据与多源数据融合技术以及数据可视化技术直观显示出不同建筑在各个季节的能耗,支撑能源投资与能源使用效率以及公共服务决策。在非电力工业方面,文献[6—8]研究了挖掘电力数据与企业排污的潜在关系,构建分析模型对治排污设备启停状态进行智能监控与识别,帮助监管部门准确掌握污染企业生产规律及治排污状态提供技术手段,为其精准执法和科学制定管控措施提供技术支撑。在电网方面,文献[9—14]阐述了基于电力数据的挖掘,支撑了电网公司内部的营、配、用的精益化和数字化管理水平,分析了在电网的安全运行保护能力、供需服务水平以及公司降本增效等方面的作用。虽然国内外对电力大数据融合分析在智能配用电、智慧城市、公共服务决策、环境污染治理以及经济发展等宏观政策方面具有一定的研究,但电力公司利用电力数据多源数据融合辅助服务市域治理发展,支撑公安、应急、民政等领域数字化转型上尚缺少深入的研究成果以及清晰的应用框架。
本文聚焦公安部门重点人群监管业务需求,通过挖掘电力数据价值,融合多源数据分析,以非介入式负荷辨识技术为依托,首先总结了市域社会治理与电力大数据的研究现状,然后分析面向公安的市域治理应用需求,构建了用电大数据与多维数据融合支撑公安市域治理的典型应用架构,并对重点人群异常行为研判进行分析,设计重点人群用电异常管理机制,探索和推动电力大数据挖掘分析在市域治理中的应用。
公安部门面对市域社会治理现代化的要求,应坚持以需求为导向,以应用为核心,结合市域实际情况,融合数据资源,不断提升公安部门市域社会治理的系统化、精细化、安全化、智能化水平。通过用电大数据与外部数据融合分析在智慧安防小区建设、重点人群管控、社会治安状况等方面丰富管理手段,完善风险防范、预测预警、闭环管理、综合处置的公安市域社会治理防控体系建设[15]。对分散、孤立的信息进行归纳、总结及深度分析,利用数据冗余性和互补性,发现其内在隐藏的潜在关系,对公安市域社会治理多个领域提出有分析、有建议的辅助决策信息,支撑公安市域社会治理精细化、智能化、安全化建设。公安市域社会治理的数据挖掘应用需求如表1所示。
表1 面向公安市域社会治理的数据挖掘应用需求Table 1 Data mining application requirements for social governance in public security cities
重点人群是指危害国家安全和社会治安嫌疑或疫情居家隔离人员等,由公安机关重点管理的人员,重点管理是公安机关依照相关规定对嫌疑人员实施重点管理的一项基础工作[16]。随着经济社会的不断发展,重点人群漏管、脱管、失控等现象频发,公安机关管控难度增大。基于细粒度用电数据与多维标签数据融合分析可以辅助公安部门对重点人群在室异常用电行为进行及时预警[17],支撑市域治理重点人群管控。
应用基于经典电气特征提取的非介入式负荷辨识技术采集用户用电数据,该技术随着在线辨识技术和机器学习在非介入辨识中的应用,实际辨识精度已达到较高的辨识精度,因而文章中由于非入户辩识设备造成的各电器用电量数据的微小误差忽略不计。
(1)用电特征量提取方法
基于采集和已收集的数据,选取的用电特征如下
式中:Et为日总用电量;AIRd为日空调用电量;Hd为日电热总用电量;N为日热水器总用电量;AIRr为日用电电器类型数;Hr为日空调用电量占比;Kr为日电热总用电量占比。
首先通过公安部门对待分析对象进行类型标记匹配用户信息,获取当日的天气数据,选择与当日天气相似的i个历史日数据通过聚类算法筛选有效电力数据指标[18],构建典型负荷特征向量。
(2)余弦相似度分析方法
选择提取的用电特征作为影响参数,设i个历史日影响参数的特征向量为Xi=[xi(1),xi(2),…,xi(n)]T,待分析日为X0,n为影响参数的数量。
文章的负荷特征相似度筛选中,天气数据相似的情况下在用电室行为是否相似是作为判断用电态势相似与否的指标,因此,向量夹角的余弦值能筛选出用电态势的关联相似度,所以i个历史日的特征参数与分析日的特征参数向量的余弦相似度为
(3)加权余弦相似度模型
为精确特征选取的关联性,在选取函数中应加入权重分析,专家打分一般受限于制定过程都缺乏知识、经验等度量信息的无序程度,所以引入熵权法在权重确定上进行修正,从而获得更为优质的权重值[19]。针对已选取特征参数相对于选取日的相对重要程度,构造判断矩阵(ui,j)n×n,其中ui,j为参数j相对于历史日i的相对重要程度系数,越大指标j越重要,n表示矩阵的阶数即参数数量。
判断矩阵标准化为Q=()qi,j n×n。qi,j为参数j的第i个历史日的比重[20],计算公式为
计算参数j的信息熵ej,计算公式为
计算熵权ωj的公式为
综合熵权法所得权重,加权余弦相似度为
文章所提出的研判流程实现如图1所示。
图1 在室行为异常监测技术Fig.1 Indoor behavior monitoring technology
图2展示了基于电力大数据与多维数据融合的重点人群异常行为系统应用架构设计,其主要特征如下。
图2 重点人群异常行为应用架构Fig.2 Abnormal behavior management mechanism for key groups
(1)平台层。公安部门、供电公司、气象部门进行数据共享和对接,将数据输入至智能中台,高级量测终端将采集的细粒度用电数据上送至智能中台,智能中台根据技术层所输出的重点人群异常感知结果,可将异常结果推送至公安部门,公安部门也可对标注的人员进行管理。
(2)技术层。非介入式负荷辨识技术支撑高级量测终端采集细粒度用电数据,算法库支撑数据的融合、分析、拟合、迭代以及模型输出,重点人群异常感知模型根据迭代的算法对异常阈值进行实时更新。
(3)业务层。根据公安部门对重点人群进行标记,根据标记信息进行数据匹配,平台层根据输出的结果推送至公安部门,形成公安部门标签输出到结果输入的闭环管理流程。
该研究成果在江北新区公安部门的数字化市域治理项目中进行了应用,该项目位于南京江北新区,覆盖3个小区526个用户,安装65台终端,标记79个标签用户。现场安装如图3所示。
图3 智能终端实物及安装示意图Fig.3 Physical drawing and installation diagram ofintelligent terminal
根据公安部门提供的标签信息,选择某小区某一标签用户进行分析,获取外部气象、节假日数据,待测日气象环境特征数据如下表2所示。
表2 待测日气象环境特征数据Table 2 Meteorological environment characteristic data of the day to be measured
根据待测某日的环境特征数据选取与之相似的10日作为历史日。选取10个电力负荷辨识数据以及计算得到的特征作为用户的特征标签。设10个历史日的特征向量为
根据密度聚类得到典型日特征向量如下式
选取两个该环境特征下的待测日特征向量X1,X2,待测日1、2的特征向量如下
待测日1、2的日细粒度负荷曲线如图4、图5所示。
图4 待测日第1日细粒度负荷堆叠图Fig.4 Stacking diagram of fine-grained load on the 1st day of the day to be tested
图5 待测日第2日细粒度负荷曲线Fig.5 Load curve of fine-grained load on the 2nd day of the day to be measured
熵权法计算各特征基于历史日的特征权值如表3所示。
表3 熵权法计算权重结果Table 3 Weight calculation by entropy weight method
历史日影响参数的特征向量Xi与待测日特征向量X1,X2及各参数权重值构建加权后特征向量为
根据取值范围为[1,-1],其取值越大,向量的形态越相似,其在室行为越正常,根据该原则设定相似度的预警阈值为0.7。
通过计算历史日特征向量Xi与待测日X1,X2的加权余弦相似度得到计算结果为
典型日与待测日1、2的日负荷曲线如图6所示。
图6 典型日与待测日1、2的日负荷曲线Fig.6 Daily load curve of typical day and day 1 and 2 to be measured
通过计算结果与预设阈值比较,待测日1计算结果G1>0.7,判断该重点人员用电正常与历史典型日相似;待测日2计算结果G2<0.7,判断重点人员存在高可能性的用电异常,用电态势与历史典型日存在差别。
根据电力数据挖掘分析提供的重点人群在室用电异常功能,通过与未进行权重分配的余弦相似度计算进行对比,结果如表4所示。
表4 在室用电异常研判结果对比Table 4 Comparison of research and judgment results of abnormal indoor power consumption
通过比对可以看出,通过权重分配后的计算结果较未进行权重分配的计算结果,与典型日相似的结果更趋于相似,与典型日有差别的差别更明显,通过特征权重分配机制,更能准确反映样本之间的相似性,使其更贴近于实际。
考虑到重点人员行为异常分析中的4种情况,构建异常判别混淆矩阵,如表5所示[20]。
表5 异常判别混淆矩阵Table 5 Anomaly discrimination confusion matrix
文章采用TPR、TNR、W、Accuracy作为检验标准,如式(11)—式(14)所示:
式中:TPR为实际异常用户判对数TP除以实际异常用户总数TP+FN,TPR数值越大,说明模型对异常用户判别准确率越高。
式中:TNR为实际正常用户判对数TN除以实际正常用户总数TN+FP,TNR数值越大说明对正常用户判别准确率越高。
式中:W为两类用户判对率的几何平均数,能够兼顾反映模型对异常用户的判别准确率以及正常用户的判别准确率。W数值越大,表示模型能够同时准确的判别用户行为正常及异常。
式中:Accuracy为所有被正确判别的样本个数TP+TN除以总样本数TP+TN+FP+FN,为所有被模型准确判定的样本比率。Accuracy数值越大,说明模型总判别准确率越高。
文章选取试点应用的79个标签用户以及447个非标签用户,两类用户分别2021年6月至2021年10月内每户选取10天作为两个数据集,验证在室用电行为异常分析模型的异常判别能力,并通过系统数据观察分拣以及标签用户走访进行验证,在表6中描述了这两个数据集的基本信息。
表6 试点应用区域数据集描述Table 6 Data set description of pilot application area个
分别通过加权余弦相似度及余弦相似度验证各用户待测日与典型日的相似性,模型精度结果如表7所示。
表7 数据集模型精度对比Table 7 Comparison of data set model accuracy%
如表7数据所示,在两个数据集上,通过采用加权余弦相似度判别用户典型日与待测日相似性的对标签用户及非标签用户的效果,从数据上显示,该方法用于标签用户异常判别精度较高,总体来看,判别精度要明显好于余弦相似度,从而证明了采用加权余弦相似度对用户进行行为异常分析是可行的且准确率高于余弦相似度方法,尤其是对于标签用户效果更优。
文章基于多维电力数据融合,创新构建了重点人群在室异常行为分析模型,并从技术层、平台层、业务层进行应用架构设计,形成了一种全新基于电力数据融合的重点人群在室用电行为分析方法和应用模式,并在南京江北进行落地应用。
未来市域治理将是数据流、技术流以及业务流的共同承载者,同时也是电力大数据与多维数据融合开展市域治理监管的可视化窗口。文章通过电力大数据融合分析对公安部门重点人员在室用电行为异常进行研究,为公安部门重点人群管理效率提升、降低人员投入提供新的技术手段,但在未来的应用过程中在异常分析的基础上,异常产生因素及原因尚需进一步完善与研究。D