万婵, 冯歆尧, 梁盈威
(广东电网有限责任公司, 广东, 广州 510000)
客户关系图谱(customer relationship map,CRM)可以有效识别客户自身的属性数据与其他领域融合度的数据[1-2],并对电网企业与客户之间的流动数据进行关系评定,为电网企业的数据分析、设备调度提供客观、准确的支持[3-4]。本文以行业动态、气象信息、工商等为跨领域范围,构建电网企业与客户之间的图谱模型,分析模型的有效性、准确性以及计算时间,为电网企业的整体调度与管理提供数据和案例支持。
为进一步增加图谱的构建关系,需要对电网企业客户关系进行数学分析,后期的量化分析奠定基础[5]。
跨域数据融合存在2个难点问题:① 海量的非结构化数据,部分半结构化数据以及低价值数据,增加融合数据的处理量;② 多源性的动态数据,提高了融合的复杂度。上述2个难点降低了客户关系图谱分析的准确性和有效性[6-7],如图1所示。
由图1可知,客户关系图谱要针对金融、电力行业、气象等领域进行数据的综合分析,并对结构化、非结构化和半结构化数据进行动态分析、推理和评价,最终得到客户需求、检测、反馈和服务效果判断,以判断电网的负荷、运行情况和供电质量结果。
图1 客户关系图谱的数据流动过程
为了更加准确、高效地进行数据融合分析,构建客观的电网企业关系图,需要进行数据流描述。目前,对于数据流的综合算法包括遗传算法、人工鱼群算法、贝叶斯算法等[8]。跨域数据具有大数据特征,需要进行特征数据抽取处理,以简化数据的计算量。具体数学描述如下。
(3) 不同领域数据的融合,采用融合函数φ(x)计算融合程度,并调整融合的比例。融合函数的计算公式如下:
(1)
其中,αi描述为i行业的融合调节体系,该系数是各行业实践经验统计的结果;ξ为各行业调节误差的平均值,调节误差是实际统计与理论分析的统计结果。
(4) 不同领域的数据以电网企业调度中心的服务器为基础,计算客户关系图谱的构建时间T、计算效果θ以及融合数据的简化率wI(以出现频率作为参照,进行简化率计算),具体公式如下:
(2)
其中,GIj为j类型数据的I行业信息的出现次数,GI为I行业信息在电网融合数据库中的总量,Gj为j类型数据的总量,wI为I行业信息的简化程度。
本文采用退火模拟算法的Metropolis接受准则,对重要性进行判断,其初始依据为50%,即数据融合对图谱模型的价值>50%,才能被选为初始数据。假设数据的初始价值为VI,那么其是否需要提升自身的价值,即VI向VI+1转变进行以下公式计算:
(3)
2.2 跨域数据与电网企业客户间的数据关系算子构建
跨域数据与电网企业客户之间建立复杂的多元关系,可以通过局部拟合Pc和整体拟合Pm的方式进行判断[9-10]。局部拟合分为跨域数据局部拟合Pc1和电网企业客户局部拟合Pc2,整体拟合为跨域数据与电网企业客户间关系的反映,即本模型构建要得到的最终拟合值。
如下:
(4)
在初始精度要求的情况[11-12]下,对数据拟合的3方面内容进行精准判断,以得到关系图谱的计算精准度,计算公式如下:
(5)
针对上述各算子的模型构建,进行以下几方面的计算。
(1) 构建跨域数据融合的信息集合,C={c1,c2,…,ci},剔除数据中影响价值<50%的数据,并设置预设的阈值、权重和计算精度。
(3) 预处理后的数据进行局部拟合和整体拟合分析,得到Pc和Pm的拟合值。
(4) 对整个数据拟合进行遍历,直到所有的数值均被遍历,并依据预设的迭代次数进行MATLAB仿真分析,计算不同迭代结果的平均准确度、模型构建时间、依据模型与原有BP算法的精准度差异。
以中国电力网(http:∥www.chinapower.com.cn/)、《2020年中国统计年鉴》、中国商业数据网数据为辅助。同时,借助Neo4j、Flock DB、AllegroGraph等融合技术,利用模型进行客户关系图分析。电网的运行负荷xi、客户与电网企业间的状态xj、客户得到电能质量xk的输出精度设置为0.1,并将拟合初始值设定为78%,局部阈值设定为69%,迭代次数为150次。数据采集样本为2 031份,商业类数据占23.1%,电力行业类占72.3%,气象类占3.6%,其他类数据占1%。采集数据通信采用TCP/IP、HTTP协议,数据传输采用光纤、Wi-Fi、GPS和ZigBee通信。
利用Metropolis接受准则和k-means聚类对采集的数据进行简化,剔除不符合阈值要求的数据,即简化程度=剔除后的数据/原采集数据总量。对跨域数据进行简化,在特征值的不断计算过程中,数据的简化程度大幅提高,如图2所示。
由图2可知,不同领域的数据简化程度比较理想,且均>35%(注:如果曲线不收敛,则调整阈值,直至曲线收敛)。其中,气象数据的简化程度最高,其次为商业类数据和其他类数据,最低的是电力数据。商业类数据与电网企业客户的密切程度较高,但固定利率和长期的金融政策也使得其简化程度提高[13]。虽然实时监控使得数据量激增,但电网系统的智能化水平大幅提高,有价值信息比例较高,所以复杂程度的简化率仅为35%左右。
图2 不同领域数据的简化程度
在0.1精度标准下计算电网负荷判断xi、电网运行状态判断xj、电能质量xk的结果准确率,并分析金融、电力行业、气象等领域电网企业客户关系的融合程度Pc以及整体融合程度Pm。具体结果图3所示。
图3 跨域数据、电网企业客户、整体融合程度与计算结果的准确性
模型整体融合程度较高,均高于90%,模型的计算结果,精准度>90%,符合电力系统智能化管理要求以及电网供电服务的要求。电网负荷判断xi、电网运行状态判断xj、电能质量xk检测精度标准为0.1,是目前电网企业整体的运行要求,所以整体的精准度计算结果较好。
关系图谱的生成时间涉及节点结算、节点间关系,以及图谱的整体生成时间。针对上述3个方面进行分析,得到下面的仿真结果,如图4所示。
图4 客户关系图谱各阶段生成效果及运算时间
通过上述分析可知,客户关系图谱的节点、关系和整体生成时间均50 s以内,符合电网智能化管理的标准,也符合《电网运行准则》(GB/T 31464)的准则。图3中图形的具体生成过程如图5所示。由于Microsoft系统中的图形是自上而下地输出的,所有本文的关系模型也是自上而下输出的。图4中的图谱比例=图形以生成面积/总图形面积×100%,如图5所示,直至完成所有节点的分析。其中,整体时间=节点生成时间+客户关系生成时间+图形整体审核时间。
图4迭代过程的输出结果如图5所示。在图5中,客户关系图谱模型自上而下进行节点、客户关系进行图谱构建。第一~第三阶段是对整个图谱中节点、客户关系的分析;第四阶段是对整个关系图谱进行审核,审核各个节点、关系是否符合各自阈值,并最终输出结果。
随着电网智能化的快速发展,跨域分析客户关系成为客观需求。如何融合气象、商业、电力等领域的数据[12-13],促进相关数据的融合,并构建精准度较高的分析模型,是目前亟待解决的问题。本文利用k-means聚类和Metropolis接受准则,构建基于跨域数据融合的电网企业客户关系图谱模型,并进行MATLAB仿真分析。结果显示: 不同领域的数据复杂程度处理比较理想,且均>35%; 整体融合程度较高,均高于90%,模型的计算结果,精准度>90%,符合电力系统智能化管理要求以及电网供电服务的要求; 客户关系图谱的节点、关系和整体生成时间均在50 s以内,符合电网智能化管理的标准。