基于Hadoop框架的营配调数据处理模型的设计与实现

2019-03-23 02:28陆俊，李葵，周明，辛永，陆鑫

通信电源技术 2019年2期

陆俊，李葵，周明，辛永，陆鑫

（1.国网安徽省电力有限公司信息通信分公司，安徽合肥 230061；2.国网信通亿力科技有限责任公司，福建福州 350003）

0 引言

随着同期线损管理系统建设的全面推进，同期线损管理要求日益迫切，运检、调度、营销等各专业数据质量要求进一步提高，同时降本增效成为经济新常态下电网企业持续健康发展的关键支撑[1]。因此，亟需研究设计有效的治理方法，实现营配调各专业数据特性的自动匹配和识别，进而实现同期线损异常的自动排查，减少拉网式手工排查工作量，挖掘同期线损数据价值，为降损规划和专业管理提升提供有效支撑。

国内各级供电公司及研究院在营配调贯通数据治理方面进行了大量研究，取得了一定成果。例如，采用数据转档、信息采录、开启异动等操作实现营销配贯通[2]；以营配调贯通工程为基础，通过获取覆盖电生产运行到客户服务的全生命周期海量数据，结合大数据分析手段、数据挖掘技术，提出了电力公司智能预测、客服服务等高级应用的实现方法[3]；以GIS平台为基础，突破了营配调专业数据壁垒，设计了营配调数据融合业务应用平台，实现了电网基础数据质量和营配调协同工作效率的提升[4]；针对配电网信息共享和应用继承需要，构建了营配调一体化平台[5]。

本文采用相关性分析算法、BP神经网络-时间序列算法和基于分布式计算的TF-IDF算法组成的数据处理模型，自动甄别线变、台户关系错误数据，协助供电单位直接定位线损异常用户，减少人工核对工作量，有效解决同期线损中的营配调贯通问题，以真正为基层减负。

1 数据处理模型的设计

本课题研究的数据处理模型由五部分组成：数据预处理、供售电量差值计算、供售电量相关性计算、线损电量预测以及基于TF-IDF算法筛查异常挂点的设备，如图1所示。

1.1 数据预处理模块

数据预处理是在数据挖掘前对原始数据进行清洗、集成、转换、离散、归约等必要的处理，达到运用挖掘算法进行知识获取研究所要求的最低标准。通过数据预处理可完善残缺数据，纠正错误数据，去除多余数据，集成所需数据，转换合适的数据格式，达到数据类型相同化和数据格式一致化。总之，经过数据预处理可获取实验所需的样本数据，提高实验的可靠性和真实性。

图1 基于TF-IDF算法的同期线损数据治理模型

1.2 供售电量差值计算

预处理后的数据通过比较供电量和售电量的差值，初步预判一个地区是否出现线损异常情况。设定一个阈值ε0，将之与供、售电量的差值对比。若二者的差值大于阈值，则该地区存在线损异常，需采用TF-IDF算法查找线损异常的原因；否则，需要对供电量和线损电量进行相关性分析，判断该地区是否出现线损异常。

1.3 供售电量相关性计算

相关性分析是指分析两个或多个具备相关性的变量元素，衡量变量因素的相关密切程度。相关元素之间需要存在一定的联系或者概率可进行相关性分析，通常以元素之间的相关性系数来衡量它们之间的相关性。

相关性分析常用的相关性系数有两种：Pearson相关系数和Spearman相关系数。Spearman系数对处理的样本数据要求低，统计效能较低。Pearson系数较Spearman系数更适用等间距测度的变量间的相关分析。因此，本文采用Pearson相关系数进行相关性分析。

假设存在两个向量X=[x1,x2,…,xn]，Y=[y1,y2,…,yn]，则两者的Pearson相关系数计算公式为：

式（1）中，相关系r的绝对值越大，相关性越强；r的取值范围和相关性的对应关系如表1所示。

通过计算线损电量和供电量的Pearson相关系数，分析两者之间的相关性。若两者强相关（r＞0.6），则直接校验；否则，继续进行线损电量的预测。

表1 r的取值范围和相关性的对应关系表

1.4 线损电量预测

当线损电量和供电量不存在强相关关系时，通过算法获取预测售电量计算得到线损电量，然后将预测线损电量与实际线损电量相减。若差值小于设定的阈值（ε1），则直接校验；否则，数据处理模型会判定线损电量出现异常，此时需排查线损异常产生的原因。

售电量有不确定性、复杂性、条件性及多方案性的特点，需综合考虑多种影响因素从本质上提高售电量预测的精度。本文结合时间序列算法和BP神经网络模型进行售电量预测。应用时间序列典型分解法提取样本售电量序列中的趋势成分和周期性成分，将影响售电量主要因素作为BP神经网络输入，根据预测售电量计算线损率实现对异常线损的修正。算法流程如图2所示。

图2 BP神经网络-时间序列算法流程图

通过对样本数据进行多次模拟训练，建立日温度、日类型、历史售电量与预测售电量的对应关系，从而达到预测售电量的目的。

根据理论可知，供、售电量关系为：

由式（2）可知，当日供电量已知时，通过预测日售电量可计算日线损电量。通过BP神经网络-时间序列模型预测售电量后，根据式（2）得到预测线损电量L1。

1.5 基于Hadoop框架的TF-IDF算法筛查异常原因

为快速识别线损计算结果异常的原因，采用基于Hadoop框架的TF-IDF算法，并根据电力设备地址筛查电力设备的异常挂载情况，如线路、变压器的异常挂载，台区、用户关系的异常挂载，从而智能定位线损异常位置，提高线损异常的治理效率。

TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于咨询检索和文本挖掘的常用加权技术[6]，可评估单词对一个文件集或一个语料库中的一份文件的重要程度。TF-IDF算法的结果是词频TF和逆向文件频率IDF的乘积，即单词的权重。在某一特定文件内，高TF和在整个文件中的低IDF可以产生高权重。因此，该算法可以过滤常见的词语，保留重要的词语。

Hadoop分布式计算的核心是分割任务，并行运行。因此，TF-IDF的计算公式适合用分布式计算求解。TF只与它所在文档的单词总数及它在此文档出现的次数有关。通过分割数据，并行统计文档中单词词频TF，加快计算速度。得到单词词频TF后，确定包含此单词的文档个数，即能以并行计算的方式实现TF-IDF的计算。

2 工程示范应用

实验测试数据来自于山西省阳泉市区供电公司、国网阳泉供电公司、山西省阳泉郊区供电公司、山西省阳泉平定供电公司、山西省阳泉大户所和山西省阳泉盂县供电公司共6家供电公司，时间跨度为2015年5月至2017年7月。数据类型是包括供电量、售电量、线损电量及线损率数据项的电网运行状态数据，数据采集频率为1天/次。

2.1 相关性分析结果

应用Pearson相关系数计算阳泉市区及周边县城的电网中供电量和线损数据，结果如图3所示。

由图3可知，前5个地区的供电量和线损电量具有极强的相关性。但是，在盂县供电公司，其相关系数r只有0.154 6，说明该地区的线损数据可能存在异常，需要预测盂县的线损电量。

2.2 线损电量预测

由2.1章节的介绍可知，本文通过预测售电量预测线损电量。因此，预测模型的样本数据为售电量数据，预测盂县售电量的样本数据见表2。其中，节假日类型1表示为节假日，0表示为工作日。

图3 阳泉周边地区供电量与线损电量的相关性系数图示

表2 预测盂县售电量样本数据

线损电量预测模块将售电量的影响因素作为神经网络-时间序列模型的输入层，反复训练直至均方差达到0.002。应用训练成熟的模型对盂县售电量进行预测，结果如图4所示。

图4中，横轴表示样本数据的数量，纵轴表示输出样本和错误数据，黄色线段表示预测售电量和实际数据之间的差值。由于售电量预测结果与实际数据存在很大差距，因此线损电量的预测值也和实际值相差较大。因为差值超过了预设阈值，所以该区域存在线损异常，需要对盂县执行TF-IDF算法。筛选分析线损异常的原因，结果是电力设备异常挂载。

图4 线损预测结果展示图

2.3 TF-IDF筛查线损异常原因

对线损异常区域阳泉盂县供电公司所辖区域2 000多个台区逐一分析，识别台区中异常挂载的电力设备，以三个台区为例说明数据处理过程。

2.3.1 电力设备无异常挂载

以仙人台区的所有用户地址为例进行TF-IDF分析，结果如表3所示。

表3 仙人台区用户地址词频分析结果

由表3可知，“山西省”“阳泉市”“盂县”“仙人”四个词语的TF值相等，说明四个词语在该台区的所有用户地址中出现的概率一样，没有某个词语出现频率异常低，可判定该台区没有异常用户。

2.3.2 电力设备出现异常挂载

以李家庄台区的所有用户地址为例进行TF-IDF分析，结果如表4所示。

表4 李家庄台区用户地址词频分析结果

由表4可知，“潘”的TF值远远小于其他词语，说明李家庄台区内的用户地址中带有“潘”的用户有可能不属于该台区，而营配调系统把这些用户归为李家庄台区。李家庄台区的用户地址分布如表5所示。

表5 李家庄台区用户地址分布

对该台区的46个用户地址进行统计，带有“潘”的用户地址在李家庄台区中只有10户，带有“李家”的用户地址有36户，故地址带有“盂县西潘乡”的用户可能不属于该台区。把这些用户的地址反馈给工作人员，经现场校验，表明这些用户实际中确实挂载在该台区内，无异常挂载情况，无需在营配调系统中修改其挂载关系。

为了再次验证TF-IDF算法的准确性，以东杜台区的所有用户地址为例进行TF-IDF分析，结果如表6所示。

表6 东杜台区用户地址词频分析结果

通过统计分析东杜台区的74个用户地址发现，地址中带有“山西省阳泉市盂县路家村镇东杜村”的用户有73户，地址中带有“山西省阳泉市盂县西潘乡”的用户仅有1户，说明该用户极大可能出现异常挂载。经工作人员现场校验发现，该用户确实不属于该台区，需在营配调系统中修改其挂载关系。

数据处理模型通过分析盂县供电量和线损电量的相关关系，判断盂县可能出现线损异常，采用TF-IDF算法分析盂县的所有线变关系、台户关系，表明有26个台区可能出现异常挂载。经工作人员现场校验，确定其中的16个台区出现异常挂载情况。通过在营配调系统中纠正错误的挂载关系，该地区的线损异常情况得到极大改善。

综上所述，本文建立的基于Hadoop框架的数据处理模型提高了解决线损异常原因-电力设备异常挂载的准确率，有效减少了人工现场排查的盲目性和工作量，大大节省了人力、物力。

3 结论

本文设计了基于Hadoop的营配调数据处理模型，研究了Person相关算法、BP神经网络-时间序列算法和基于Hadoop框架的TF-IDF算法，实现了对供电量、售电量相关关系的定量分析，自动筛查了同期线损异常原因，支撑了线损管理的提升。最后，利用实际环境下的测试结果，验证了数据模型的实用性、有效性及准确性。