梁旭常,汪 毅,黄兆鹏,靳 光,刘 林,王 鹏,林健东
(1.广东电网有限责任公司佛山供电局,广东 佛山 528010;2.武汉国测数据技术有限公司,湖北武汉 430223;3.南方电网数字研究院有限公司,广东广州 5200002)
供电变压器的供电范围(简称台区)主要是“以抢修代替维护”的方式开展运维工作,基础档案维护主要通过配网工程电子化移交的方式进行,档案与现场管理是否一致,没有有效的监督手段。
台区变压器与其下供电的用户关系(简称变户关系),是台区线损统计、配网运行维护的基础数据。台区拓扑关系即台区变压器与其下用户之间的对应关系,但由于档案与现场管理的不一致问题,台区变户拓扑关系长期处于监控真空,严重影响了台区线损计算的准确。
针对低压台区管理的顽疾,国内学者进行了一些研究,设计出回路测量法[1-2]、出口电压归算法[3]和台区识别仪等治理设备,以及利用数据分析进行台区拓扑识别的方法[4],但是这些方法使用的数据如电流数据、电压数据是绝大多数智能电能表无法集抄到的,如果增加设备,治理费用比较昂贵,且需要投入大量现场工作人员进行实地测量。
文章提出的仅使用智能电能表集采的电能量数据,基于同一时刻台区供用电符合电能量守恒关系这一基础建模,使用数学分析算法,梳理出台区正确的拓扑关系。基于能量守恒的台区拓扑计算模型和算法梳理台区变户关系,可以极大程度上节约实地考察的工作人员人力成本,提高排查效率。
配用电网“站线变户”关系是营配信息集成最基础的数据对象,支撑着企业涉及计量线损、配网运行、生产维护和规划建设等多个专业的数据分析,在各个专业系统间进行共享应用。维护配用电网“站线变户”关系准确,目前主要的做法是依赖于严谨的管理措施和科学的技术手段,一是建立配网工程电子化移交管理机制确保数据录入和共享及时性;二是加强中压单线图管理,实现归档闭环保障,推动中压“站线变”关系的准确性[5]。但是对于低压台区的负荷割接、抢修业务等导致的变户关系变更,将是“站线变户”关系不准确的主要诱因;数据迁移及各相关源数据系统间接口功能不完善造成的数据质量问题也是“站线变户”关系不准确的因素。这都需要台区变户拓扑梳理工作必不可少的常态开展。
当前获取变户关系的各种方法均受现场安装条件制约——台区识别仪,需要人工逐户排查,成本太高,错乱关系容易反复;载波技术受限于台区载波表的推广;瞬时停电法,影响用户用电,负面影响较大,难以实现;配变智能终端,受限于更换设备购置计划及施工成本,也能马上全面铺开应用。
在不需要增加现场安装监测采集设备进行排查的情况下,通过纯粹的数据计算,计算台区和用户的拓扑关系和梳理相当一部分计量异常而造成线损异常的问题,解决台区拓扑关系紊乱难题,靶向拓扑异常用户或表计,再通过电量守恒原理对拓扑异常进行梳理还原真实的线损数据[6-7]。有利于指导供电所对投运时间比较长,线路复杂、拓扑畸变的小区开展有针对性的拓扑整改工作。同时在计算过程中,分析低压集抄电能数据质量,定位异常数据和异常终端,为准确计量运维打下良好的基础,将降低员工劳动强度、提升供电效益。
本研究使用数据挖掘技术,基于电量输送守恒、电量不会突变的原理,在历史数据足够而且数据质量保证的情况下,使用纯粹的数据计算方法,利用线性理论分析和基于机器学习的最小残差二乘法,优化穷举和回归模型,对低压台区计量系统数据进行输入总表及输出分表拓扑关系精准定位对应,真实反映台区的实际损耗[8-9]。
计算模型中每个参数对应于台区下每个用户,正确计算出等值左右两边的结果,则推出了台区真实的台区变户关系和串户清单。
2.2.1 台区供用电电量守恒
从电学原理看,台区变户关系正确充分且必要条件是台区输入电电量等于用户用电量之和加上系统网损,即:
式(1)中,w0,wi分别代表总电能表和用户分表的电电量数值;x0,xi分别为总表和各分表的对应电电量数值的测量误差;cosφ0,cosφi分别为总表和各分表的对应的功率因数;f(w0,wi,x0,xi,cosφ0,cosφi)为系统网损,是多个变量的函数。
忽略电能表误差和网损的情况下,台区变户关系正确的判据可以描述为:
在电量守恒的条件下,如果能找到一组数据使得等式(2)成立,那么这个数据集对应的拓扑关系,就是这个台区的正确台区变户关系。
2.2.2 最小残差模型
在所有可能的(不管现状下是不是在本台区的用户电能表)电能表中,利用式(1)求解n元n次方程组,计算电能表计量误差xi。
2.2.3 梯度下降算法
在寻找最优解的过程中,需要用到梯度下降算法[10]。利用迭代的思想,不断的更新 θ值,最终 θ会收缩到某个值上。
在机器学习中,对于很多监督学习计算模型,需要对原始的计算模型构建损失函数,再通过优化算法对损失函数进行优化,以便找到最优的参数。
梯度下降法作为机器学习中较常使用的优化算法,在其求解过程中,只需要求解损失函数的一阶导数,计算的代价比较小。
梯度下降法有三种不同的形式:批量梯度下降(batch gradient descent)、随机梯度下降(stochastic gradient descent)以及小批量梯度下降(mini-batch gradient descent)。其中小批量梯度下降法也常用在深度学习中进行计算模型的训练。
考虑到计算的前提条件是电量守恒,因此在三种算法中选择批量梯度下降较为合理。批量梯度下降法是最原始的形式,计算过程中在每一次迭代时使用所有样本来进行梯度的更新,其优点是由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。
当目标函数为凸函数时,一定能够得到全局最优。而对于非凸函数,批量梯度下降会因为存在很多局部最优点(鞍点),而使算法陷入局部最优解中。此时,模型需要调整αα的步长,适当的学习率非常重要,学习速率过小时收敛速度慢,而过大时导致训练震荡,而且可能会发散。理想的梯度下降算法要满足两点:收敛速度要快;能全局收敛。因此在项目的计算过程中,αα的步长参考冲量梯度下降算法的思路,根据每次迭代结果的变化率进行调整,在原始梯度下降算法的基础上加入一个超参λ,从而使梯度与冲量方向一致时,冲量项增加,相反时,冲量项减少,最终减少训练的震荡过程。
2.3.1 计算过程中的过拟合问题
过拟合产生的原因是因为θ值过多或者是θ值过大造成的。θ值太多,会导致模型复杂度上升而过拟合,此时训练误差会很小。θ值太大,会导致样本里的噪音数据干扰过大,大到模型记住了噪音特征,反而忽略了真实数据间的关系。
解决方法可以使用L1正则(又称为lasso回归)或者L2正则(又称为Ridge回归,岭回归)或者elastic net(弹性网络)算法[11]。
正则化是指通过引入额外新信息(范数)来解决机器学习中过拟合问题的一种方法。这种额外信息通常的形式是模型复杂性带来的惩罚度。正则化可以保持模型简单,而且,规则项的使用还可以约束模型的特性。所有的正则化都是通过控制模型参数的大小来降低模型的复杂度。
对于基于电量守恒的模型,Ridge回归模型具有较高的准确性、鲁棒性以及稳定性,不会丢失特征。
L2正则化不会获得稀疏解,只会将对模型贡献不大的特征所对应的参数置于无限小的值,以此来忽略该特征对模型的影响。
2.3.2 机器学习调参
在实际工作中,对于各种算法计算模型来讲,需要获取θ、λ、ρ的值;θ的求解其实就是算法模型的求解,一般不需要开发人员参与(算法已经实现),主要需要求解的是λ和ρ的值,这个过程就是调参(超参)[12]。
在梯度下降算法中引入了λ作为步长α的超参,一般情况下,各种算法在机器学习的过程中,都会根据计算结果的变化进行微调和修正,或者根据算法加入超参。
为了进一步验证模型的可靠稳定性,可以使用交叉验证。交叉验证的方法是在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方和。
经过不断实践,使用交叉验证时,算法将数据分成了三个部分:训练集(train),评估集(valid),测试集(test),将数据样本切割成较小子集,用训练集对参数进行训练,再利用测试集来测试训练得到的模型,以此作为评价参数性能的指标,最终获取最优的超参。
2.4.1 计算不确定度影响
台区用户用电习惯相似,相近的睡眠和上下班作息习惯,相近的消费电能习惯,相近的空调随季节变化的使用习惯等,这都造成了不同用户具有相近的用电习惯,这种相近的用电习惯使得用电数据自相关和多重共线性严重,将带来计算的不确定性[13-15]。
(1)台区缺户。台区用户电能表故障在数据系统中表现为台区缺户。台区缺户导致计算精度下降,而计算精度下降的直接后果是需要增加现场核验的次数。大量现场数据统计结果,计算精度高于82%时,现场核验次数小于2次,计算精度每下降7%,现场核验次数需增加1次。
(2)缺用户计量数据。台区用户电能表通信不稳定在数据系统中表现为台区缺用户计量数据。缺用户计量数据大于3%时,每增加一个百分点,精度约下降15%,因此,缺户数高于3%的台区组,为了保证台区拓扑梳理的质量,应先进行预排查清理,排除用户电能表故障后,再做台区拓扑梳理和线损计算。
(3)有效数据长度。台区用户电能表通信故障或表计故障在数据系统中表现为台区用户“部分无抄”。进行台区拓扑梳理时,所有用户“部分无抄”的并集被排除后的有效数据长度,不应小于整体户数的1.2倍。当“部分无抄”占有效数据的比例大于台区纳入计算户数的5%时,每增加一个百分点,精度约下降12%。
2.4.2 影响计算结果准确率的因素
台区拓扑计算基础是电能物理量的守恒,电能数据的真实性将直接影响计算结果的正确性,因此,如下情况将降低计算的准确度:
(1)台区内总表或其中某些用户电能表故障、或者存在偷漏电现象,电能表不能正常反应该用户的用电电量;
(2)电能表的数据传输(采集)或数据的系统入库异常,令数据异常(衰减或突变);
(3)存在电能表更换,电量(表码)不能延续;
(4)回流库源数据产生断面,或档案错位。
2.4.3 提高计算结果准确度策略
(1)提前进行数据清洗和分析。数据源是建模计算的基础,本计算的数据主要来源是计量自动化系统和营销档案系统。对于数据,要求进入模型计算前先进行数据源的分析与清洗,对比数据是否一致,确认数据是否异常,是否存在传输错误,同时确认是否系统原因导致数据异常;确认是否现场工作原因导致数据异常;核对系统表计信息。
(2)保证数据质量。
①数据长度足够长。台区取数(时间)长度不少于台区用户数。如果某台区有100户用户智能电能表,数据长度须等于或大于100天。数据长度越长,台区变户关系的计算结果越准确。
②丢失电量足够小。“丢失电量”指的是没有经过电能表计量的电量。当丢失电量达到一定程度时,台区建模前需要先做丢失电量计算(例如,先做窃电计算),然后再做台区变户关系梳理。例如,奥园8A分表个数是337,线损率是-19,17,分表中有336块数据不完整,有效天数是32天,所以系统的判断是集中器故障,不能形成守恒计算。
③获取断面营销数据。所谓“断面”,即计算台区某一时刻的变户关系,无论台区营销档案关系数据是否正确,只需要调用一次台区营销档案关系数据。该断面营销数据,作为启动计算赋初始值使用。
④准确获取计量数据与营销档案的关系。从计量自动化系统获取的数据为表码,属于电能表呈现的二次数据,而进行电量守恒计算的是电量,这就要求将营销系统的计量倍率同步准确的对应获取,先对应算准用户的一次电量,才能开展计算,否则将引起很大的计算误差。
2.5.1 模型设计
运行中的台区,存在多种影响台区电量不守恒的因素,包括各类智能电能表故障、集中器采集故障、窃电、临时用电、居民自发电、临时用电、电流互感器变比登录错误、营销档案登录错误等,所有的影响因素都会破坏台区供用电的电量守恒关系,破坏建模的基础。
不同的台区,存在的影响因素的种类和数量大小不同,台区的电能数据集的特征就不同。面对台区相互关系缠绕的干扰因素集群,不可能通过一次迭代就梳理清楚所有的台区分表与变压器下总表的变户对应关系。
2.5.2 多重共线性影响分析
多重共线性是指线性回归模型中的变量之间由于存在高度相关而使模型严重失真。台区中许多不同用户有着相似的用电习惯和节奏,夏天同时打开空调,作息时间基本相同等等,这些相似的习惯会导致电能数据之间的强相关。台区电能数据的多重共线性问题,是导致计算电能表计量误差失准的最严重数据问题。
为了克服多重共线性对结果的影响,梳理过程中,需要用到主成分分析、岭回归和对偏最小二乘回归,直到满足模型中电量守恒前后等式一致的要求[16]。
2.5.3 穷举维数影响分析
低压台区智能电能表(分表)越多,穷举的维数越大,当穷举的维数超过计算能力时,寻找最优解将变得困难。为了解决一次迭代的维数限制,算法采用了分布式迭代和多维迭代与免疫算法相结合,大大减小了穷举搜索的维度,提高了计算效率。
本研究的成果是建立一种可信度高的台区计量适组计算软件,在不需要现场增加安装监测采集设备排查的情况下,通过算法软件能够计算台区和用户的拓扑关系和梳理相当一部分计量异常而造成线损异常的问题,解决台区拓扑关系紊乱难题,靶向拓扑异常用户或表计,再通过电量守恒原理对拓扑异常进行梳理还原真实的线损数据。
为了有效验证穷举法在台区变户关系梳理中的作用,方法设计了台区拓扑梳理系统,利用计算机的运算能力,对低压台区变户关系进行梳理。方法流程图如图1所示。
选取广东省佛山市禅城区的2个台区和顺德区的一个小区进行计算(档案信息做了脱敏处理),数据如下。
表1 计算前后数据比对Tab.1 Data comparison before and after calculation
表2 现场核查结果Tab.2 On-site verification results
从表2的结果不难发现,使用计算梳理台区拓扑的准确率是非常高的。
电量守恒下的计算实现的条件比较苛刻,需要数据量足够大,并对数据完整性要求比较高,另外面对多种不同季节、不同的用电习惯的用户,计算模型的建立需考虑的不确定因素多,计算结果输出还需经过不确定度的评估。这种应用电电量守恒的原理,通过模型,计算出台区计量组合方式,比设备安装、人工筛查更见准确和成效,值得预期。
随着智能电能表的大量普及和大数据技术的发展,方法不仅可以梳理出正确的台区拓扑关系,还可以衍生出在线计算智能电能表计量误差、电能表运行状态评价等多项技术,其应用前景广阔,值得进一步深入研究。
本技术是一项新技术,需要进一步改进和提升。下一步的研究一是在算法中使用机器学习进行智能训练,使得模型不断成熟,并按业务类型分类建模,即分成城市小区的模型、城中村模型、乡村模型等,不断提高其适用性;二是研究寻找最小电量守恒区间的方法,自动搜寻周边台区的电能数据来解决负线损过大这类问题。