孙 峰,钱 啸,吕 勤,郁家麟,金 烨,沈海华,张代红
(国网浙江省电力有限公司嘉兴供电公司,浙江 嘉兴 314033)
DM(数据挖掘)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中人们事先不知道但又有用的信息和知识的过程[1-2]。它集统计学、模式识别、人工智能、机器学习、数据库技术及高性能并行计算等领域于一体,是当前国际上数据库和信息决策领域的最前沿研究方向之一[3-5]。
根据线损分析需求,从电网SCADA(数据采集与监控)系统、PMS(生产管理)系统和用电信息采集系统等多系统融合的数据中实现大数据的收集、解析和运算,再利用大数据挖掘技术对线损计算过程中的模型数据、运行数据理论线损结果进行挖掘,得到各电压等级下的数据经验值,从而能够在数据质量不好的情况下进行理论线损推算和修正,为电网降损和 同期线损提供更准确的数据和理论依据[7-9]。
数据挖掘技术是人工智能与数据库技术相结合的产物,它的许多方法来源于机器学习。因此,机器学习、模式识别和人工智能领域的常规技术,如聚类、决策树和统计等方法经过改进后均可用于大数据挖掘[11-14]。
对于不同的研究领域,数据挖掘实施过程需要采用不同的技术方法和手段。目前主要有基于传统数理统计等数学工具的方法、聚类分析法、ANN(人工神经网络)技术、决策树、进化计算和基于事例的推理方法等。
在电力系统中,SCADA系统应用最广,技术发展也最成熟,它在远动系统中占重要地位,可以对现场的运行设备进行监视和控制,以实现数据采集、设备控制、测量和参数调节及各类信号报警,即“四遥”功能。RTU(远程终端单元)、FTU(馈线终端单元)是它的重要组成部分[15]。
PMS系统以设备管理为核心,通过建立全面的设备台账、运行数据、评价体系和相关业务流程,实现设备及生产运行的全过程管理。PMS系统中有完整的电网一次拓扑和参数,包括主网(10 kV母线及以上)和配电网(10 kV母线以下),可以从浙江省电力有限公司PMS系统导出配电网模型数据。
用电信息采集系统主要由主站、通信网络、采集终端和智能电表组成,且智能电表是最核心的投资方向。国家电网有限公司正在推广统一的用电信息采集系统,这套系统实现了用电检测、负荷管理、线损分析及自动抄表等功能。用电信息采集系统中有配电网台区汇总表的常规电气量数据,包括公变TTU(配电终端)和负控装置数据,也有每块终端用户电表的数据。在用电采集信息系统中,通过数据采集接口传输采集所需要的变压器负荷数据、低压用户负荷以及电量,通过接口数据传输通道进入配电网节能降损软件系统中,进行所对应的计算分析。
高压网数据均由调度部门提供,包括模型数据和负荷数据,按照《理论线损计算与分析工作大纲》要求,负荷实测日当天需要提供24 h整点数据。调度部门提供数据Web访问下载地址供理论线损计算模块数据获取。
按照调度SCADA系统后台数据结构,上传的数据应该包含CIM文件、拓扑文件和E语言文件3类。CIM文件要求包含嘉兴所有35~220 kV及以上的线路、主变压器(以下简称“主变”)、开关等设备的型号参数信息,拓扑文件里要求存放所有元件互联关系,E语言文件要求包含所有35~220 kV线路、变压器的量测数据,负荷实测日当天要求能提供24 h整点数据。
配电网和低压网数据主要从PMS系统、用电信息采集系统和营配贯通采集,采集到的数据以文件(XML文件、E文件等)或者数据库的形式存在。数据主要包括配电网杆塔信息、线路型号及长度、变压器型号、开关位置信息和配电变压器(以下简称“配变”)及用户的量测数据。
以高压网为例,对调度部门提供的CIM文件进行解析校验,对参数缺失的线路及主变进行筛选记录。使用相同电压级别、容量级别下的参数比对,找出模型维护有误的线路及主变,并形成标准格式的模型纠错报告,反馈至调度部门。
从500 kV变电站220 kV母线侧开始,根据拓扑文件中元件连接关系及开关遥测状态,向电网末端进行辐射式拓扑搜寻,当遇到联络开关断开或到达电网末端时拓扑结束,形成一个个“拓扑岛”(通常“拓扑岛”均有1个500 kV变电站220 kV母线作为其电源点,但有时由于存在开关遥测信号失效的情况,拓扑搜索时会发现与上级电源完全隔离的“孤立岛”),筛选记录拓扑岛和孤立岛的数据。
配电网和低压电网数据收集之后,根据不同字段匹配对应存入各自表空间,主要包括设备表和图形表。将这些数据进行筛选和整理后,变成计算程序(可以调用的有类别、有规律的数据)。
面对线损大数据海量历史数据和准实时量测数据混合计算的需求,研究包含批处理层、实时处理层和服务层的大数据混合计算架构,使其能够结合批处理并行计算模型和流式并行计算模型的优点:对于任何的程序或者数据错误具有很好的容忍性,能够很方便地从错误中恢复;很好的伸缩性,方便用户来扩展本应用架构;很好的通用性,在大数据混合计算构架的基础上,可以实现多种理论计算和大数据展示应用。
根据理论线损的需要,对数据进行去零、去空和去重等预处理操作;数据清洗大致要对全数据做一个遍历,区分错误值、缺失值,辨别传感器问题和事件数据,剔除错误值、极端值和缺失值,对可补全内容进行适度补全;统一数据格式和记录精度;统一主键和外键,所有数据在数据库中关联起来。
在数据预处理结果的基础上,按照电压等级和设备型号,利用并行计算平台对设备参数进行大数据挖掘统计,检测参数的一致性和平稳性,筛查异常参数及其统计规律。利用无监督机器学习对线路、变压器等设备根据参数进行多维聚类分析,为理论线损结果分析应用提供高级参数。
从采集到的嘉兴市多系统融合的大数据中,利用大数据挖掘算法对高压网、配电网和低压网中的模型数据进行校验,包括各电压层级的变压器和线路物理参数校验;通过聚类分析方法,得出各电压层级变压器、线路的类别,给出各类别模型参数的经验值。DB-SCAN聚类分析方法是一种基于高密度连通区域的聚类方法,该算法将具有足够高密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇。由于本文中变压器、线路模型数据样本来源于同一地市,数据会呈现高密度聚集。因此,本文聚类方法采用DB-SCAN聚类分析方法,具体挖掘流程见图1(运行数据校验流程与之一致)。
图1 模型数据校验流程
模型数据的分析主要有线路模型数据和变压器模型数据,对于线路模型数据,按220 kV,110 kV,10 kV和0.4 kV电压等级,取同一线径型号的数据进行聚类,得到了大量不同型号线路长度范围以及线路电阻、电抗与线路长度的关系。LGJ-300型号导线电阻、电抗值随导线长度变化时的分布状况如图2所示。
嘉兴地区220 kV线路主要采用线径为300 mm2,400 mm2和500 mm2的导线,平均长度水平为30 km,平均线路电阻为1.2Ω,该数据根据导线单位等值电阻公式r=ρ/S计算得到,其中r为单位长度等值电阻;S为导线的额定截面积;ρ为铝导线电阻率,ρ=31.2Ω·mm2/km。220 kV线路一般采用两分列导线,则根据常用线径、平均长度,理论上电阻R=31.2/400×30/2=1.17Ω,说明大数据挖掘结果可信。110 kV线路主要采用线径为300 mm2的导线,平均长度水平为5 km,平均线路电阻0.75Ω;10 kV线路主要采用线径为120 mm2和150 mm2的导线,平均线段水平为400 m,平均线路长度为8 km,平均线路电阻为2Ω。在10 kV线路中,还有相当一部分的导线线径为70 mm2,这部分导线段有的长度在几百米以上,而且还在线路的中间部分,容易造成10 kV馈线的瓶颈,建议合理改造。
220 kV变压器平均容量为190 MVA,110 kV变压器平均容量为43 MVA,35 kV变压器平均容量为9 MVA,10 kV配变平均容量为0.35 MVA。
图2 LGJ-300型号导线电阻电抗值随长度变化分布
变压器的运行数据主要包括变压器有功电量、无功电量,通过这些数据,结合变压器参数,可以计算得出变压器平均负载率、平均有功功率、平均无功功率和功率因数。通过大量数据规律可以分析出变压器的这些运行数据集中分布的范围,该范围可作为判断变压器是否工作在正常状态的经验值。嘉兴110 kV变压器负载率分布状况如图3所示。
嘉兴地区线路负载率基本在0.4以下,属于轻载状态。对于线路来说,负载率越低,损耗率越低,因此该地区线路运行状况良好。各电压等级变压器均表现为轻载变压器占比较多,约占40%;重载变压器较少,大部分还是运行在经济负载率状态下。考虑到以后该地区经济发展和用电量增加,轻载变压器的占比会越来越小。合理安排变压器运行方式,能有效降低轻载变压器比例,提高线损管理水平,降低线路损耗率(以下简称“线损率”)。
图3 嘉兴110 kV变压器负载率
从多系统融合的大数据中,利用大数据挖掘算法对全网、各电压等级、分区、分线和分设备的理论计算结果进行校验(包含全网、各电压等级的供电量、损耗量、线路损耗、铜损、铁损、铜铁比、分设备损耗占比、分区和分线),通过聚类分析方法,得出各电压等级、分区、分线和分设备的理论计算结果类别,给出各类别理论计算结果的经验值。
220 kV线损率受线路长短、线路负载影响较大,主要分布在0%~0.3%。线损率随线路长度的增加而增加,线路几乎每增加10 km,损耗率增加0.1%。由不同线径时的线路损耗与线路有功电量关系分析可知,线损率随有功电量的增加而增加,且线径越小线损率越大。变压器损耗率比较集中,受变压器容量大小、负载大小影响很小,一般在0.22%~0.32%。由变压器损耗率与负载率的关系分析可知,变压器损耗率会随负载率的增加呈轻微的先减后增的变化,大约在负载率为0.4~0.5时,变压器损耗率最小;变压器轻载或重载时,其损耗率都高,这与实际情况相符。
110 kV线损率受线路长短、线路负载影响较大,主要分布在0%~0.3%。线损率随线路长度的增加而增加,线路几乎每增加1 km,线损率增加0.04%。由不同线径时的线路损耗与线路有功电量关系分析可知,线损率随有功电量的增加而增加,且线径越小线损率越大。变压器损耗率比较集中,受变压器容量、负载影响很小,一般损耗率在0.25%~0.35%。由变压器损耗率与负载率的关系分析可知,变压器损耗率随负载率的增加呈轻微的先减后增的趋势,大约在负载率为0.4时,变压器损耗率最小。
10 kV线损率主要分布在1%~2.5%,线损率随线路长度增加而增加,大约每增加1 km线损率增加0.2%。“线路损耗占比∶变压器损耗占比”小于4∶6时,线损率基本保持不变;大于4∶6时,线损率会随线路损耗的增加而加速增加。线损率的变化随配变的铜铁比的增加呈先减后增的趋势,配变的铜铁比为0.7左右时线损率最小。线损率随功率因数的增加呈缓慢降低的趋势,一般10 kV线路的功率因数在0.85~1,功率因数每增加0.01,线损率增加0.07%。
由大数据分析可知,电压等级越高,线损率越低。220 kV线损率为0.4%,变压器损耗率为0.2%~0.3%;110 kV线损率为0.4%,变压器损耗率0.25%~0.35%;35kV线损率为3%,变压器损耗率为0.4%~0.7%;10 kV线路配变总损耗率为1%~2.5%。各电压等级中,线路损耗率随负载率的增加而增加,变压器随负载率先减后增。正常情况下,变压器负载率在50%左右时变压器损耗率最低;轻载时变压器损耗率增加明显;重载时变压器损耗率也会一定程度增加,但比较平缓。变压器的铜铁比在1~2时变压器运行较经济,此时变压器负载率为50%左右;当负载率增加至70%以上时,铜铁比会急剧增加,一般可以达到3~5。如图4为嘉兴110 kV变压器损耗率随负载率变化时的分布状况。
图4 嘉兴110 kV变压器损耗率随负载率变化分布
10 kV的线损率,受线路上的损耗影响较明显,当“线路损耗占比∶变压器损耗占比”小于4∶6时,线损率基本保持不变;大于4∶6时,线损率会随线路损耗的增加而加速增加。保证合理的线路变压器损耗占比,能有效降低10 kV线损率,其途径就是增加10 kV导线截面积或缩小10 kV馈线供电距离。
影响电网线损的主要因素可分为电网结构特征、设备物理参数、电网运行特征、用电结构特征、自然及社会发展状况五大类,这五大类为一级指标,找出一级指标的量化关系,建立细化的二级指标,如图5所示。具体指标计算方法为:
(1)建立数学模型对细化的二级指标进行量化,并逐一考虑各个指标对线损的影响,建立相应的指标-线损评价函数并进行各地区二级指标计算。
(2)构建线损影响因素指标层次分析模型,分别计算不同地区的线损指标,得出各影响因素在地区线损中的主导权重,如表1所示。
(3)对于5个一级指标取权重系数均为0.2,代入各个县市的二级指标评价评价值,得出综合线损指标。
根据指标计算方法及嘉兴供电公司提供的嘉兴市2017年代表日线损数据和电网基础数据,对嘉兴地区各县/区/市级电网进行分析,计算得到综合线损指标,如表2所示。
由表2可知,嘉兴市本级的综合线损指标最高,这是因为其用电结构特征和自然发展状况这2个一级指标极为突出,应积极响应削峰填谷政策,改善用电结构,减少峰谷差,减少变压器重载比例,改善电网运行方式,降低轻载比例,从而改善线损率。
图5 多系统融合数据下线损指标评价体系构建
表1 二级指标权重计算结果
表2 综合线损指标
通过大数据分析可知,嘉兴地区的导线线径根据电压等级、输送距离的不同,绝大部分呈现合理的分布规律,很少出现输电距离过长,导线线径偏小的情况。嘉兴地区的线路大部分工作在轻载状态,变压器大部分工作在经济负载状态,少数工作在轻载状态,重载变压器几乎没有。因此,该地区的降损可以主要从合理优化变压器运行方式、减少轻载变比例、缩小超长线路送电距离和改造更换线径不合理导线等方面入手。
从线损率的分布来看,各电压等级主变的损耗率分布较集中,降损空间不是很大,线路损耗率除了大部分分布较集中外,还有很多远远高于集中分布区的线损率,因此有很大的降损空间。
从综合线损指标来看,嘉兴市本级节能降损空间较大,可以从改善用电结构、改善电网运行方式和改善电网结构等方面改善线损率。