基于分布式KNN算法的输变电线路故障预测效率分析

2024-05-20 03:46山西东盟输配电科技有限公司
电力设备管理 2024年5期
关键词:类别分布式聚类

山西东盟输配电科技有限公司 李 波

KNN 算法具有易于理解、便于应用等特点,在故障预测领域取得广泛的应用。但对于输变电线路的大规模数据,传统的KNN 算法存在预测结果不准、效率偏低等不足之处,因此亟须在既有KNN 算法的基础上探索新的预测方法。本文提出基于模糊KNN 大数据分析算法和基于Spark 框架的ISODATA,旨在采用改进后的KNN 算法高效预测输变电线路故障,获得准确的预测结果,给输变电线路的日常管控提供科学依据。

1 KNN 模糊算法的提出

KNN 算法在输变电线路故障预测中的应用效果较好,主要原因在于此算法依靠周围有限的邻近样本确定所属类别,而非通过判别类别界限的方式实现,即便存在较多重叠和界限交叉的数据,该算法也仍然能够取得较好的应用效果。但KNN 算法也存在弊端,例如只计算最邻近样本,限制了其对类别界限模糊数据的判断,基于数据的预测结果缺乏可靠性。模糊理论可解决KNN 算法的弊端,依靠模糊规则推断输入样本的故障类型,通过隶属度函数摸索数据的规律。模糊理论采用的是非线性映射模型,其逻辑与人工神经网络相似,特殊之处在于对不同类型数据的利用水平更高,在输变电线路故障预测中具有突出的应用价值。因此,本文提出KNN 算法和模糊理论相结合的输变电线路故障预测方案,引入模糊理论解决KNN 算法的不足之处,确保即便存在类别界限不明显的数据时也依然可以有效预测输变电线路故障,提升KNN 算法在故障预测领域的适用性。

2 输变电线路故障预测模型

2.1 数据采集

按照数据采集、数据训练、数据分析、故障预测的基本流程,分别构建相应的功能模块[1]。其中,数据采集模块涵盖仿真结果的三相电压及电流信号模型、电网实时数据和历史数据,向包含故障类型的集群中映射输入数据矢量。由于输变电线路故障案例有限,可提供的有用数据难以满足大批量的数据使用要求,因此部分故障和非故障的数据需要依靠仿真软件获取,将此部分数据和已记录的数据整合至一体,进行训练,再用模糊KNN 分类器对整合好的数据和数据原型进行故障分析。

2.2 故障预测流程

2.2.1 数据训练

第一,ISODATA 算法。ISODATA 算法是典型的非监督学习的聚类分析方法,又称为迭代自组织数据分析法。作为一种以K-means 算法为原型经改进后产生的新算法,其特点在于增加“分裂”和“合并”操作。根据最小聚类样本数、聚类中心等已经设定好的参数进行迭代处理,最终获得较为可靠的结果。

第二,分布式ISODATA 算法。基于Spark 的RDD 模型及API 设计分布式ISODATA 算法,主要将分布式ISODATA 算法的运行流程分为两步:一是分配、过滤、计算样本至中心的距离等数据;二是汇总各项计算结果,判断是否需分裂、合并,按流程执行操作。

2.2.2 数据分析

第一,模糊KNN 算法。通过隶属度函数描述各因子的模糊界限,采用隶属度函数复合运算输变电线路测试数据,进而预测故障[2]。相比单一的KNN 算法,结合模糊理论的KNN 算法能够有效应对类别界限不明显的问题,基本应用原理是:训练后产生聚类中心W,计算待分类样本X与之的欧式距离,从各类样本中筛选出与待分类样本距离最小的样本,数量记为k个,根据隶属度函数判断模数样本xi的类别,用隶属度函数uc(xi)表示,如下:

式中,uc(wk)为隶属度函数,将聚类中心的半径ρk作为聚类中心wk的uc(wk)的取值,聚类zk中各样本的类别标签c则为聚类中心的类别标签。uc(wk)的表达式如下:

式(1)中,分母部分为测试模式样本k个,则:求和,确定最大隶属度uc(wk)。

样本模式xi的隶属度函数如下:

不同于单一的KNN 算法,模糊KNN 算法在运行中能够模糊化处理训练后的聚类中心特征数据W,结合公式(2),计算聚类中心W 隶属于某类别c的隶属度,再设定大小为k的优先级队列,将计算结果和测试样本xi的距离存入其中。遍历完训练集群中心W 后,采用隶属度函数uc(xi)计算测试数据xi隶属于类别标签c的隶属度,在标签的选取方式上,将隶属度最大聚类集群的类别标签作为xi的类别标签。

第二,模糊分布式KNN 算法。基于park 的RDD 模型和API 设计模糊分布式KNN 算法,从ISODATA 应用中产生的聚类中心点选取训练集合,供模糊KNN 算法使用,数据分发至各节点采用的是广播变量的方式,分类计算采用RDD 模型的算子进行。

3 预测实验及结果分析

3.1 实验方法

本文选取输变电线路中较为典型的10种故障做预测分析,具体为两相短路故障(ABG,ACG,BCG)、三相短路故障(ABC)、单相短路接地故障(AG,BG,CG)、两相短路接地故障(AB,AC,BC)。实验中考虑到的关键信息包含:输变电线路故障前后的三相电压及三相电流突变量、故障点与线路的位置信息、过渡电阻等。仿真信息见表1,分别进行仿真,评估分布式KNN 算法在输变电线路故障预测中的应用效果。

表1 仿真信息

本次实验选取9条类型各异的输变电线路,过渡电阻考虑的是1Ω、3Ω、9Ω、15Ω 四种情况,训练数据252条,数据总量为252×9=2268条。采用随机抽取的方法从总样本中选择去标签的1800条数据,将其作为测试样本进行故障预测,并与常规的KNN 算法预测结果对比,判断各自的应用效果。故障预测效率对比方面,考虑单机版模糊KNN 算法和分布式模糊KNN 算法两类,用400万条数据进行测试,判断各自的预测效率,评价各算法的应用效果。

3.2 实验结果及分析

3.2.1 数据训练结果

对比分析Java 单机和Scala 并行实现的ISODATA 聚类算法可知,两者在少量训练数据时的结果一致。根据该规律,进行了降维处理,以便分析,绘制出如图1所示的经过故障训练的聚类效果,其中横轴为集群中的样本个数,纵轴为各种故障类型。

图1 ISODATA 算法故障聚类效果

3.2.2 数据训练时间

以迭代100次为例,分布式ISODATA、单机版ISODATA 对3600000条训练数据的训练耗时分别为110823ms、211283ms。相比之下,分布式ISODATA 聚类算法的计算效率较高,在一定程度上缓解了数据训练耗时长的问题,给高效判断输变电线路故障提供了有利条件。

3.2.3 实验结果的综合评价

以常规的KNN 算法和分布式模糊KNN 算法为例,经过实验后确定各自的故障预测结果,故障预测时间如图2所示,故障预测准确率如图3所示。对分布式模糊KNN 算法和单机版各自的结果进行对比发现,两者保持一致。K 值取6,在4000样本时,分布式模糊KNN 算法、单机版模糊KNN 算法的运行耗时分别为86512ms、132839ms,可以直观地发现基于Spark 的模糊KNN 算法的运行效率更高,实验结果验证了本文提及的分布式模糊KNN 算法在输变电线路故障预测中具有高效性的优势。

图2 故障预测时间对比

图3 故障预测准确率对比

根据图2和图3的对比分析结果可知,分布式模糊KNN 算法在故障预测效率和结果准确性两方面的应用效果均优于常规的KNN 算法,同时还可提供故障距离参数,为判断输变电线路故障发生部位提供重要的参考信息。

总体来看,分布式模糊KNN 算法突破了常规KNN 算法在输变电线路故障预测中的局限性,引入模糊理论及其他人工智能技术的新型KNN算法在输变电线路故障预测领域的综合应用效果较好。

4 结语

综上所述,经过对比分析可知,相比单机版的算法,分布式模糊KNN 算法具有提高预测结果的准确性及提高预测效率的优势,并构建输变电线路故障预测模型,将其用于故障预测,以期全方位地判断输变电线路运行情况,发现故障后快速处理。分布式模糊KNN 算法在输变电线路故障预测领域仍有较大的进步空间,在后续的研究中,应进一步优化分布式模糊KNN 算法的应用策略,例如在ISODATA 动态partition 分配、与主流机器学习算法相结合等方面寻找突破口,持续提高输变电线路故障预测效率。

猜你喜欢
类别分布式聚类
分布式光伏热钱汹涌
基于DBSACN聚类算法的XML文档聚类
分布式光伏:爆发还是徘徊
基于高斯混合聚类的阵列干涉SAR三维成像
服务类别
基于DDS的分布式三维协同仿真研究
一种层次初始的聚类个数自适应的聚类方法研究
论类别股东会
中医类别全科医师培养模式的探讨
西门子 分布式I/O Simatic ET 200AL