基于数据挖掘的抽水蓄能电站机组状态预测

2020-07-07 05:08孟德霞曹哲铭
电力与能源 2020年3期
关键词:决策树分类器数据挖掘

孙 勇,宋 锐,孟德霞,魏 敏,杨 晨,曹哲铭

(1. 国网新源控股有限公司,北京 100053;2.太极计算机股份有限公司,北京 100102)

在当下绿色能源大发展的背景下,抽水蓄能电站对于提高电网供电质量和电网灵活性及可靠性发挥着不可替代的作用。由于抽水蓄能机组运行复杂,启动繁杂,水力、机械、电力共同作用,极有可能引起机组温度过高、并网故障、甩油故障等,从而影响整个机组的正常运行。在电力系统中,抽水蓄能机组是非常重要的组成模块,也是电力稳定、持续不间断供应的基础。因此,基于数据挖掘技术对抽水蓄能电站机组状态进行预测和判断具有重要的现实意义[1-7]。

目前,对于抽水蓄能机组状态监测和故障诊断系统的研究大多基于传统的信号处理方法,它是以机组的状态监测为基础,根据所获得的监测数据,提取反映水轮机运行状态的特征值,并对这些特征值进行分析诊断,判断水轮机是否存在故障[8]。这种方法只能对故障进行事后分析,无法实现预测,而且由于故障样本数据有限,导致其适应性差,只能用于特定故障的分析诊断。国内外已有一些基于数据挖掘技术的抽水蓄能电站设备故障诊断和状态检修方面的研究,为机组状态监测分析和故障诊断提供了有益探索[6-7]。文献[5]运用数据挖掘关联规则对抽水蓄能机组的历史故障信息进行分析,频繁模式增长算法分析故障样本事务,提取了机组有效故障信息,为电站运维人员提供了检修指导意见[5]。故障诊断与预测实质上就是建立一套设备的运行状态分析系统来提前预判机组的健康状况,从而对是否需要检修做出决定,实现预测性维修策略,避免被动维修造成的巨大损失。对机组状态进行预测建模,首先要收集机组的相关信息,包括设备的基础信息、历史运行数据及设备故障信息等。通过对设备历史数据进行清洗、特征工程、打标签、数据挖掘和预测建模、模型性能测试验证,最终得出抽水蓄能机组故障预测模型。模型部署后对机组当前监测值进行对比分析,判断当前设备运行状态是否正常。

1 数据挖掘介绍

数据挖掘的主要过程如图1所示[4]。数据挖掘技术和算法多种多样,主要是尝试使用分类算法对抽水蓄能机组的状态进行分类,也就是说给定机组的运行状态值x,找到一个分类器模型f(·), 能够通过模型计算得出机组状态y=f(x),y为0-1变量,0代表无故障,1代表有故障。

本文使用三种典型的数据挖掘分类算法进行机组状态预测建模。数据挖掘过程模型如图1所示。

(1)决策树(Decision Tree,简称DT)是一种最常用的呈树状结构的分类算法,其创建的过程主要包括变量选择、决策树生成以及决策树修剪。首先对原始数据进行处理,并归纳生成可读规则,然后使用决策树对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

(2)BP神经网络是一种应用十分广泛的神经网络,按照误差反向传播的方法对其进行训练,从而不断对权值和偏差进行反复调整,从而使算法的正确率不断上升。

(3)支持向量机(Support Vector Machines,简称SVM)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解[1-3]。

图1 数据挖掘过程模型

对于分类模型而言,模型的评价指标主要有混淆矩阵和接收者特征(Receiver Operating Characteristic,简称ROC)曲线[2]。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线,对于评价不平衡性数据分类器性能具有很好的参考价值。ROC曲线越靠近左上角则其对应的分类器性能越好,若一个分类器的ROC曲线总是在另一个分类器的ROC曲线上方,则说明前者分类性能优于后者。若不同的ROC曲线有交叉情况或要量化分类器性能,则可以由ROC曲线下的面积得出模型的总体准确度。AUC(Area under ROC curve)是一种常用的分类指标(如图2所示),具有统计意义,其优点是受不平衡分类的影响小。AUC值为0.5代表随机分类器,理想模型的AUC值为1,因此通常情况下分类器的AUC值越接近1越好。

图2 ROC曲线与AUG面积

2 抽水蓄能电站数据挖掘计算试验

2.1 数据描述性统计

本文数据挖掘计算试验数据来自于国网新源泰山抽水蓄能机组。原始数据收集了“导叶开度”、“转速”、“负荷”三个参数的历史运行数据。时间跨度为2019年11月1日至30日,110多次的机组开机发电数据。通过数据清洗(删除掉缺失值和采集时间不匹配的记录)得到12万多条有效记录。这12万多条数据的描述性统计值如表1所示。

表1 计算试验的数据描述性统计分析

2.2 特征工程

在数据挖掘过程当中,把原始特征(导叶开度、转速、负荷)进行加工生成新特征,利用新特征对机组运行状态进行标签,区分每条记录是处于故障状态还是健康状态。依据行业专家知识,本文从三个维度来判断抽水蓄能机组是否存在潜在的故障:首先是计算机组开机负荷不稳定性与不稳定时长两个特征,将负荷数据从不稳定摆动时长与摆动的不稳定程度两个方向进行量化,其中不稳定摆动时间越长,则证明故障程度越大,摆动的不稳定度越大,则证明调速器故障越明显;其次是计算导叶开度不稳定性与不稳定时长两个特征,将导叶开度数据从不稳定摆动时长与摆动的不稳定程度两个方向进行量化,其中不稳定摆动时间越长,则证明故障越严重,摆动的不稳定度越大,则证明调速器故障越严重;最后计算出转速超限度特征,将转速实际设定超出100%的幅度进行量化,超出100%的幅度越大则证明机组潜在的故障越严重。34 000多条记录标记为故障状态y=1;85 000多条记录标记为正常状态y=0。

2.3 分类算法10折交叉实验

本文采用了三种常见的分类算法,决策树、神经网络和SVM(支持向量机)对近12万条数据进行训练和测试,通过10-fold交叉试验来评估预测模型的准确性[1]。表2罗列三种分类算法的绩效。总体来看,三种分类算法都能够准确地预测机组故障和非故障状态,10-fold准确性和AUC指标都比较满意,其中神经网络和决策树都取得了类似AUC,略高于支持向量机SVM的绩效。这也充分证明前面依据行业专家选择的机组状态监测特征“导叶开度”、“转速”和“负荷”能够很好地用于故障状态预测建模,具有较强的解释力度。

表2 分类算法准确性

3 结语

由于抽水蓄能电站拥有独特的运行特性和机组的优越技术性能,使其在我国大规模的建成与投运,十分有利于保障我国电力系统的安全稳定和优质经济运行。通过数据挖掘流程,把抽水蓄能电站的历史运行数据进行清洗、特征变换和打故障状态标签,形成训练数据;然后采用决策树、BP神经网络和支持向量机等三种分类算法进行抽水蓄能电站故障状态分类预测计算试验,对抽水蓄能电站机组可能发生的故障状态进行了预测。研究结果表明通过数据挖掘方法能够建立比较准确的故障状态预测模型,提前判断机组运行状态,从而实施预测性维护策略来促进电站的安全稳定运行。

猜你喜欢
决策树分类器数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
简述一种基于C4.5的随机决策树集成分类算法设计
一种自适应子融合集成多分类器方法
决策树学习的剪枝方法
软件工程领域中的异常数据挖掘算法
决策树在施工项目管理中的应用