基于数据清洗和动态神经网络的风电机组齿轮箱油温预警方法研究

2020-12-25 10:05陈映琼顾军民陈思函
上海电力大学学报 2020年6期
关键词:齿轮箱风速机组

陈映琼, 顾军民, 姜 胜, 陈思函

(1.国电浙江北仑第一发电有限公司, 浙江 宁波 315800; 2.国电宁波风电开发有限公司, 浙江 宁波 315043;3.国网湖北省电力有限公司, 湖北 武汉 430079; 4.华北电力大学, 河北 保定 071003)

近年来,风电机组装机容量在世界范围内快速增加。根据最新统计数据,2019年全球新增风电装机容量60.4 GW,其中我国新增装机容量达到2.3 GW,创下历史新高。虽然风电事业发展迅速,但风电项目抢装潮过后的“风电机组质保”困局却没有得到足够关注,同时风电场地处偏远,环境恶劣,导致维修成本居高不下,对风电场运行维护影响巨大[1]。

风电机组靠风驱动,承受着巨大的随机冲击力,因此会产生多种类型的故障[2]。齿轮箱作为风电机组传动系统中的关键设备,影响整个机组的运行。若其故障未能及时维修,会产生重大经济损失,因此对齿轮箱的运行状态进行实时监测至关重要。

目前,大部分风电场都已安装数据采集与监控(Supervisory Control and Data Acquisition,SCADA)系统来实时监测风电机组各个系统的运行状态参数。文献[3]使用加权主成分分析法建立正常工况下的发电机温度模型,利用所建模型对其余时间段运行数据进行温度故障检测。文献[4]结合SCADA数据采用相关性分析确定与有功功率强相关性的温度参数建立风电机组异常识别模型,采用滑动窗口进行在线监测。文献[5]提出了改进的线性回归径向基神经网络方法,建立正常运行状态下轴承的温度预测。文献[6]提出一种基于果蝇算法优化极限学习机的方法对风机齿轮箱进行状态检测,并预测齿轮箱剩余使用寿命。文献[7]提出D-S(Dempster-Shafer)证据理论对风电机组SCADA报警数据进行故障分析。上述文献都是基于相关特征参数建立优化的模型来提高预测精度,使机组的在线监测更加精准。但风电机组的建模不仅依赖合理的特征参数和建模方法,还应包括建模所需运行数据的选取。在这方面,上述文献涉及较少。

针对这一问题,本文提出一种基于异常数据清洗和动态神经网络的齿轮箱油温建模方法,将现场采集的SCADA数据进行有效清洗,同时选择合理的模型输入参数,使清洗后数据所建模型精度更高,预测效果更好。继而引用统计过程控制方法实时监控齿轮箱油温趋势,并用实例验证该方法可有效监测异常状况,达到预警效果。

1 SCADA系统异常数据清洗

1.1 SCADA数据选取

本文选取的SCADA数据来自河北省某风电场,配备远景1.5 MW双馈式风力发电机,切入风速为3 m/s,额定风速为12 m/s,切出风速为25 m/s。该SCADA系统每分钟记录一次监测数据,监测参数包括有功功率、发电机转速、风速、主轴承温度、风向、桨距角、偏航角等共97个,每台机组一年可记录近400 000个数据项。

1.2 标准风速功率曲线建立

为了更好地将SCADA系统数据进行预处理,需要建立标准风速-功率曲线。标准的风速-功率曲线是结合当地空气密度由厂家提供的,已知该风电场标准空气密度为1.01 kg/m3。标准风速-功率曲线如图1所示。

图1 标准风速功率曲线

由图1可知:当风速小于切入风速时,风机不发电处于待机状态;当风速达到切入风速时,风机开始转动产生输出功率,功率随风速的增加逐渐增加[8];当风速达到额定风速时,机组功率达到额定功率1.5 MW;当风速超过额定风速时,风机通过变桨系统调节桨距角使功率维持在额定功率附近;当风速超过切出风速时,风机制动停机。

1.3 基于bin算法的异常数据清洗

1.3.1 异常数据分布

由于弃风限电以及传感器自身精度误差等原因,实际风电场采集的SCADA数据存在大量异常数据,这些异常数据的存在会直接影响到模型的预测精度[9]。按照标准风速-功率曲线的分布特征,异常数据大致可分为以下几类:第1类为曲线底部堆积型数据,表现为风速很大但功率为零的数据;第2类为曲线中部堆积型数据,表现为风速很大但功率维持在小于额定功率的某个恒定功率,即限功率数据;第3类为曲线四周分布的散点型数据,表现为风速很小但功率很大或风速很大但功率很小的散点数据。这里选取该风场2017年连续12个月的数据分布如图2所示。

图2 机组异常数据分布

1.3.2 bin算法拟合风速-功率曲线

为有效避免风速-功率曲线在额定功率时出现拟合不准的现象,采用bin算法进行拟合[10]。根据风机运行原理,首先剔除风速小于切入风速和大于切出风速的数据。然后,将运行范围内的风速划分为两个大区间即[切入风速,额定风速]和[额定风速,切出风速]。每个大区间再把风速等间隔划分,称为风速bin[11]。为方便拟合取每0.5 m/s风速为一个bin,分别求得每一个bin中的风速、功率平均值,得到所对应点(vi,pi),通过所得的点拟合即可得到拟合的风速-功率曲线。

(1)

(2)

式中:vi,vij——第i个bin区间的平均风速,第i个bin区间内第j个实际风速;

pi,pij——第i个bin区间的平均功率,第i个bin区间内第j个实际功率;

mi——第i个bin区间的总数据数。

1.3.3 异常数据清洗

bin算法可对风速-功率曲线进行有效的拟合,且所得曲线平滑误差较小[12]。数据清洗步骤如下:计算风速对应的拟合曲线功率与实际功率的欧氏距离,实际运行功率越接近拟合功率,距离值就越小。根据数据统计距离值分布的标准差σ。标准差可以反映一个数据集的离散程度,位于σ内的数据为正常数据,否则为异常数据,剔除标准差大于σ的数据,从而达到清洗原始数据的目的[13]。数据清洗后结果如图3所示。

图3 数据清洗后的风速功率曲线

2 动态神经网络模型建立

2.1 互信息特征选择

风机在运行过程中各个子系统相互作用、紧密联系,所以齿轮箱油池温度模型特征参数的选取不仅包括齿轮箱系统中的参数,还包括其他系统的参数。由于不同参数对齿轮箱油池温度影响不尽相同,因此合理选择特征参数至关重要。互信息法可计算两个变量之间的相关性,因此可采用该方法确定与齿轮箱油池温度密切相关的特征参数。两个随机变量X和Y的互信息计算公式如下

(3)

式中:p(x,y)——X和Y的联合概率分布函数;

p(x),p(y)——X和Y的边缘概率分布函数。

选取2017年5月1日至7日的数据,计算各个参数与油池温度的相关性,选择阈值大于0.6的参数为模型输入参数。最终确定模型输入参数为发电机功率、风速、主轴转速、液压站预充压力、齿轮箱驱动端轴承温度和齿轮箱非驱动端轴承温度,模型的输出参数为齿轮箱油池温度。

2.2 建模原理

NARX(Nonlinear Autoregressive with Exogenous Inputs)神经网络是带有外部输入且具有反馈的动态神经网络,网络的输入不仅与当前的输入有关,而且与过去的输出有关[14]。齿轮箱油池温度不但有较强的自相关性,还与风速、功率等外部相关变量具有相关性。本文引入NARX动态神经网络对风机齿轮箱油池温度进行建模。该模型能够将输出信号反馈到输入端从而将输出信号参与到下一次的迭代训练中,具有记忆功能,因此可以更好地描述具有复杂映射关系的时变系统的特性[15]。NARX神经网络结构如图4所示。其中,d表示延时阶数,W为联接权值,b为阈值,f1,f2分别为隐含层和输出层函数。采用莱文伯格-马夸特(Levenberg-Marquardt,LM)算法进行权值迭代。该算法具有收敛时间短等特点[16]。齿轮箱油池温度预测值定义如下

y(t+1)=f[y(t),y(t-1),…,y(t-ny),

x(t),x(t-1),…,x(t-nx)]

(4)

式中:y(t),y(t-1),…,y(t-ny)——齿轮箱油池温度的时间序列;

x(t),x(t-1),…,x(t-nx)——外部输入参数序列。

图4 NARX神经网络结构

2.3 齿轮箱油池温度建模分析

选取上节的数据对齿轮箱油池温度进行建模。选择15%的数据用于模型训练,15%的数据用于模型验证,70%的数据用于模型测试。使用较多的数据进行模型预测,可使精度达到更高要求。同时NARX神经网络的延时阶数与隐含层个数也影响着模型的预测精度。经过反复多次实验最终确定NARX神经网络的延时阶数d为3,隐含层个数m为10。

NARX神经网络输入误差相关性结果如图5所示。输入误差自相关性反映数据之间的相关性,由图5(a)可知,除零延迟外,其余基本落在95%的置信区间内,表明网络具有较强的预测能力。输入误差互相关性表示输入与误差之间的相关性,由图5(b)可知,该指标同样在95%的置信区间内,表明网络性能较优。

图5 NARX神经网络输入误差相关性结果

网络预测值和实际值对比如图6所示,预测曲线基本接近实际曲线,误差范围也相对较小。

图6 NARX神经网络齿轮箱油池温度预测曲线

为了更好地判定模型的预测结果,采用均方差(Mean Squared Error,MSE)、平均绝对误差(Mean Absolute Error,MAE)、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)值来评价模型精度,并与BP、ELMAN神经网络进行对比。MSE、MAE、MAPE等误差指标越小,模型的预测精度越高,其中MSE描述了误差的偏离程度,反映了模型的稳定性,其值越小,则系统越稳定[17]。性能对比结果如表1所示。

表1 NARX模型和其他模型的性能指标对比结果

3 基于统计过程控制的齿轮箱运行状态监测

3.1 基于统计过程控制的残差指标

本文将统计过程控制(Statistical Process Control,SPC)方法引用到风电机组齿轮箱的残差监测中,通过监测齿轮箱实际油温与模型预测油温的残差分布状况来实现齿轮箱运行状态在线监测行为[18]。

如果残差变量X服从正态分布,即X~N(μ,σ2),则p(μ-3σ

(5)

(6)

式中:μ——残差均值;

n——监测的总数据数;

ei——每个监测油温实际值与预测值的差值;

σ——标准差。

3.2 实例分析

齿轮箱油池正常温度范围基本维持在55~62 ℃。当油池温度高于70 ℃时,机组发生报警故障。正常运行状态下的残差分布基本呈正态分布,符合SPC预警方法。根据式(5)和式(6)可求得μ和σ,即Xe~N(0.6,0.42)。计算阈值上限(UCL)为1.650 6,阈值下限(LCL)为-1.673 8,正常运行状态下齿轮箱油池温度残差在阈值线范围内波动,具体如图7所示。

图7 齿轮箱油池温度正常状态下残差波动曲线

已知该机组2017年10月28日15:23:00发生“齿轮箱油池温度高于上限值”故障。实验选取2017年10月28日03:30:00至2017年10月28日15:22:00的数据段进行监测。齿轮箱油池温度监测结果如图8所示。当齿轮箱油池温度出现异常状况时,残差逐渐上升直至超过阈值上限。残差第一次超过阈值上限时间点为04:16:00,但之后残差又回到正常范围,这是由于监测系统存在一定概率的误报警,误报警阶段误差曲线也会超过阈值,因此不能直接认定这是预警时间点。从04:43:00时刻开始残差再次超过阈值,且呈直线上升趋势,表明温差偏离正常范围,可认为该点为首次报警点,即预警时间为2017年10月28日04:43:00,比故障发生时间提前约10.5 h提出预警。

图8 齿轮箱油池温度残差监测曲线

4 结 语

本文结合风电场SCADA系统采集的数据,提出了一种基于bin算法拟合风速-功率曲线与标准差数据清洗方法,有效剔除了异常数据,提高了风电机组齿轮箱模型精度。通过互信息法选择合理的特征参数,采用NARX动态神经网络建立齿轮箱油池温度模型,并与BP和ELMAN神经网络进行对比,通过模型评价指标分析得到NARX动态神经网络所建模型各指标均优于对比模型。最后,采用统计过程控制方法确定预警上下阈值线,对齿轮箱油池温度进行实时监测。通过实例证明,该方法可对齿轮箱油池温度异常状况提前预警,对风电机组的运行维护具有重大意义。

猜你喜欢
齿轮箱风速机组
双馈式可变速抽水蓄能机组运行控制
CJ-1型齿轮箱箱体强度分析
热连轧机组粗轧机精度控制
高速铁路风速监测异常数据判识方法研究
风力发电齿轮箱设计制造技术
邸若冰:机组控制系统的保护神
2006—2016年平凉市风速变化特征分析
《函数》测试题
快速评估风电场50年一遇最大风速的算法
基于伪故障信号的齿轮箱故障诊断方法