张 月 窦 瑞
(成都理工大学,四川 成都 610059)
随着化石燃料对生态环境的破坏程度日益增加,可再生能源的利用被重视起来。相关调研数据显示,虽然我国风能资源巨大,但是其广泛分布在高寒地区和沿海地区[1]。由于这些地区存在海拔较高、空气湿度较高以及环境温度较低的情况,所以这些因素严重制约了风机的发电性能,并且给风机的安全运行造成较大威胁。尤其是当叶片附着较大质量的冰层时,会在很大程度上改变风机叶片的共振频率,同时也会改变动态的响应行为,造成叶片断裂的事故。该文充分地结合了SCADA 系统的运新数据,首先对海量数据进行数据预处理,其次对数据进行探索性分析,最后建立数学模型。基于Python(计算机程序设计语言)平台的TensorFlow(符号数学系统)环境下搭建数据分析平台,依据数据结果探索出各个算法之间的优劣性。根据相关系数水平以及均方根差(RMSE)值选出最优的算法。将高纬量的输入向量作为特征值进行取值,使其更加符合挖掘所需的目标。该过程充分地考虑了机组和部件之间的相关性以及耦合性,有效针对实际监测中的运行功率和理论功率之间的偏差关系建立风电机组的运行状态。同时,不同算法之间的结冰过程预测准确度也直接决定了除冰系统的效率、风机的效率损失和风机运行的风险。因此横向对比不同算法间的预测结果精度具有较高的应用价值[2]。
近年来,深度学习技术越来越成熟。一些较为熟悉的算法模型逐渐扩展到工程应用的各个领域。数据挖掘技术能够有效地将循环神经网络的时序概念引入网络的结构设计中。从而在数据分析和表现中展现出更加强烈的适应性。
多层感知器(Multilayer Perceptron,缩写“MLP”)是能够通过前向结构的人工神经网络形式。其输入的映射范围主要为一组输入向量到一组输出向量。通过算法对权重进行优化,减少在训练过程中的偏差数据。计算神经元输出值a 的公式,如公式(1)所示。
式中:aj代表隐藏层神经元的输出值; g(hj)代表激活函数;hj为变量数; wijxij分别代表w 层的第i 节点权重以及j 节点的权重系数。输入“,”表示偏移节点,如公式(2)所示。
式中:y 代表输出层的结果,等效赋予给ak;M 代表迭代计算总次数; wjk代表w 层输出第j 层第k 个节点的权重系数;xjk代表x 层输出第j 层第k 个节点的权重系数;M 代表变量总数。
卷积神经网络(Convolutional Neural Network, 简称“CNN”)是一种能够根据已有数据进行前馈神经网络设计的数据挖掘的途径。在神经网络的计算过程中,首先由输入层开始按照正向传播顺序进行传播,然后依次参照卷积层的顺序开始计算,最后计算至输出层就完成计算并输出结果。其计算原理如公式(3)所示。
式中:Mj代表上一层次输出的特征集几何以及原始图像;代表集合中表达的特征结果;代表集合中表达的特征图;代表输入中第i 个特征图到输出的第j 个特征图之间计算所用的卷积核;代表第j 个特征图的偏置;f 代表激活函数。
LSTM 是一种新的循环神经网络(Recurrent Neural Network,简称“RNN”)模型变体,区别于传统的神经网络, LSTM 网络在其内部构建了一个“处理器”。能够及时有效地对输入数据进行计算,并且依据数据结果决定信息的去留情况。
根据平均绝对误差( Mean Absolute Error,简称“MAE”)和均方根误差( Root Mean Squared Error,简称“RMSE”) 2个指标将不同算法的建模结果进行对比,结果表明MAE 和RMSE 是评估机器学习模型和深度学习模型常用的2 个指标,它们的计算公式如公式(4)、公式(5)所示。
式中:N表示样本数量;yt表示第t个样本的真实值;表示表示第t个样本的预测值。
该文采用的数据为某风场2015 年11 月4 日~2016 年1 月1 日的实时运行数据。首先针对数据中的风机运行机理进行数据过滤。根据实际测量的环境参数对风机的状态参数以及环境参数进行定义[3]。SCADA 风机数据主要参数描述见表1。
表1 SCADA 风机数据主要参数描述
其次依据SCADA 系统中机组启停故障信息,依据四分位法的形式将运行过程中由于系统组件所带来的自身问题进行数据剔除。设定系统的运行切入风速为3 m/s,额定风速为12 m/s,切出风速为25 m/s。择选取的风速范围为[3,25]。
根据以上数据结果,将393 887 组机组样本数据作为3 种模型的训练集,剩余的165 组为测试集,以功率输出的形式作为预测指标进行分析。根据不同算法的计算过程,进而得到机组的运行性能参数,预测的误差结果见表2。
表2 预测误差结果
由此可以看出,机组的实际运行性能可以在各个特征参数的回归中具有很好的一致性。在机组的实际运行过程中,功率的相对误差为2.51%,叶轮转速的误差为3.22 %,机组桨距角的样本误差为2.11 %。根据上述结果可知,经过LSTM 算法寻优的模型,其预测精度高,稳定性较好。
以阈值判别风机运行状态的结果为基础,首先对原始振动信号进行经验模态分解( Empirical Mode Decomposition,简称“EMD”),得到本征模态分量;其次,利用有效的分量去除原始信号的中的混合噪声。该文采用单调性和相关性评价指标从重构信号的时域特征以及频域特征对特征参数进行选择。通过故障信号可以针对滤波进行有效降噪[4]。进而得到6 种IMF 的分量值,其数据结果见表3。
表3 互相关系数和峭度值
从表3 中可以得出结论:虽然IMF1 ~IMF4 在故障的冲击中具有相似的成分,但是从数据结果的表现形式上来看,IMF1 的噪声表现比较大;并且IMF5 和IMF6的丢失信息较多。该文按照互相关系数准则和峭度准则的原则充分对IMF 分量进行筛选。此时对应的数据值与原始信号的相关性比较大。最终把IMF2、IMF3 和IMF4选为重构信号分量。实际功率的时间序列预测值如图1所示。
图1 实际功率预测值
在进行寿命预测前要根据实际的运行参数总结出分机叶片信号的退化趋势。特征参数过多会导致计算量的增加,而特征参数过少又不能完整地表达出风机叶片的退化趋势,会导致结果与实际的测量结果之间存在较大误差。因此,该研究通过单调性以及相关性的准则,根据降噪后的风机数据进行探究,选取了5 种特征参数构成相关系数矩阵。相关系数能够有效地反映出风机叶片的相关性水平,具体数据如图2 所示。
图2 分类混淆线性相关性矩阵
经过数据训练后的模型最终合并成1 个合并效果较好的多分类模型。使用混淆性矩阵对模型的分类效果进行基本的评价。混淆矩阵是评价模型的分类和相关效果最常用的方法之一[5],同时也是科学评价数据集分类精度的1 种重要方法。模型分类后得到测试集的分类混淆线性相关性矩阵如图2 所示。
图中,横纵座标分别代表样本的预测名称,网格数据代表相关性系数水平;其中正值代表正相关,负值代表负相关。正相关系数水平中,风速与发电风机电功率间的线性系数水平最高。依据风机叶片退化时刻参数建立风机叶片特征参数集标签。把退化起始点之前数据集设置为0。把退化起始点开始数据至完全退化状态的数据标签设置为1。该文的参数设置中,根据3 组叶片全寿命周期的实测数据作为样本数据。同时采用MLP 网络和CNN 网络作为基本的对照实验组。具体的网络设置参数见表4。
表4 3 种方法网络参数
时域统计分析是时域分析中最常见的手段之一。时域统计的特征参数主要有均值、方根值、各类斜度值和方差等。该文主要是通过时域分析来判断各个幅域的参数。其基本方法是通过描述设备的总体状态来对设备故障进行监测。把时域和频域作为共同表征值来进行特征值的选取,对有效实现RUL 具有重要意义。根据数据挖掘结果,得到的各个算法之间的RMSE 值见表5。
表5 预测误差
通过LSTM 网络训练的寿命预测数据与真实实测数据的一致性结果最好。根据时间序列的结果,在出现结冰后的一段时间内,预测数据结果的波动性较大,这主要是因为叶片在出现结冰故障发生后还需要恢复时间。其恢复的内容是,由于自身重量发生变化,导致振幅波动在运行的过程中变化较大。尤其是在恢复阶段后期,其预测精度比较平稳。表5 中给出了3 种预测方法的均方根误差值,其中LSTM 的RMSE 最小,这进一步证明了LSTM 方法预测性能优于其他2 种方法。通过该次数据挖掘与统计信息可以证明,LSTM 算法可以准确预测风机叶片剩余使用寿命,为发电风机的有效运行提供保障。
该文通过监测正常工作的风电机组,用SCADA 系统监测的数据进行数据挖掘和分析。建立风机机组运行状态特征参数,进而建立数据挖掘预测模型。对发电风机运行参数数据进行时域、频域和时频域的故障特征提取,将提取出来的特征参数值作为预测模型的输入参数,同时把一部分样本数据作为各个输入数据的基础数据进行训练,并根据训练结果调整网络参数。通过RMSE 预测度确定算法优度,相对于CNN 和MLP,基于LSTM 网络的寿命预测模型可以充分利用全生命周期时序数据的前后关联信息,对风机故障诊断和预测有更高的准确率。