吴忠强, 曹碧莲, 侯林成, 马博岩, 胡晓宇
(燕山大学 工业计算机控制工程河北省重点实验室,河北 秦皇岛 066004)
光伏发电站通常设置在沙漠、山区等面积广阔、环境恶劣的地方,要想进行维护监测,需要耗费大量的人力,物力资源,因此找到既能节省资源又能达到检测目的的方法对提高光伏发电效率,改善光伏发电运行工况尤为重要[1~4]。
早期,人们通过观察数据的变化趋势进行故障诊断[5],这种方法不利于大量复杂数据的分析处理。随着智能算法的出现及系统智能化程度的不断提升,如何利用智能算法在复杂环境下进行有效便捷的故障诊断[6],是当前需要深入研究的问题。文献[7]提出一种基于BP(back propagation)神经网络的故障诊断方法对光伏阵列的正常、短路和异常老化进行诊断,但是存在过度拟合的问题。文献[8]用支持向量机(support vector machine,SVM)算法创建一个决策边界来预测某个故障是否已经发生,但是算法泛化能力较差。文献[9]根据光伏组件温度、电流和电压在最大功率点条件下的关系,提出了基于卡尔曼滤波器的故障检测模型,但这种方法只能用来检测故障,而无法准确判断出故障类型。文献[10]使用粒子群算法(particle swarm optimization,PSO)对深度置信网络(deep belief network,DBN)进行优化,从而实现故障诊断,但过程较为复杂。文献[11]利用模糊C均值聚类算法(fuzzy C-means,FCM)使每一类故障的非相似性指标值最大,并由隶属度的大小判别故障数据与故障模式的相似程度,从而达到诊断光伏系统故障的目的,但是也存在算法较为复杂的问题。
小波包变换(wavelet packet transformation,WPT)是小波变换(wavelet transformation, WT)的延伸[12,13]。小波变换只对信号的低频部分做进一步分解,而对高频部分即信号的细节部分不再继续分解,小波包变换可以对高频部分提供更精细的分解,而且这种分解既无冗余,也无疏漏,适合于对包含大量中、高频信息的信号进行更好的时频局部化分析。把小波包变换应用于光伏系统的故障诊断中,利用小波包变换对故障数据进行特征提取,可进一步提高故障分类的准确性。
随机森林算法(random forest,RF)是Breiman L[14]于2001年提出结合Bagging集成学习理论与随机子空间方法的一种机器学习算法,RF具有实现简单、训练速度快、不易被噪声干扰的优点,在某些特征损失的情况下,仍可以维持一定的准确率。目前,随机森林算法已经应用在图像识别[15]、电能质量分析[16]、多电平逆变器故障诊断[17]等方面,但在光伏系统故障分类领域的应用还较少。
本文将小波包与随机森林算法相结合并首次应用于光伏系统故障分类中。利用小波包变换对采集的光伏系统故障电压数据进行分解,提取各频带能量作为故障特征,将故障特征样本送入RF中进行分类。对比RBF神经网络的分类结果表明,RF方法有效提高了光伏系统故障分类的准确性。
光伏系统在运行过程中会出现各种故障,影响系统的输出功率,一般来说,光伏系统中的故障总体分为外部环境故障、光伏系统电力故障和物理故障等。按位置分为交流级故障和直流级故障。交流故障包括门控和开关故障,开路和短路故障,以及电路中导致滤波器故障的谐波;而直流故障包括各种基于模块的故障,最大功率点跟踪(MPPT)算法的故障,以及与DC-DC转换器相关的故障等。对光伏系统的各种故障进行统计,见表1。
表1 光伏系统故障Tab.1 Photovoltaic system failure
光伏系统中的每一种故障的发生都对输出电压和电流有特定影响,与正常运行情况相比,会导致输出的波形不同。这些波形在时域和频域中具有不同的特征,而小波包变换具有同时对时域和频域进行分析的能力,因此,首先采用小波包变换提取光伏系统故障特征,再利用RF对其进行分类,以便进一步提高故障分类的准确性。
小波包变换是小波变换的延伸,它将小波变换没有分解的高频信号继续向底层分解,提高了信号的时频分辨率,三层小波包分解树结构如图1所示,其中:A表示低频信号;D表示高频信号;下角标数字表示分解的层数。
小波包变换满足双尺度方程[18]:
(1)
图1 三层小波包分解树结构示意图Fig.1 Three-layer wavelet packet decomposition tree structure diagram
基于小波包变换提取故障特征的步骤如下:
(1) 小波包分解:对故障信号进行j层小波包分解,得到2j个不同信号的子频带,并按低频到高频的顺序重新排列,采用正交小波包变换对信号X(t)进行分解,则l层k点的小波包分解系数如式(2)和(3)所示:
(2)
(3)
式中:l为小波包分解层数;r=0,1,2,…,2l-1为相应层数下节点的个数;k=1,2,3,…,2l是第j层的第k个节点。
(4)
(5)
(6)
由此,特征向量A的构造如式(7)所示:
A=[El1,El2,…,El2l]
(7)
随机森林算法(RF)是一种基于Bagging[19]和决策树[20]的有监督学习算法,它的基本原理就是以分类回归树(classification and regression,CART)生成的决策树作为基分类器,每个基分类器都会相应地产生一个分类结果,最后采用众数投票的方式获得最终的分类结果。RF分类模型利用自助抽样和随机子空间思想(两重随机性),能对多维、多特征数据进行快速有效处理。同时RF能够很好地解决单个分类器性能提升的瓶颈问题以及过拟合的问题,有较强的泛化能力,适用于解决分类问题。
因为RF模型是由单棵决策树构建的,所以单棵决策树的分类能力以及决策树之间的关联性对RF模型的分类准确率有重要影响,可由RF算法的泛化误差界PE*表征为
(8)
式中:a代表每棵决策树的分类能力;θ表示不同决策树之间的关联性。
由式(8)可知,泛化误差界与a成负相关,与θ成正相关,当a越大,θ越小时,泛化误差界越小,相应的分类准确度越高。
RF的特点就是利用了两重随机性,一是自助抽样:对T个原始样本集进行随机抽样选择,得到一定的样本子集用于决策树训练;二是随机子空间思想:对m个样本特征属性进行随机抽样,选择d个特征,来划分样本,两重随机性进一步提升了RF的分类性能。RF分类模型构建过程主要包括以下3个步骤:
(1) Bootstrap重采样:利用Bootstrap法在原始训练样本集T中随机有放回地进行l次抽样,形成l(l (9) 当l→∞时,有 (10) 在RF中未被抽中的约38%的样本数据被称为袋外数据(out of bag,OOB)[21],在生成每一棵决策树时,都可以同时计算得到一个OOB误差估计,将RF中的所有决策树的OOB误差估计取平均值,即可得到RF的泛化误差估计。 (2) 决策树基分类器构建:利用CART算法构建相应的决策树并组合成随机森林。采用随机子空间思想从m个特征变量中随机等概率抽取d个子变量组成该节点的分裂特征变量子集,并利用CART算法中基尼系数(Gini index,Gini)值最小原则选出一个最优的分裂特征变量和最优分裂值对该节点进行分裂,递归建树直到每个特征变量被用作分裂节点,重复上述随机过程N次,即建立了N棵决策树,组合成随机森林。定义Gini系数: (11) 式中:di是当前某一所选特征变量;k是特征变量di所对应的类别数;pk是样本点属于第k类的概率。 (3) 投票表决:针对输入的测试样本集,每个决策树都会相应地有一个分类结果,对其进行投票表决,将决策树分类结果得票数量多的作为最终的决策,如式(12)所示。 (12) 式中:Y(x)是RF对测试集样本最终的分类结果;yn(x)=i是第n棵决策树的输出结果为i;λ(*)是满足括号中表达式的个数;z是随机森林类别的数量。 RF构建的分类流程图如图2所示。 图2 RF算法构建分类流程图Fig.2 RF algorithm construction classification flowchart 基于小波包和RF的光伏发电系统故障分类融合了不同特征的故障分类信息,图4为故障分类流程图。 图3 光伏系统的故障分类原理图Fig.3 Schematic diagram of fault classification of photovoltaic system 图4 故障分类流程图Fig.4 Fault classification flowchart 在1 000 W/m2辐照度和25 ℃的标准测试条件下,利用PSCAD/EMTDC仿真软件搭建两级独立光伏发电系统,见图5。系统包括:光伏阵列、DC-DC升压转换器、逆变器和交流负载,其中MPPT算法采用扰动观察法[22](Perturb & Observe,P&O),以占空比(PWM)的形式控制升压转换器,光伏系统的输出为230 V,50 Hz交流电,为恒定负载供电。选取12种光伏系统关键故障。 图5中各故障电压数据通过搭建的PSCAD/EMTDC模型获取,采样时长为1 s,采样间隔为0.2 ms。为了测试所提出的诊断策略的有效性,在电压样本中随机加入10%的高斯噪声,每类故障重复采集50次,总共获得600个样本集。对样本集采用小波包变换提取故障特征,选择有较强鲁棒性,受噪声影响小的‘db5’小波基函数,对12种故障状态(包括无故障状态)下的数据进行3层小波包分解。提取各频带能量作为故障特征,共得到8个样本特征,则每个故障类别有50×8个样本特征矩阵,12种故障状态共有600×8个样本矩阵。选取其中360个样本用于训练RF分类器,剩余240个样本用于测试RF的分类性能。详细故障类型及其类别标签见表2。 图5 PSCAD/EMTDC模拟的光伏系统故障示意图Fig.5 Schematic diagram of photovoltaic system failure simulated by PSCAD/EMTDC 给出Boost电路二极管短路故障(故障5),在t=0.3 s时,升压转换器二极管短路,监测到的电压变化曲线如图6所示。 采集故障5电压数据,选择‘db5’小波基函数对电压信号S进行3层小波包分解、重构,得到单支重构信号S3(1),…,S3(8),如图7所示。 利用小波包变换提取各频带能量作为故障特征,用于训练分类器,经3层小波包分解后提取得到能量值(是每个单支重构信号的幅值和,无量纲),如图8所示,可明显的观察到故障状态下提取的能量值之间有较大区别,适用于模型的训练与测试。 表2 故障类型及类别标签Tab.2 Fault type and category label 图6 Boost转换器二极管短路故障下的电压变化Fig.6 Voltage change under diode short circuit fault of Boost converter 图7 二极管短路故障下的电压DWT单支重构信号Fig.7 Reconstruction signal of voltage DWT single branch under diode short circuit fault 图8 Boost转换器二极管短路故障电压的小波包能量值Fig.8 Wavelet Packet Energy Value of Boost Converter Diode Short-circuit Fault Voltage 在算法运行前,需要设置RF中决策树的棵数(ntree),初始默认值为500,根据故障数据来判断决策树棵数对RF的性能影响,将决策树棵数设置为300棵时故障诊断准确性相对较高。对RF分类器进行训练后,利用240个测试集对构建好的随机森林模型进行分类准确率验证,分类结果如图9所示。 图9 RF测试集分类结果Fig.9 RF test set classification results RF的实际分类结果表明,测试集分类准确率为97.92%,其中无故障状态,故障2、3、5、7、8、9、12这8种故障的分类准确率均为100%;故障4和故障11的分类准确率分别为80%和95%;测试样本的混淆矩阵如表3所示。 表3 RF测试集混淆矩阵Tab.3 RF test set confusion matrix 将RF分类结果与RBF神经网络进行对比,用第4.2节小波包提取特征后的样本数据送入RBF神经网络中进行训练和测试, 采用欧式距离计算两样本之间的间距,径向基的扩展速度Spread值设置为0.3时,分类准确率最高,最终的分类结果见图10。表4为两种算法分类准确率对比,可见RF算法能较好地对光伏系统的故障进行分类识别,分类准确率高于RBF神经网络,说明随机森林算法分类精度较高、能够很好地实现光伏系统的故障分类。 图10 RBF测试集分类结果Fig.10 RBF test set classification results 表4 两种算法的分类准确率对比Tab.4 Comparison of classification accuracy between the two algorithms (%) 提出一种基于小波包变换和随机森林算法相结合的分类器对光伏系统进行故障分类。首先利用小波包变换提取光伏系统故障特征,再将提取到的特征样本送入RF中训练分类器。小波包变换具有同时对时域和频域进行分析的能力,可进一步提高故障分类的准确性。RF是一种结合集成学习理论和随机子空间方法的新算法,能对多维、多特征数据进行快速有效处理,同时具有不易被噪声干扰、容噪能力强、能避免过拟合等优点,可对多种故障出准确分类;仿真结果表明:该方法可快速有效的识别出光伏系统12种故障状态,分类准确率达到97.92%,而传统的RBF神经网络的分类准确率为93.75%,这表明本文方法使故障分类准确率提高了4.17%,可应用于光伏发电系统的故障诊断。3.3 光伏系统故障分类原理和流程
4 仿真分析
4.1 光伏系统故障模拟
4.2 RF分类结果对比分析
5 结 论