杜冠洲,韦古强,凌俊斌
(1.都城伟业集团有限公司,北京 100020;2.国网江苏省电力公司经济技术研究院,江苏 南京 210008)
基于数据挖掘技术的风电设备可靠性分析
杜冠洲1,韦古强1,凌俊斌2
(1.都城伟业集团有限公司,北京 100020;2.国网江苏省电力公司经济技术研究院,江苏 南京 210008)
本文以风电设备可靠性为研究对象,分别运用C5.0决策树和贝叶斯信念网络建立风电设备可靠性评价模型,并对两种分类算法的准确性进行了评估,对比分析得出,贝叶斯信念网络模型的分类性能更好,能更好地应用于风电设备可靠性的智能评价,从而为企业的决策、发展提供科学的参考依据。
风电设备可靠性;C5.0;贝叶斯信念网络
近年来,我国风电产业发展迅速。2015年,我国新增安装风电机组16740台,新增装机容量30753MW,同比增长32.6%;累积安装风电机组92981台,累积装机容量145362MW,同比增长26.8%。风电产业已经成为我国电力产业的重要组成部分。随着风电机组装机容量越来越大,系统越来越复杂,设备故障率也随之增长,导致风电机组的运行、维护成本增加。
目前,我国风电机组的运行、维护主要借鉴火电机组的运维策略,采用定期维护和事后维护的方式。但是,由于风电机组和火电机组在结构、运行环境和运行方式之间的差异,从而导致风电机组运维无法准确、有效地监控设备的运行状况,容易出现各种设备故障。
为了提高风电机组的运维水平,发展易维护、高可靠性、高质量的机组,本文通过构建风电设备可靠性指标体系,运用C5.0决策树、贝叶斯信念网络等数据挖掘技术建立风电设备可靠性分析模型,并利用混淆矩阵和ROC曲线对模型进行评估,择优选取分类性能优异的模型作为实践应用的工具,从而实现风电设备可靠性控制的实时化、智能化、可预测化,为风电机组运维提供科学的参考依据。
2.1 风电机组状态划分
风电机组(以下简称机组)状态划分如图1。
2.2 风电设备可靠性指标体系
本文根据某集团公司新能源发电产业的实际情况,利用散点图观察、相关性分析和协方差分析等方法,从风力发电设备可靠性评价规程所给出的指标清单中筛选出10个指标,作为本文进行风电设备可靠性评估的指标体系。10个指标分别为:可用系数、等效可用系数、出力系数、强迫停运率、等效强迫停运率、暴露率、平均无故障可用小时、启动可靠度、平均启动间隔小时、检修费用、计划停运系数。
图1 风电机组状态划分
3.1 模型概述
本文基于风电设备可靠性指标体系,拟采用C5.0决策树算法和贝叶斯信念网络等分类算法建模。
(1)决策树是一种类似于流程图的树结构,其结构是一棵倒置的树,它主要围绕生长和剪枝两大核心问题展开。决策树获取的知识,用树的形式表示出来,其中包括分类树和回归树,分类或预测的结果均体现在决策树的叶节点上。分类树叶节点所含样本中,其输出变量的众数类别就是分类结果;回归树叶节点所含样本中,其输出变量的平均值就是预测结果。决策树直观易懂且其归纳学习和分类步骤简单快速,并且具有很好的准确率。C5.0可用来处理数值型或分类型的资料,它的分类预测是基于逻辑的,即通过对输入变量取值的布尔比较实现对输出变量的分类预测,在众多的输出变量中选择一个当前最佳的分组变量,并从分组变量的众多取值中找到一个最佳的分割点。并且为了清楚地表示分析结果,可用决策树(decision trees)或是 if- then 的关系显示。
(2)贝叶斯信念网络是说明联合条件概率分布。它允许在变量的子集间定义类条件独立性。它提供一种因果关系的图形模型,可以在其上进行学习。训练后的贝叶斯信念网络可以用于分类。贝叶斯信念网络有两个成分定义——有向无环图和条件概率表。有向无环图每个节点代表一个随机变量,每条弧表示一个概率依赖。如果一条弧由节点Y到Z,则Y是Z的双亲或直接前驱,而Z是Y的后代,给定双亲后,每个变量条件独立于图中它的非后代。
对于贝叶斯信念网络当中的每一个变量都有一个条件概率表(ConditionalProbabilityTable,CPT)。变量Y的CPT说明条件分布P(Y|Parents(Y)),其中Parents(Y)是Y的双亲。
1.3.2 利率标准突破难,商业银行不愿贷。利率市场化后,商业银行吸储成本上升,中长期贷款实行基准利率往往会出现存贷成本倒挂的情况。商业银行普遍认为执行基准利率偏低,按基准利率放贷,银行会出现亏损;再加上贷款期限长,商业银行担心风险较大。在政策性银行和国有银行(农行)不贷的情况下,没有商业银行愿意承贷。
设X=(x1, …, xn)是被变量或属性Y1, …, Yn描述的数据元组。这时,信念网络用下式提供存在的联合概率分布的完全表示:
其中,P(x1, …, xn)是X的值的特定组合的概率,而P(xi|Parents(Yi))的值对应于Yi的CPT的表目。
网络内的节点可以选作“输出”节点,代表类标号属性。可以有多个输出节点。多种推断和学习算法都可以用于这种网络。分类过程不是返回单个类标号,而是可以返回概率分布,给出每个类的概率。
3.2 模型构建
本文拟选取99台风电机组设备可靠性指标数据进行建模,因评价指标间存在量纲不统一的问题,因此,首先利用IBM SPSS Statistics软件对指标数据进行标准化处理,然后,借助IBM SPSS Modeler14.1软件,运用C5.0决策树算法和贝叶斯信念网络算法建模,对设备可靠性进行评价。最后,利用混淆矩阵和ROC曲线,选定分类性能较好的算法,应用于实践。最终构建模型如图2所示。
图2 风电设备可靠性模型
图3 决策树模型
3.2.1 C5.0决策树模型
(1)C5.0决策树模型运行结果如图3所示。根据上图可知:对于可用系数小于等于93.516的机组,平均启动间隔小时决定实际鉴定结果,对于可用系数大于93.516的机组,等效可用系数决定机组的实际鉴定结果。
(2)C5.0模型实际鉴定结果的混淆矩阵如表1所示。
表1 C5.0模型实际鉴定结果的混淆矩阵
由表1可知,C5.0模型的分类准确率为87.88%,实际鉴定结果为一级被误判为二级结果的出现2次,被误判为四级结果的出现1次;实际鉴定结果为三级被误判为一级结果的出现2次,被误判为四级结果的出现2次;实际鉴定结果为二级被误判为一级结果的出现2次,被误判为三级结果的出现2次;实际鉴定结果为四级被误判为一级结果的出现1次。
3.2.2 贝叶斯信念网络模型
(1)贝叶斯信念网络模型的结构类型使用TAN算法,参数学习方法使用最大似然法,最终构造出的有向无环图如图4所示。
图4 有向无环图
由图4可知,可用系数在所有指标中,对实际鉴定结果起着决定性的作用,是最重要的指标。
(2)贝叶斯信念网络模型实际鉴定结果的混淆矩阵如表2所示。
表2 贝叶斯信念网络模型实际鉴定结果的混淆矩阵
由表2可知,贝叶斯信念网络模型的分类准确率为98.99%,实际鉴定结果为四级被误判为二级结果的出现1次。
3.3 模型评价
对比C5.0决策树和贝叶斯信念网络的分类准确率,可以看出,贝叶斯信念网络的分类准确率较高。为进一步评估模型分类的性能,采用ROC曲线对两者进行评估,如图5、图6所示。
图5 C5.0决策树的ROC曲线
图6 贝叶斯信念网络的ROC曲线
通过图5、图6可以看出,对于实际鉴定结果为一级,贝叶斯信念网络的ROC曲线较C5.0决策树的ROC曲线更加靠近单位方形的左上角,贝叶斯信念网络ROC曲线下的面积更大,说明贝叶斯信念网络的分类性能较好,能够用于风电设备可靠性评价。
对于设备密集型企业来说,设备的可靠性关系着企业的生存发展。对于发电企业来说尤其重要。本文是以大数据技术为基础进行建模、分析,实现自动智能识别鉴定,对风电设备可靠性的研究预期目标和成果如下。(1)借助大数据技术手段,研究利用C5.0决策树算法和贝叶斯信念网络,对风电设备的可靠性进行分析预测,从而更好地对风电设备的可靠性进行有针对性、有方向性的控制。(2)利用C5.0决策树和贝叶斯信念网络进行对比分析,使得预测鉴定结果最大程度与指标的实际鉴定结果相符,从而择优选用准确率更高的贝叶斯信念网络作为实践应用的分类器。
[1]陈树勇,戴慧珠,白晓民,等.风电场的发电可靠性模型及其应用[J].中国电机工程学报,2000,20(03).
[2]吴义纯,丁明.基于蒙特卡罗仿真的风力发电系统可靠性评价[J].电力自动化设备,2004,24(01).
[3]李辉,李学伟,胡姚刚,等.风电机组运行状态参数的非等间隔灰色预测[J].电力系统自动化,2012,36(09).
[4]王海超,鲁宗相,周双喜.风电场发电容量可信度研究[J].中国电机工程学报,2005,25(10).
[5]张瑞君. 风力发电机组性能考核方法探讨[J].能源技术经济,2011,23(11).
[6]苏寅生.电力设备可靠性数据收集统计述评[J].南方电网技术,2015,09(03).
TM774
A
1671-0711(2017)06(下)-0092-03
国家电网公司科技项目《多业务生产数据智能监测与分析一体化平台研究及示范应用》,(编号:[2015] 709-37)。