基于朴素贝叶斯的阀门关闭不合格原因评估

2022-08-02 10:03杜胜东
自动化仪表 2022年6期
关键词:分词贝叶斯阀门

杜胜东

(大唐西北电力试验研究院,陕西 西安 710018)

0 引言

随着科技进步和产业发展,风电、光伏成本逐渐降低。近年来,新能源发电装机容量快速提升。根据国家能源局发布的2020年全国电力工业统计数据,2020年全国新增装机容量19 087万千瓦。其中,太阳能发电4 820万千瓦、风电7 167万千瓦、水电1 323万千瓦,占新增装机容量的69.7%。新能源消纳压力的增加进一步要求火电机组提供调峰服务,出让发电空间[1]。因此,为了提高能源与资源的综合利用率、方便污染集中处理,以超临界、超超临界机组为代表的大型汽轮机承担着不可或缺的作用[2]。汽轮机阀门总关闭时间作为评价大小汽轮机组安全性的重要指标之一,在机组调节系统的动态性特征方面扮演着重要的角色[3]。

进行阀门关闭时间试验时,如果阀门关闭时间不合格,会受到多种因素的影响[4-5]。发电企业一般委托其他单位进行测试。在出具测试报告的过程中,处理结果需要消耗大量的时间。面对可能造成阀门关闭时间不合格的多种原因,处理问题缓慢且棘手。为了保证机组启动计划不受影响,需尽快评估阀门关闭时间不合格的原因并进行处理。通过将某电科院的所有阀门关闭试验报告中阀门关闭时间不合格原因进行整理后发现,可以将分析过程归结为对不合格原因的文本分类问题。

由于现场环境复杂,个人的评估具有局限性,判断标准不太明确。大数据及贝叶斯分类器凭借其优势,为阀门不合格原因评估提供了新的解决路径。贝叶斯网络在系统故障诊断[6]、疾病的判别与诊断、机器故障诊断[7-8]等方面的有效性已被证明。因此,本文基于贝叶斯网络的一种模型——朴素贝叶斯模型,通过对历史报告中的信息进行语义分割,构建一种汽轮机阀门关闭不合格原因评估模型,实现对不合格原因的快速判断。

1 阀门关闭时间原理

汽轮机跳闸保护系统(emergency trip system,ETS)跳闸回路如图1所示。

图1 汽轮机ETS跳闸回路示意图

当阀门关闭试验时,运行人员按下盘前打闸按钮,电磁阀失电动作,高压安全油迅速泄除,卸荷阀打开,主汽门、调门在弹簧的作用下快速关闭。参照《汽轮机调节保安系统试验导则》(DL/T 711—2019)进行测试。对于高中压主汽门、调门以及抽汽逆止门,采用汽轮机数字电液(digital electro hydraulic,DEH)控制系统、分布式控制系统(distributed control system,DCS)机柜内卡件上的位移反馈输出电压作为输入量,并以运行控制室紧急打闸按钮动作信号作为触发信号。

测试原理如图2所示。

图2 测试原理示意图

阀门总关闭时间包含控制回路延时、机械延时及阀门纯关闭时间[9]。延迟时间为汽轮机阀门跳闸发出的时刻至阀门全开信号消失时刻。动作时间为阀门全开信号消失至阀门全关信号出现的时刻。总关闭时间为动作时间与延迟时间之和。按照规定,对于200~600 MW汽轮机组:从跳闸指令发出到主汽门全关的时间须小于300 ms;从跳闸指令发出到调节汽门全关的时间须小于400 ms;抽汽逆止门关闭时间(包括延迟)一般应小于1 s。

2 朴素贝叶斯算法

朴素贝叶斯方法属于古典数学理论的重要分支,是数据挖掘和机器学习中的重要算法之一[10]。该算法具有分类效率稳定、训练和查询速度快、能处理多分类任务、算法简单、数据不敏感、结果易理解等特征[11]。在实际应用中,该算法引入“特征条件独立性假设”,简化了联合类条件概率的计算[12]。其模型分类原理如下。

(1)数据样本由n维特征向量X={x1,x2,…,xn}表示,描述了具有n个属性A1,A2,…,An样本的n维向量。

(2)已知有m个类C1,C2,…,Cm。基于朴素贝叶斯分类算法,对于一个特定的未知标号的数据样本,其会被该算法预测为给定X条件下后验概率最高的类别。该分类算法将X分配给类Ci的条件为:

P(Ci|X)>P(Cj|X),1≤j≤m,j≠i

(1)

式中:P为概率;X为特征向量;C为类向量;m为类的数量。

最大化P(Ci|X),与之对应的类Ci即为最大后验假定。根据贝叶斯定理:

(2)

(4)当数据集包含过多的属性时,则会提高计算P(X|Ci)的时间复杂度。此时,假定不同属性之间相互独立,即属性之间不存在依赖关系,可以有效地降低计算P(X|Ci)的时间复杂度。相应地,P(X|Ci)可表示为:

(3)

概率P(X1|Ci),P(X2|Ci),…,P(Xn|Ci)可以由训练样本计算得到。

②当Ak为连续值属性时,假设Ak服从正态分布,可以得到:

(4)

式中:μCi为类Ci的均值;σCi为类Ci的标准差;g(Xk,μCi,σCi)为Ak的高斯密度函数。

(5)对未知样本X分类,计算每个类的P(X|Ci)P(Ci)。样本X被分到类Ci的条件如下:

P(X|Ci)P(Ci)>P(X|Ci)P(Cj)

(5)

式中:1≤j≤m,j≠i。

也就是说,X被划分到P(X|Ci)P(Ci)值最大的类Ci。

3 应用研究

3.1 选取数据与预处理

为了保证电厂机组运行的安全、稳定,防止由于汽轮机超速而导致的重大安全生产事故,根据《并网运行汽轮机调节系统技术监督导则》(DL/T 338—2010)要求,有必要对汽轮发电机组阀门快关特性进行定期测试。在进行阀门关闭测试中,相关单位会产生大量的阀门关闭时间报告。本文从某电科院收集6年内实际的阀门关闭报告,对报告中的阀门关闭不合格原因的描述及数据进行整理并组成数据集。在整理了所有报告中177条不合格阀门关闭时间结果和对应的原因后,通过分析将其分为8类:阀门卡涩、控制油油压低、控制油油温低、控制器扫描周期长、跨控制器网络变量传输、线性可变差动变压器(linear variable differential transformer,LVDT)安装位置过高或过低、LVDT反馈杂波和其他。根据数据样本计算得到各类不合格原因的先验概率如表1所示。

表1 不合格的原因分类及其先验概率

3.2 建立特征属性

通过使用自然语言的分词处理工具对阀门关闭不合格现象的描述进行碎片化处理,得到数据集的特征属性。本文使用由北京大学语言计算与机器学习研究组研发的PkuSeg工具包进行阀门关闭不合格现象的描述分词处理。该工具包具有以下特点。

①高分词准确率。相比于通常使用的JieBa等分词工具包,PkuSeg工具包在不同行业的分词结果准确度都有所提高。

②多领域分词。技术人员训练了多种不同行业的分词模型。用户可以根据自己需要分词的行业自由地选择不同的模型。

③支持用户自训练模型。在分词训练中PkuSeg工具包支持用户添加全新的标注数据并进行训练。

在阀门关闭不合格现象的描述中,每种不合格原因对应的现象描述并不相同。研究发现,某些描述对不合格原因的判定贡献很大,而其他描述则没有贡献。使用PkuSeg工具选取特征词汇分为以下2步。

①集中某类原因的描述,将其组成1个集合,尽可能包含对该不合格现象的描述。

②收集出现的特征词汇,组成数据集(随着特征词数量的增加,分类的准确性越容易提高;特征词收集应同时包含高频词汇和指向性强的低频词汇)。

建立特征属性时:首先,使用PkuSeg工具对分类后的数据进行分词;然后,对词汇进行筛选,主要包括剔除语气词、停用词等;最后,分别找出每种不合格原因对应的高频词汇和指向性词汇,相应地把各类不合格原因特征词进行汇总,从而得到总体特征序列。

特征词汇词频统计如表2所示。

表2 特征词汇词频统计

3.3 建立模型

建立模型的过程为:首先,对不合格原因进行分类,并建立特征序列;然后,根据朴素贝叶斯定理建立分类器。各类不合格原因的先验概率P(Ci)如表1所示。不同特征属性的条件概率P(X|Ci)根据特征词汇频率计算而得。研究中使用Python程序实现模型的各个部分。各类原因通过建立字典类型实现。字典类型包括特征序列及其数量结构,如{‘控制器扫描周期长’:‘DCS’:54,‘DEH’:42,‘卡件’:28,‘网络’:0,‘硬接线’:0,‘测点’:0,‘仪器’:0,‘杂波’:0,‘LVDT’:0,‘油温’:0,‘油压’:0,‘阀门’:0}、{‘跨控制器网络变量传输’:‘DCS’:41,‘DEH’:59,‘卡件’:31,‘网络’:23,‘硬接线’:27,‘测点’:0,‘仪器’:0,‘杂波’:0,‘LVDT’:0,‘油温’:0,‘油压’:0,‘阀门’:0}等基于P(Ci)、P(X|Ci)和式(5)构建分类器的模型,即基于朴素贝叶斯的汽轮机阀门关闭不合格原因评估模型。

阀门关闭不合格原因评估模型是1个文本分类过程,利用朴素贝叶斯算法进行不合格原因的分类。模型工作流程为:首先,对不合格的现象描述进行处理,提取待判断不合格的特征序列;然后,用朴素贝叶斯分类器计算各类别的概率;最后,比较分类器已经计算完成的概率。每个概率值对应1种原因类别。概率中的最大值对应的原因类别就是评估结果。

3.4 结果测试

模型的准确性验证分为模型训练数据集测试和新增不合格数据集测试。首先,对模型数据集进行测试。测试结果显示,控制器扫描周期长,跨控制器网络变量传输2种不合格原因的准确率极高,均高于90%;其余有4种高于80%,2种偏低,最低的1种不到75%。根据测试结果,对模型进行调整:①基于出现概率偏低的不合格原因的现象描述,增加模型特征序列中的特征词;②人为提高特征词的出现频率。

经过增加特征词汇改进模型后,选取116项历史和新增不合格原因及其描述进行测试。测试结果统计如表3所示。从表3可以看出,测试的准确率均得到了显著提高,都达到了80%以上。

表3 测试结果统计

模型改进前后结果对比如图3所示。图3中,横轴为不合格原因的类型,分别为控制器扫描周期长(SMQZL)、跨控制器网络变量传输(SMQBL)、阀门卡涩(FMKS)、控制油油压低(KZYYL)、控制油油温低(KZYWL)、LVDT安装位置过高或过低(LVDTHOL)、LVDT反馈杂波(LVDTZB)以及其他(QT)。纵轴为各不合格原因的测试准确率。

图3 模型改进前后结果对比

通过对比改进前后的测试结果以及结合模型原理进行分析,得到提高模型性能的主要方法为:在创建阀门关闭不合格原因评估模型之初,选择数据集时需要满足样本容量大且全面的要求;在构建特征序列组合时,应将尽可能多的词汇包含在其中,使得特征序列能够包含指向性高的特征词。对于实际运行中出现频率较低的不合格原因,其对应的特征序列可以人为指定,且可人为提高其特征词出现的频率,进而提高样本容量少的不合格原因分类的准确性。

4 结论

本文基于朴素贝叶斯的汽轮机阀门关闭不合格原因评估方法,对某电科院报告中的历史不合格数据进行挖掘,完成不合格原因的判断。在对已建立模型的准确性测试中,发现模型分类无法实现100%的准确,准确率有待进一步提高,评估方法也有待改进。在以后的工作中,除了可以结合决策树、随机森林、支持向量机等分类算法,也可以结合知识图谱等智能算法,通过给现有模型增加自学习功能,不断提高判断的准确性。研究人员还可以将此方法应用于电厂就地设备和仪表故障的判断,提高电厂检修效率与管理水平。本文结合某电科院历史试验数据及结论,给出了朴素贝叶斯分类器在阀门关闭不合格原因评估领域的实现流程和测试结果,为实际生产中汽轮机故障诊断应用以及相关领域的学术研究提供了参考。

猜你喜欢
分词贝叶斯阀门
美嘉诺阀门(大连)有限公司
装配式玻璃钢阀门井的研发及应用
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
基于互信息的贝叶斯网络结构学习