基于MSSMOTE-CNN模型的空调冷水机组故障诊断

2024-12-28 00:00:00曹冉冉田禾樊怀聪冯明文
机械制造与自动化 2024年6期
关键词:冷水机组故障诊断

摘要:针对冷水机组运行过程中数据类别不平衡问题,提出基于马氏距离进行“三角”区域插值的MSSMOTE方法对故障数据进行扩充,将得到的数据输入CNN模型进行训练,实现对冷水机组中7种故障的诊断。在不同扩充比例下和同一种数据类型下分别进行仿真测试,结果显示:在扩充比例为4时,MSSMOTE-CNN模型对于正常样本测试的准确率和F1-score分别达到0.961和0.971,能够较准确识别出冷水机组的故障类型。

关键词:MSSMOTE-CNN模型;数据不平衡;故障诊断;冷水机组

中图分类号:TP277文献标志码:A文章编号:1671-5276(2024)06-0128-05

Abstract:To deal with the unbalanced data types during the operation of water chillers, this paper proposes the MSSMOTE method based on Mahalanobis distance and \"triangle\" area interpolation to expand the fault data, and input the obtained data into the CNN model for training, so as to realize the diagnosis of seven kinds of faults in water chillers. Simulation tests were conducted under different expansion ratios and the same data type. The results showed that when the expansion ratio was 4, the MSSMOTE-CNN model achieved an accuracy of 0.961 and a F1-score of 0.971 respectively for normal sample testing, which was capable of accurately identifying the fault type of the chiller.

Keywords:MSSMOTE-CNN model; data imbalance; fault diagnosis; water chilling unit

0引言

随着国内建筑全寿命周期能源消耗总量占据全国能源消耗总量比例的日益增高[1],如果暖通空调(heating, ventilating and air conditioning,HVAC)系统发生故障,不仅影响室内环境的舒适度,而且会造成能源的大量浪费。所以设备的故障诊断研究是非常有必要的[2]。基于数据的方法在异常检测[3]和语音识别[4-5]等领域都展现出了一定的优势。可以说工业互联网和智能化技术的不断发展为故障诊断技术带来了新的机遇[6],但是在大数据背景下往往存在着极度的类别不平衡特性,即正常样本数量远远多于故障样本。这种情况严重影响传统的基于数据驱动故障诊断模型的诊断效果[7-9]。本文主要针对数据采样方法中的过采样方法进行改进,研究基于数据的冷水机组故障诊断方法,有助于及时识别并解决冷水机组故障。

为了获得更具竞争力的平衡效果,基于过采样的方法主要关注少数样本,采用各种采集少数样本的思想来扩展其样本集的大小。随机复制几种类型的样本是一种相对简单的采样思想,但单个复制的样本只重复原始样本信息,往往会导致分类模型的过拟合[10]。面向不平衡数据集的分类方法,一般基于SMOTE改进的过采样方法是将SMOTE方法与密度思想或者k-means聚类思想相结合,或者通过赋予选择权重,以达到较好的样本平衡化效果。有通过构建稳定空间和改变插值方式来降低样本重叠性,进而对故障数据进行有效扩充的[11],还有通过改变距离的度量方式来优化数据扩充方法的[12]。除此之外,还有很多基于支持向量机的平衡化样本方法,其实验结果较传统的分类算法具有更好的性能和更高的精度。

实际冷水机组运行过程中通常存在类别不平衡以及多类型故障识别准确率低的问题。针对这两种问题,本文提出一种改进的MSSMOTE样本平衡化方法。最后将平衡化后得到的数据集输入CNN模型进行训练,实现对冷水机组运行过程中多类故障的诊断。

1基于MSSMOTE-CNN的故障诊断模型

1.1故障的类型

根据COMSTOCK等[13]对美国主流冷水机组产品进行的调查,同时列出了7种值得研究的故障类型,如表1所示。

在同一条件下,由于不同故障类型和同一故障类型的不同方面都有一定的影响,这会大大增加故障诊断模型构建的难度。

1.2数据扩充方法的对比

在传统SMOTE方法的基础上,SSMOTE和MSMOTE分别在插值方式和距离度量方式上进行了改进。本文将利用SSMOTE方法的插值方式改进MSMOTE方法样本重叠性低的问题,其中SMOTE、SSMOTE和MSMOTE在距离度量方式和插值方式上的对比如表2所示。

1.3改进的MSSMOTE方法

由于MSMOTE方法的聚类效果好,但是采用线性插值导致样本重叠性较高,而SSMOTE方法的聚类效果较差,而采用的“三角”区域插值能降低样本重叠性。为了得到更好的聚类效果,同时降低样本重叠性,将SSMOTE方法中的“三角”区域插值方式与MSMOTE方法基于马氏距离这两个方式相结合,以改进MSMOTE方法样本重叠性低的问题,以下是基于改进后的MSSMOTE方法的具体步骤。

1)利用式(1)计算故障样本集X∧min中的任意一个样本X∧min,i到X∧min中其他样本的马氏距离,筛选出其中最小的k个样本作为近邻样本,并记为X∧min,j。将少数类样本X∧min,i与其近邻样本组合成形式为x∧min,i,x∧min,i1,x∧min,i2,…,x∧min,ik的样本组。

式中:S-1为S的逆矩阵,S为样本协方差矩阵;k一般取值为5。

2)对于每个样本组{x∧min,i,x∧min,i1,x∧min,i2,…,x∧min,ik},统计其中的样本x∧min,i1~x∧min,ik所对应的故障类型标签,并设定比率阈值rs。对于样本X∧min,i, 若在k个近邻样本的类型标签中与X∧min,i类型标签相同样本的数目所占比例超过rs,则样本X∧min,i被保留,否则被去除。通过这种方式对各个类型的样本集进行样本筛选,每个类型的保留样本构成了所属类型的稳定特征空间集合St(t=1,2,…)。

3)在任一稳定特征空间集合St中,随机选出一个保留样本x∧Sti。然后,在样本x∧Sti的k个近邻样本中随机选出两个近邻样本x∧Sti1和x∧Sti2。最后,利用上述3个样本合成新样本x∧new,计算公式如下:

式中re1、re2和re3均为取值在0~1之间的随机数。

MSSMOTE方法流程如图1所示。首先将训练样本集分为故障样本集和正常样本集,然后分别进行归一化,得到归一化后的故障样本集和正常样本集。按照上面的步骤得到新样本x∧new,直到x∧new和X∧min数量达到一定比例。将得到的新样本添加到故障样本集X∧min中,此时X∧max和X∧min构成新的训练数据集。

2实验方案及仿真分析

2.1MSSMOTE方法可行性分析

在本节仿真过程中,选用了RP-1043公开数据集[14]中的LEVEL2数据集来训练MSSMOTE-CNN、MSSMOTE-LSTM和MSSMOTE-TCN模型,并测试各模型在正常和7种故障数据中的故障诊断性能。

故障诊断结果如图2所示,混淆矩阵的横向代表样本预测类别,纵向为样本的真实类别。主对角线方块中的数字代表正确分类的样本数量,除主对角线以外的深色方块中的数字表示错误分类的样本数量。可以看出,图2(b)和图2(c)中的第一行错误分类的样本数字和分别为20和9,大于图2(a)中第一行错误分类的样本数字和3;同样图2(b)和图2(c)中其余几行错误分类的样本数字和都大于图2(a)中相应行的错误分类的样本数字和,这说明MSSMOTE-LSTM和MSSMOTE-TCN错误分类的样本更多。从图2(a)来看,MSSMOTE方法产生的数据在CNN模型上的适用性更好。

2.2故障诊断方案

基于MSSMOTE方法的冷却系统故障诊断整体方案如图3所示,具体流程如下。

1)仿真数据设定

本节所使用的数据集是从原始数据集中随机选取了6 668个正常样本,而每一种故障类型都仅选取了800个样本,由此组成不平衡数据集。测试集则是由与不平衡数据集不重复的13 344个样本组成。为了验证MSSMOTE方法的数据扩充能力,在仿真过程中,选择了SSMOTE和MSMOTE这两种作为数据扩充对比方法。分类器选用了在上节表现较好的CNN模型进行训练。本文选择准确率(Accuracy)和F1分数(F1-score)作为评价指标,其中F1分数定义为精确率(Precision)和召回率(Recall)的调和平均值,是一个衡量分类模型综合能力的指标,F1-score值越高说明模型的综合识别能力越好。评价指标的混沌矩阵如表3所示,计算过程如下:

2)按照扩充比例对MSSMOTE方法的性能测试

为了验证MSSMOTE方法的数据扩充能力,在实验分析中,选择了SSMOTE和MSMOTE作为数据扩充对比方法,并将扩充之后的数据输入CNN模型中训练,MSSMOTE、SSMOTE和MSMOTE与CNN模型的组合分别简记为MSSMOTE-CNN、SSMOTE-CNN和MSMOTE-CNN。最后,使用测试集获取3种模型各自的Accuracy和F1-score指标。

测试结果如图4所示,从图中可以看出,在扩充比例为1、2和3的情况下,3种方法扩充的数据都可以使模型的Accuracy和F1-score指标得到不同程度的上升,并且在扩充比例为4时达到了最大值,但在4以上都有不同程度的下降。

详细数据结果如表4所示。可以发现,在扩充比例从0~1的变化阶段,MSSMOTE-CNN方法的性能提升得更多,在Accuracy指标中上升了15.1%,而SSMOTE-CNN和MSMOTE-CNN方法的性能在Accuracy指标中分别上升了5.8%和6.0%;MSSMOTE-CNN方法的性能在F1-score指标中提升了16.9%,而SSMOTE-CNN和MSMOTE-CNN方法的性能在F1-score指标中分别提升了7.3%和4.7%;MSSMOTE-CNN在扩充比例上升到4时,Accuracy和F1-score两项指标达到最高值,分别为0.961和0.971。达到最大值之后MSSMOT-CNN还可以保持较稳定的性能。

总之,相比较于其他方法,MSSMOTE方法可以实现更大比例的数据扩充,仿真结果表明:MSSMOTE-CNN模型在解决冷水机组故障诊断问题上具有出色的表现。

3)按照数据类型对MSSMOTE方法的性能测试。

为了进一步分析MSSMOTE方法的性能,对MSSMOTE-CNN、SSMOTE-CNN和MSMOTE-CNN 3种模型在数据扩充比例为4时的故障诊断表现进行了详细比较。使用测试集获取了3种模型在每一种数据类型下的Accuracy和F1-score结果,3种模型的对比情况如图5所示。

通过图5中7种故障类型的Accuracy和F1-score指标比较结果可以看出,SSMOTE-CNN和MSMOTE-CNN的表现相对接近;MSSMOTE-CNN明显更高。

表5为在同一数据类型中3种方法的实验数据结果。从表5仿真结果数据可以看出,在RL故障的Accuracy指标中,MSSMOTE-CNN比SSMOTE-CNN提高了15.9%,MSSMOTE-CNN比MSMOTE-CNN提升了14.7%。在其他数据类型中,相较于SSMOTE-CNN和MSMOTE-CNN两种方法,MSSMOTE-CNN的Accuracy指标都有不同程度的提升。而在CF故障的F1-score指标结果中,MSSMOTE-CNN比SSMOTE-CNN提升了7.3%;在RO故障的F1-score结果中,MSSMOTE-CNN比MSMOTE-CNN提高了13.7%。在其他数据类型中,MSSMOTE-CNN比SSMOTE-CNN和MSMOTE-CNN在F1-Score上都有不同程度的提升。

3结语

本文为了解决冷水机组数据类别不平衡问题,利用MSSMOTE方法实现数据的有效扩充。训练结果显示:在扩充比例为4时,对于正常样本测试的Accuracy和F1-score值分别达到0.961和0.971,所构建的MSSMOTE-CNN模型具有更好的故障诊断性能。但是从仿真结果数据可以看出,仍有一定的提升空间,并且本文仿真分析所采用的是公开数据集,必然会受到一些相关外在因素的影响,但本文尚未考虑这些问题。

参考文献:

[1] 中国建筑节能协会. 中国建筑能耗研究报告2020[J]. 建筑节能(中英文),2021,49(2):1-6.

[2] JIA F,LEI Y G,GUO L,et al. A neural network constructed by deep learning technique and its application to intelligent fault diagnosis of machines[J]. Neurocomputing,2018,272(C):619-628.

[3] WANG Z M,TIAN J Y,FANG H,et al. LightLog:a lightweight temporal convolutional network for log anomaly detection on the edge[J]. Computer Networks,2022,203:108616.

[4] KORVEL G,TREIGYS P,TAMULEVICUS G,et al. Analysis of 2D feature spaces for deep learning-based speech recognition[J]. Journal of the Audio Engineering Society,2018,66(12):1072-1081.

[5] BOU NASSIF A,SHAHIN I,ATTILI I,et al. Speech recognition using deep neural networks:a systematic review[J]. IEEE Access,2885,7:19143-19165.

[6] 柴天佑,刘强,丁进良,等. 工业互联网驱动的流程工业智能优化制造新模式研究展望[J]. 中国科学:技术科学,2022,52(1):14-25.

[7] DUAN A,GUO L,GAO H L,et al. Deep focus parallel convolutional neural network for imbalanced classification of machinery fault diagnostics[J]. IEEE Transactions on Instrumentation and Measurement,2020,69(11):8680-8689.

[8] HU Z X,JIANG P. An imbalance modified deep neural network with dynamical incremental learning for chemical fault diagnosis[J]. IEEE Transactions on Industrial Electronics,2019,66(1):540-550.

[9] YANG G,ZHONG Y,YANG L,et al. Fault diagnosis of harmonic drive with imbalanced data using generative adversarial network[J]. IEEE Transactions on Instrumentation and Measurement,2021,70:3519911.

[10] 丁胜夺,赵刚,阎红巧,等. 基于遗传理论的改进数据过采样方法[J]. 计算机系统应用,2022,31(2):185-190.

[11] 申存骁. 基于数据的冷水机组故障检测与诊断[D]. 济南:山东建筑大学,2022.

[12] 程晓倩. 面向类别不平衡数据的工业过程多故障诊断方法研究[D]. 北京:北京化工大学,2022.

[13] COMSTOCK M C, BRAUN J E, GROLL E A. A survey of common faults for chillers/discussion[J]. Ashrae Transactions, 2002, 108: 819.

[14]COMSTOCK M C, BRAUN J E, BERNHARD R. Development of analysis tools for the evaluation of fault detection and diagnostics in chillers[M]. [S.I]:Purdue University, 1999.

收稿日期:20230414

基金项目:国网天津市电力公司科技项目(KJ22-2-02);国网天津市电力公司科技项目(KJ21-1-21);天津理工大学 2022年天津市研究生科研创新项目(2022SKYZ070);天津理工大学 2022年校级研究生科研创新实践项目(YJ2209);企业科技特派员项目(20YDTPJC01670)

第一作者简介:曹冉冉(1996—),女,河北邯郸人,硕士研究生,研究方向为机械及机器学习算法,3401517075@qq.com。

DOI:10.19344/j.cnki.issn1671-5276.2024.06.025

猜你喜欢
冷水机组故障诊断
冻干机常见故障诊断与维修
水冷磁悬浮变频离心式冷水机组
上海节能(2020年3期)2020-04-13 13:16:18
精品样板
机电信息(2018年10期)2018-04-25 02:31:50
基于量子万有引力搜索的SVM自驾故障诊断
因果图定性分析法及其在故障诊断中的应用
克莱门特冷水机组系统节能应用会议顺利召开
机电信息(2015年28期)2015-02-27 15:58:00
基于LCD和排列熵的滚动轴承故障诊断
基于WPD-HHT的滚动轴承故障诊断
机械与电子(2014年1期)2014-02-28 02:07:31
高速泵的故障诊断
河南科技(2014年3期)2014-02-27 14:05:48
河南精蜡厂新增冷水机组降耗效果好
河南化工(2013年13期)2013-08-15 00:45:02