基于RFECV-随机森林特征选择的地铁空调制冷剂充注量故障诊断

2023-01-04 03:26陈焕新程亨达张鉴心陈璐瑶
铁道车辆 2022年6期
关键词:诊断模型子集特征选择

张 丽,鲍 超,王 钊,陈焕新,程亨达,张鉴心,陈璐瑶

(1. 华中科技大学能源与动力工程学院,湖北 武汉 430074;2. 广州地铁集团有限公司,广东 广州 510330; 3. 广州鼎汉轨道交通车辆装备有限公司,广东 广州 510260)

地铁车辆已成为大中型城市出行方式中重要的一部分,地铁车辆车厢内的空气环境、舒适性和能源消耗等问题正被得到更多的关注。2020年城轨交通总的电能耗为172.4亿kW·h[1],其中地铁车辆能耗占比达70%[2-3],而在地铁车辆的整车能耗中,空调能耗占比达25%~40%,仅次于牵引系统能耗[4]。地铁车辆在运行过程中处于封闭状态,一旦空调系统出现故障,将会造成大量能源的浪费并使乘客处于不舒适的环境温度中,因此提高空调运行过程中的运维效率、保证空调正常高效运作至关重要。

针对上述情况,近年来已有众多研究将机器学习作为数据挖掘工具应用于地铁空调智能运维领域,同时将数据驱动方法用于各式交通工具空调故障诊断,而关于地铁车辆空调系统的故障诊断智能化研究相对较少。参考文献[5]设计了地铁站空调在线运维与诊断系统,并在广州一地铁站进行了应用,通过对空调环控系统、冷水机组等各系统的实时检测与诊断,有效提升了运维人员工作效率;参考文献[6]以济南地铁空调智能运维系统为例,搭建了包含数据层、分析层、应用层及展示层4部分的智慧运维平台,有效缩短了空调设备全寿命周期中的维修时间;参考文献[7]提出了将神经网络多传感器信息融合技术应用于地铁中央空调风机故障诊断的方法,利用多传感器监测风机的运行状态,判断结果比单信息源更精确、更完全;参考文献[8]基于SVM与改进的AHP-DS证据融合对船舶空调系统进行了故障诊断,引入了差异性、冲突性和不确定性3个证据冲突衡量标准,诊断准确率达到了98.33%;参考文献[9]提出了在列车运行过程中判断空调机组制冷系统是否存在制冷剂泄漏的预诊断方案,通过横向对比正在运行的其他车厢空调机组制冷系统的参数进行诊断和预判;参考文献[10]以CRH380B、CRH380BL型动车组为研究对象,建立了动车组客室空调制冷系统诊断模型和规则,提出了一种新的适用于检修现场的动车组客室空调制冷系统故障诊断方法,对空调制冷系统故障发现率达60.87%。

地铁空调系统的运行环境复杂,这给传统的空调运维方式造成了压力[11]。近年来,机器学习已普遍应用于分析处理数据中心或运行监控系统的各类数据,在家用或商用空调的智能运维领域也展开了大量工作,这给了地铁空调运维领域启发。在地铁车辆空调故障中,制冷剂充注量故障发生频繁却难以察觉,由于轻度或中度的制冷剂过充或欠充不能引起故障报警,但能导致地铁在运行过程中长期偏离正常工况,造成地铁车辆空调系统制冷/制热效率显著下降、压缩机内部温度升高、机械部件磨损等一系列问题。由于地铁运行状态实时监控数据量中特征变量多为冗余或不相关,难以精准体现空调系统制冷剂充注量故障信息,因此,本文针对地铁运维过程中制冷剂充注量故障诊断问题进行机器学习,采用基于交叉验证的特征消除方法进行特征选择,选出较优特征子集,通过随机森林特种重要性度量进一步降维得到最优特征子集,并用最优特征子集分别建立基于支持向量机(Support Vector Machine,SVM)、K-最近邻算法(K-Nearest Neighbor,KNN)和反向传播神经网络(Back Propagation Neural Network,BPNN)的地铁空调制冷剂充注量故障诊断模型,验证最优特征子集的诊断准确率。

1 故障诊断模型

1.1 建立模型

由于增加了交叉验证过程,基于交叉验证的递归特征消除(Recursive Feature Elimination and Cross Validation,RFECV)法具有自动选择其认为最佳特征子集的数目的能力,其所选特征子集的诊断准确率已被广泛验证。参考文献[12]比较了RFECV法、基于最大互信息系数法和基于最大相关最小冗余法3种特征筛选算法,认为RFECV法筛选得到的特征子集分类准确率比另外2种方法更高,在选取15维特征情况下的最优准确率为98.28%;参考文献[13]结合距离相关法(DC法)和RFECV法进行混合特征选择,融合了DC法的高效率和RFECV法的高精度特点,在减少计算时间的同时有效提高模型性能。

在建立故障诊断模型过程中,从加强学习特征算法的角度优化特征选择过程。为保证特征子集的充分降维,本文在采用RFECV法的基础上增加了随机森林特征重要性度量过程。随机森林(Random Forest,RF)算法是当前最好的算法之一[14],因为RF算法不仅可以在分类或回归问题中表现良好,而且还可以用于特征降维,稳健性很强,因此本文采用随机森林算法进一步对采用RFECV法选出的特征子集进行重要性度量,在确保不丢失重要特征的基础上得到更为精简的最优特征子集。同时,分别基于SVM、KNN、BPNN建立故障诊断模型,用以验证筛选得到的最优特征子集的故障诊断效果。图1 为基于RFECV-随机森林特征重要性度量建立故障诊断模型的流程图。

图1 基于RFECV-随机森林特征重要性度量建立故障诊断模型的流程图

1.2 数据采集

在广州某地铁空调焓差试验室中对地铁车辆空调系统进行不同制冷工况、不同制冷剂充注量的故障试验,并进行原始数据采集。焓差试验室的地铁车辆空调制冷故障试验系统原理如图2所示。

图2 地铁车辆空调制冷故障试验系统原理图

地铁车辆空调制冷故障试验的制冷工况有2种:

(1) 室内温度30.7 ℃,室外温度38 ℃;

(2) 室内温度28.1 ℃,室外温度35 ℃。

试验系统的额定制冷剂充注量为4.5 kg。试验记录了在2种制冷工况、4种制冷剂充注量水平(表1)下5台室内机工作的试验运行数据,采集了图2所示2套制冷循环系统的运行数据共82 435条。

表1 制冷工况和制冷剂充注量水平

2 最优特征子集选择

地铁车辆空调制冷剂充注量故障试验中采集的空调原始运行数据集中共包含40个特征变量(表2),由于试验系统有2套制冷循环系统,各有1套蒸发器和冷凝器,因此表2中序号1~3、16~24的特征变量均有1、2之分;2套系统新风均取自焓差试验室外,因此新风温度相同。在采用机器学习方法进行故障诊断的过程中,由于冗余特征和无关特征的存在增加了机器学习过程的复杂程度,并且还会在一定程度上降低后续建立模型的诊断准确率,因此需要在数据处理阶段进行特征选择,找出所有特征变量中不同故障出现时有显著区分的变量,即最优特征子集,在保证诊断准确率的情况下达到降低数据集维数、减轻机器学习复杂程度的效果。

表2 40个特征变量及中文释义

特征选择方法主要分为过滤式、包裹式和嵌入式3种[15]。过滤式通过选择某个统计指标对各特征进行评分,设定阈值去除掉所选特征中评分低的特征,如卡方检验和互信息法;包裹式与学习算法相结合,利用分类器的准确率对特征子集进行评价,从而得到最优特征子集,如递归消除(RFE)法;嵌入式是将特征选择的过程和后续训练模型过程融合在一起,与过滤式不同的是通过训练来评价特征的重要性,如L1正则化、基于树的特征选择。本文首先采用RFECV法得到较优特征子集,然后采用随机森林特征重要性度量进一步削减特征维度,得到最优特征子集。

2.1 RFECV特征选择

RFE法是一种包裹式特征选择的方法,首先指定一个基模型,每次通过获得每个特征的重要程度进行不重要特征的移除,不断递归直至最终达到所规定的特征数量。本文特征选择选取了RFECV法,RFECV法在RFE法基础上结合了交叉验证自动寻找最优特征数量,如果特征的移除会造成性能损失则不再移除,自行选择其认为效果最优数目的特征子集。

RFECV法包括4个步骤:(1)以原始特征数据集训练一个基模型(以随机森林为例);(2)计算特征的重要性得分;(3)交叉验证移除某特征变量后的特征子集;(4)重复步骤(1)~(3),最终自行决定合适数目的特征变量。图3为应用RFECV法得到的分类正确率随所选特征变量数的变化图。由图3可知,当特征变量数为18个时,分类正确率最高,为99.995%。因此第一步骤特征选择选出的较优特征子集包含18个特征变量,分别为:TCdo1、Tevo1、Pds、Pso、Pe、Tco1、Tci1、Tci2、Tco2、S1_Pl2、S1_Ph1、S1_Ph2、Cload、S1_Pl1、Cloff、p_surp、Vos、Ves。

图3 分类正确率随所选特征变量数的变化图

2.2 随机森林特征重要性度量

由图3可知,特征变量数小于18个时仍可得到较高的正确分类率,因此本文采用了随机森林算法特征重要性排序方法,进一步进行特征降维,通过平均不纯度减少指标(Mean Decrease Impurity,MDI)来评估特征变量重要性。在特征降维过程中,随机森林算法利用自带的重要测度指标——基于基尼指数(Gini指数)的MDI指标对特征变量进行重要性排序,通过Gini指数来反映每个特征在随机森林每棵树上所作贡献的大小,取平均值后进行比较,该指标的值越大说明该特征变量在分类过程中作用越强,即越能高效地进行故障诊断。式(1)为Gini指数的计算方法[16]。

(1)

式中:K——样本类别总数;

pk——类别k的样本权重。

计算结果如图4所示,由图4可知,各特征重要性得分均在0.01以上,重要性明显较高的得分均在0.04以上,因此分别选取0.02、0.03、0.04作为阈值得到对应特征子集。本文采用基于决策树的诊断模型综合比较3个特征子集,结果显示,3个模型的误判样本数分别为1个、0个和9个,因此将阈值选为0.03能够兼顾准确性和简便性。取特征重要性得分大于0.03的8个特征变量组成最优特征子集,按照重要性排序的最优特征子集有:Tci1、Tco1、Pe、S1_Ph1、S1_Pl1、S1_Pl2、Tco2、S1_Ph2。

图4 随机森林特征重要性排序图

3 故障诊断结果对比分析

取所有最优特征子集对应的低维数据集建立故障诊断模型进行故障诊断准确率验证,按照7∶3的比例将数据集划分为训练集和测试集。本文选取了SVM、KNN和BPNN 3种机器学习算法训练地铁空调制冷剂充注量故障诊断模型,并对最优特征子集在各模型中的故障诊断结果进行对比分析。

3.1 基于SVM算法的诊断结果

SVM算法是适合小样本决策的分类方法之一[17]。当故障诊断中获得相应的故障数据较困难或得到数据量较少时,可采用SVM算法进行故障诊断,而其他方法很难得到精确的结果。SVM算法的原理是:尝试寻找最优决策超平面,这一超平面到两类别中距离最近的样本的距离之和最远,其中距离超平面最近的几个训练样本点便是支持向量。SVM算法本身既用于处理二分类问题,也可处理多分类问题,此外在模式识别、统计分类等领域同样发展迅速,在解决小样本、非线性和高维模式识别问题时具有良好的性能[18]。

采用低维数据训练集建立SVM诊断模型后,将低维数据测试集输入模型中,完成诊断过程并进行效果评估。图5为SVM诊断模型用于测试集得到的混淆矩阵结果,根据图5显示数据计算,该诊断模型对L1~L4制冷剂充注量故障等级的诊断精确率分别为:99.26%、99.95%、100.00%、100.00%,总准确率为99.83%。诊断错误的部分主要集中在L1等级,即在地铁空调制冷剂过充110%时,但仍保证了98%以上的诊断准确率。对于另外的L2、L3、L4故障等级的诊断基本完全正确,说明最优特征子集对应的低维数据集应用于训练SVM诊断模型的效果良好。

图5 SVM诊断模型用于测试集的混淆矩阵结果

3.2 基于KNN算法的诊断结果

KNN算法是一个理论上比较成熟且简单的分类算法之一,该算法认为,在特征空间中,如果一个样本附近的k个依据距离函数计算得到的待测样本到已知样本距离最近样本的大多数属于某一个类别,则该样本也属于这个类别[19]。为保证对3种诊断模型进行对比分析时对其他影响因素的控制,对数据集采取相同的标准化预处理得到无量纲化的数据,算法中k值采用默认值进行分类。图6为KNN诊断模型用于测试集得到的混淆矩阵结果,根据图6中显示数据计算,SVM诊断模型对L1~L4制冷剂充注量等级的诊断精确率分别为:99.96%、99.97%、100.00%、100.00%,诊断总准确率为99.98%。相比SVM诊断模型, KNN诊断模型对于L1等级制冷剂充注量故障的诊断效果明显改善,都达到了较高的诊断准确率,验证了基于RFECV-随机森林特征重要性度量的特征选择后得到的低维数据集用于训练地铁空调制冷剂充注量故障诊断模型的高效性。

图6 KNN诊断模型用于测试集的混淆矩阵结果

3.3 基于BPNN算法的诊断结果

神经网络是机器学习方法中研究的一种重要方法,该方法通过模拟人脑的神经网络来实现类人工智能,实现过程中“神经元”的连接依靠的是赋予的权重值。BPNN是神经网络的一种,在处理如空调系统故障诊断这一类非线性问题时效果良好。BPNN的权重值根据反向传播的预测误差计算得到,输入的信号向前传递,当输出层未能输出理想结果时,将会反向传播预测误差,重新计算得到权重和阈值,信号再重新传至输出层,循环往复直至输出结果为理想结果或十分接近理想结果[20]。图7为BPNN诊断模型在测试集上进行故障诊断得到的混淆矩阵结果,根据图7显示数据计算,BPNN模型对L1~L4制冷剂充注量等级下的故障诊断精确率分别为:99.86%、99.98%、99.98%、100.00%,诊断总准确率为99.96%。可见,BPNN诊断模型对4个故障等级的诊断准确率都很高,没有出现对某一故障等级明显的诊断能力不足的情况,实现了在简化模型训练复杂程度的基础上保证模型诊断性能的目标。

图7 BPNN诊断模型用于测试集的混淆矩阵结果

4 结束语

本文提出了一种基于RFECV-随机森林特征重要性度量的特征选择方法,并验证了最优子集的故障诊断效果。结合RFECV和随机森林特征重要性度量的特征选择方法可以高效降低变量维度,通过该方法将地铁车厢空调焓差试验室所得制冷剂充注量故障数据中包含的40个特征变量筛选至8个特征变量并组成最优特征子集。将最优子集分别用于训练基于SVM、KNN、BPNN算法的3个故障诊断模型,结果显示:各诊断模型在诊断测试集上的诊断总准确率分别为99.83%、99.98%、99.96%,各等级精确率均在98%以上,表现良好;基于SVM算法的诊断模型对制冷剂过充110%等级的故障诊断能力略低于其他2种模型,相比之下3种模型对于制冷剂欠充时的各等级故障诊断更为精准。

本文已对所选最优特征子集在地铁车厢空调制冷剂充注量故障试验数据中进行了性能验证,但由于当前实车运行条件限制,在实车中难以开展制冷剂充注量故障试验,故障试验仅在焓差试验室内进行,因此有待进一步开展实测数据的采集验证等后续研究。

猜你喜欢
诊断模型子集特征选择
正交基低冗余无监督特征选择法
拓扑空间中紧致子集的性质研究
网络入侵检测场景下的特征选择方法对比研究
Carmichael猜想的一个标注
关于奇数阶二元子集的分离序列
Kmeans 应用与特征选择
每一次爱情都只是爱情的子集
基于模糊优选反问题的电机电气故障诊断模型
对于电站锅炉燃烧经济性诊断模型的研究