(1 华中科技大学能源与动力工程学院 武汉 430074; 2 珠海格力电器股份有限公司 珠海 5179070)
据有关部门统计,我国建筑能耗约占社会总能耗33%[1],在发达国家如美国其建筑能耗约占社会总能耗的41%[2]。在建筑能耗中,空调能耗约占50%~60%[3],而其中压缩机又是制冷空调的耗能大件之一。此外,J. E. Braun等[4]研究表明,压缩机失效约占空调系统维修费用的24%。因此压缩机故障不仅会对空调系统产生不良影响,造成能耗损失,还会产生高昂的维修费用。因此研究压缩机回液的故障诊断,具有经济意义与研究价值。目前对于制冷空调故障检测与诊断的研究对象多为冷水机组[5-6],故障种类多为制冷剂充注量[7-9]、传感器故障[ 10-12 ]等,而对于多联机压缩机的研究略有不足。L. R. Silva等[13-14]对制冷系统的压缩机故障检测进行了研究,主要针对压缩机阀片泄漏问题。周玮[15]针对船用氟利昂制冷系统,总结了压缩机回液产生的原因及控制回液的几种方法,但其适用范围局限于船用氟利昂空调系统,没有给出压缩机回液故障检测与诊断的具体方法。王江宇等[16-17]首次提出采用决策树算法对多联机压缩机回液故障进行检测与诊断,但是出于鲁棒性的考虑以及工程应用的需要,其决策树树深为两层,只能利用有限的数据信息。
大数据在空调系统优化、新产品研发、故障诊断、能耗与维护预测等方面提供了新的思路[18],而故障检测与诊断的传统建模方法不及时、复杂、准确率低,难以满足要求,因此利用数据挖掘技术与传统故障排查相结合是未来的主流方向之一。但目前运用在制冷空调行业的故障检测与诊断的算法如决策树、PCA-DT、BT神经网路、SVDD等都是有监督的学习方法,这需要前期进行大量实验获得有真实标签的先验数据来进行训练,但有时在实际工程过程中难以满足条件。无监督的学习方法具有天然的优势,无需事先获得数据标签,可以通过自身算法将数据进行分类从而进行故障检测与诊断。并且无监督的学习方法已在其他行业验证了可行性,H. Fernando等[19]采用无监督的人工神经网络进行自动组装机器中的故障检测和识别,孙才新等[20]通过多层次聚类进行了变压器油中溶解气体分析故障诊断,陈铁华等[21]通过模糊聚类进行了水电机组振动故障诊断。本文采用无监督的聚类算法来进行压缩机回液故障诊断。聚类分析(Clustering analysis)是一种原理简单、应用广泛的数据挖掘技术[22]。它通过某种相似性或差异性指标定量确定样本之间的亲疏关系,尽可能的将相似的数据归为一类,将不相近的数据归为其他类别,从而到达分类或模式识别等目的。聚类算法能够有效利用全部的数据信息,不会因为树深而影响诊断结果的准确率。系谱聚类层次可以任意控制,能够有效处理不规则的类圆形数据。
本文针对压缩机回液故障问题,提出了一种基于PCA-Clustering的压缩机回液故障检测与诊断的方法,来弥补目前缺乏先验数据标签条件下,无法有效的进行压缩机回液故障检测与诊断的不足。
PCA-Clustering方法原理为:将前期整理与筛选后的不含真实标签的数据,通过主成分分析(principle component analysis,PCA)进行数据处理,提取得到新的主元变量解决变量信息冗余问题,依据主元累计方差贡献率对主元进行筛选,以简化变量维度。再利用筛选后的主元变量进行聚类建模,得出压缩机回液故障诊断模型。
假设有n维样本集Q=(x(1),x(2),…,x(m)),首先按照式(1)对所有样本进行中心化,得到中心化样本集Q1。
依据式(2)求出数据集的协方差矩阵,按照式(3)对矩阵XXT进行特征值分解。式(3)中W为XXT的n′个特征向量组成的矩阵,λ为XXT的特征值。
XXTW=λW
(3)
取出最大的n′个特征值对应的特征向量(w1,w2,…,wn′),将所有特征向量标准化后,组成特征向量矩阵W。并按照式(4)对每一个数据集中每一个样本x(i),都转化为新的样本z(I)。
z(i)=WTx(i)
(4)
最后得到输出的新的数据集Q′=(z(1),z( 2 ),…,z(m))。需要说明的是,新的得到的主元变量z都是原始变量x的线性组合,且各主元变量之间互不相关。
系谱聚类算法是聚类分析中常用算法之一,先计算通过PCA后获取的新的主元变量数据之间的距离,每次将距离最近的点合并到同一类,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成一个类。具体原理步骤如下:
1) 建立数据样本两两之间的距离相似性矩阵F∈Rn×n,矩阵元素:
2) 采用式(6)计算规范化拉普拉斯矩阵,其中对角度矩阵D满足式(7):
LN=D-1/2WD-1/2
(6)
3) 确定划分分子集数目k,建立矩阵V=[v1,v2,…,vk]∈Rn×k,v1,v2,…,vk为拉普拉斯矩阵LN的前k个最大特征值对应的特征向量。
4) 对V的行向量规范化处理,得到单位长度向量矩阵Y∈Rn×k,其中Yij满足式(8):
5) 将Y的每一行数据当做Rk空间中的一个数据点,运用Kmeans聚类算法将Y中各点划分为3类。
6) 当且仅当矩阵Y的第i行归入第j(j∈[1,K])类时,划分原数据点si至第j类。
对于多数空气调节系统而言,冬季工况与夏季工况相比蒸发温度低,制冷剂蒸发速率小。因此在制冷剂充注量相同的情况下,压缩机回液故障更倾向于发生在制热工况下。所以本文进行的实验操作均是在制热工况下完成的。
图1所示为多联机系统结构。该多联机(VRF)系统由右边5台室内机,左边1台室外机组成。VRF系统采用R410A制冷剂,标准充注量为9.9 kg。在制热工况下图中过冷器不工作。虚线表示高压管路,实线表示低压管路,带箭头的虚线表示故障1(Method#1)引入方式,即在气液分离器前引入高压制冷剂;带箭头的粗实线表示故障2(Method#2)引入方式,即充注140%的过量制冷剂。图1中表示出了部分传感器,数据采集软件将系统传感器采集到的数据每3 s记录一次,并保存到电脑客户端。正常(normal)、故障1(fault#1)和故障2(fault#2)工况的实验参数:室内环境温度设定为22 ℃,室外环境温度为7 ℃,室内机开机3台,实验共获得数据21 522条,各工况数据量如表1所示。
图1 多联机系统结构Fig.1 VRF structure
工况数据量/条正常9 348故障16 336故障25 838
图2所示为基于PCA-Clustering的压缩机回液故障检测与诊断的流程,由数据获取、数据处理、数据建模和故障诊断4个步骤组成。
图2 回液故障诊断流程图Fig.2 Liquid floodback diagnosis flow chart
1)数据获取
如图2所示,首先通过多联机实验平台中的各类传感器,实时采集实验的各类变量的参数,同时数据实时传输到PC端,然后数据采集软件对获得的数据进行集成操作。
2)数据处理
直接获取的数据,数据质量较差,需要进行处理以免影响诊断结果的准确性。首先由于传感器故障或其他原因会存在数据缺失,需要对数据进行整理。此外初步采集的数据直接用来建模会降低模型精度,所以在建模之前需要筛选数据变量。最后为解决数据变量信息冗余和减少变量维度,采用主元分析法(PCA)进行数据降维,得到新的主元变量。
3)数据建模
获取新的主元变量的累计方差贡献率,选取前面累计方差贡献率大于95%的主元变量,采用系谱聚类算法,建立聚类诊断模型。
4)故障诊断
将不含数据标签的数据,在聚类模型中通过聚类分析,进行故障判定,得出分类结果。然后将其分类标签和实际标签进行对比,采用可视化图表进行结果可视化。
通过传感器测得的原始数据通常是不完整(某些数据由于传感器故障而缺失,或缺少属性值)、含噪声(包含错误或存在离群值)且不一致的(如变量的命名标签),这样的数据必须经过预处理,恢复数据完整性和一致性后才能使用数据挖掘技术进行分析。传感器测得变量多达数百个,首先通过缺失值处理和数据集成将数据进行前期处理。运用已有的专家知识对剩余变量进行筛选。具体操作如下:
1)对于逻辑变量,如热力膨胀阀控制模块,其本身就是一个控制参数,它会根据系统的变化而实施自我调控。故这一类变量予以剔除。
2)考虑到回液是一种室外机故障,因此相较于室内机数据,室外机运行数据更能表征回液故障,故将与室内相关参数予以剔除。
3)为了使得数据测量简便,在数据筛选时偏向选取单一相关变量参数作为回液故障诊断的变量。
4)基于已有的专家知识,初步对变量进行判断是否对故障有影响。
综合考虑以上4条筛选原则,将逻辑变量和室外参数予以剔除,通过已有的专家知识,认为压缩机回液与温度的相关性较大,考虑到数据测量简便,尽可能选择单一变量作为输入参数,预处理筛选得到6个温度变量。分别为冷凝饱和温度(Tcond)、压缩机排气温度(Tcom,dis)、气液分离器进管温度(Taccu,in)、气液分离器出管温度(Taccu,out)、蒸发饱和温度(Tevap)、压缩机壳顶温度(Tcond,shell)。
为使数据更直观、可视化,并展示变量在不同工况下的差异性和总体情况,本文采用数据变量箱体图来进行数据概览,如图3所示。为了便于对比和可视化,将数据先进行标准化,再用boxplot函数绘制出箱体图。图3中中间粗实线表示数据中位数,上下细实线表示上四分位数和下四分位数。由图3可知,无论在何种工况下均存在一定数量的异常值,即数值偏离在主箱体图之外的数据。每一类变量的不同工况之间的差异性并不大,因此采用PCA获取原始变量的综合变量,可能会提高诊断结果的准确率。
图3 数据变量概览箱体图Fig.3 Data variables overview box diagram
由1.1节可知,主成分分析法能够在保证原始变量主要信息的前提下,通过原来变量的少数几个线性组合来解释随机向量的方差-协方差结构,以此来降低变量的维度,使得问题简化。故将变量筛选处理后的数据进行主成分分析,得到新的主元变量。原始变量与新主元变量的关系如表2所示。表中数据表示构成新主元变量中原始变量的线性系数。
为了可视化新主元变量数据在不同工况下的情况,采用箱体图获得的新主元变量概况如图4所示。由图4可知,前面主元1与主元2,在不同工况下差异性较大,区分较为明显,且所包含的异常值也较少。
表2 主元变量与原始变量线性关系表Tab.2 The linear relationship between the principal variable and the original variable
图4 主元变量箱体图Fig.4 The principal variable box figure
图5所示为主元分析后主成分方差贡献率和累计方差贡献率。由图5可知,前两个主成分的累计贡献率为96.0%,与图4分析结果一致,因此可以认为主元1和主元2包含了数据的绝大多数信息,故可以舍去剩余的主成分,仅保留主元1和主元2进行聚类,可以达到降维,简化计算的效果。
图5 主成分方差贡献率Fig.5 Principal Component variance contribution rate
选取主元1和主元2两个主成分进行聚类分析。事先无需知晓数据类别标签,聚类算法自动按照选定的分类数目(正常、故障1和故障2)进行分类。为了使聚类结果可视化,绘制了聚类散点图,得到聚类结果图,如图6所示。为便于分析对比故障诊断聚类结果,采用真实数据标签绘制数据散点图,如图7所示。
图6 故障诊断聚类结果图Fig.6 Fault diagnosis clustering result graph
图7 数据真实标签散点图Fig.7 Data true tag scatter plot
由图6可知,整个聚类结果较为理想,同类工况数据聚合紧密,异类工况相互交杂的部位较少,各类别工况大体区分明显。对比图6与图7可得,主要诊断异常区域在于,图6虚线框所标记的不同工况交合处。一方面可能是数据本身存在异常值,即数据标签
有误;另一方面因为依据距离作为标准的聚类算法对距离相近的异类工况判断存在缺陷。但图6中该区域数据点较为疏散,证明数据量较少,整体诊断结果仍较为良好。
采用混淆矩阵展示故障诊断具体分类情况。基于PCA-Clustering模型诊断结果的混淆矩阵如表3所示。由表3可得总数据结果准确率为94.29%,其中故障1工况的检测结果准确率较其它两类工况低,结合图7分析可知故障1工况数据标签散点图分布散乱,有较多的数据与正常工况和故障2工况交合,说明该数据原本标签具有较多异常值。此外对于正常工况和故障2工况的诊断准确率分别为97.39%、95.69%,诊断结果均较为理想。
表3 模型诊断结果混淆矩阵Tab.3 Model diagnostic results confusion matrix
为进一步佐证采用无监督的回液故障诊断结果准确率的可信度,本文将诊断结果与采用有监督的决策树算法[17]进行的压缩机回液故障诊断进行了对比。图8所示为两种模型诊断结果对比。从图8可以看出,无监督基于PCA-Clustering的总数据故障诊断结果与Wang Jiangyu等[17]提出的有监督决策树模型相差2.21%,并且在正常工况和故障2工况下的诊断效果还有所提升。因此无监督的基于PCA-Clustering的压缩机回液故障诊断模型能够在无有效的训练数据的情况下,较好地诊断压缩机回液故障。
图8 聚类模型与决策树模型诊断结果对比Fig.8 Comparison of clustering model and decision tree model
本文利用制冷剂为R410A,标准充注量为9.9 kg的多联机系统,在室内环境温度设定为22 ℃,室外环境温度为7 ℃,室内机开机3台的实验参数条件下运行,获取了21 522条运行数据,提出了一种基于PCA-Clustering的压缩机回液故障诊断的方法,首先运用主成分分析法对变量数据进行前期处理,提取出主元变量,然后采用聚类分析对无类别标签的数据划分。该方法采用无监督的学习方法,事先无需获取有真实标签的先验数据,在一定程度上满足了工程实际的应用。此外,通过结果分析和对比,认为该方法能够较好的在无法获得数据标签的前提下,也能像有监督的决策树模型一样,达到较高的故障诊断准确率,有效的进行压缩机回液故障诊断。相关结论如下:
1)利用主成分分析法来形成新的主元变量,有效解决了变量信息冗余问题和简化了变量维度。
2)无监督的基于PCA-Clustering模型的诊断准确率为94.29%,有监督的决策树模型准确率为96.50%,这表明无监督的基于PCA-Clustering的压缩机回液故障诊断的方法,在无法获得数据标签的前提下,也能像有监督的决策树模型一样,达到较高的故障诊断准确率,有效的进行压缩机回液故障诊断。
本文受空调设备及系统运行节能国家重点实验室开放基金项目(SKLACKF201606)资助。 (The project was supported by the State Key Laboratory of Air-conditioning Equipment and System Operation (No. SKLACKF201606).)