基于概念漂移检测的制冷系统故障诊断模型自适应

2019-08-28 11:08:46
制冷学报 2019年4期
关键词:诊断模型制冷系统数据流

(上海理工大学能源与动力工程学院 上海200093)

近年来随着物联网、云计算等信息技术的不断兴起和互联网应用的飞速发展,更为海量的制冷系统运行状态数据以数据流(data stream, DS)的形式大量涌现。基于冷水机组运行过程数据的故障检测与诊断(fault detection and diagnosis, FDD)是近年来制冷空调领域的研究热点之一。基于静态数据的故障诊断过程中,数据所隐含的目标概念相对稳定,在充足的训练集上学习得到的诊断模型,在测试集上能够保持稳定性和较高的诊断正确率[1-3],但该方法只依赖于历史数据而不使用最新的实时运行数据,限制了模型的即时性和准确性,不能快速准确地学习和适应在线数据流信息。制冷系统在线故障诊断中,由传统的静态数据类型转变为动态的数据流信息,因而要求诊断模型具有动态更新的再学习能力,以适应制冷系统的在线数据流[4]。

自适应系统是指能检测环境变化,并能够动态调整自身以响应变化的系统,被设计为自适应系统的诊断模型具有两种能力[5-6]:1)监测环境变化的能力;2)进行自适应的操作来改变模型,以保证需求在变化后仍被持续满足的能力。在制冷系统故障诊断中,环境变化指机组运行状态的动态变化,自适应操作指诊断模型进行相应的自主操作,包括修改参数、改变算法、重组体系结构等。

制冷系统运行过程中采集的数据流随机组运行状态的动态变化而变化,使目标概念常常发生变化。例如,制冷系统故障表征随工艺流程的改进、机器的老化、设备的更新、出现未知工况、出现新的故障类型等。这种由于数据流中隐含的目标概念发生变化,使旧数据含有的旧概念与新数据含有的新概念不再保持一致的现象,称为数据流的概念漂移[7-8]。数据流一旦发生概念漂移,则导致旧概念生成的原有诊断模型在新数据下的诊断性能下降,影响用户正常使用,因而需对概念是否漂移作出及时检测,并采取相应措施进行自适应学习。

M. Last等[9]提出了OLIN算法,通过对比分类器在训练集与验证集上的错误率来判断是否产生了概念漂移。K. Nishida等[10]使用分类器对最新采集训练样本的分类准确率和对全部训练样本的分类准确率的对比来检测概念漂移。这种基于分类器对新样本分类性能检测概念漂移的方法,可信度较高。检测到概念漂移后,需对分类器进行调整以适应新数据流,基于增量式学习的诊断模型再学习方法是目前较为主流的模型自适应方法之一。其核心思想是通过调节模型内部学习策略,加快诊断模型的更新速度,以达到实时更新诊断模型以适应数据流的目的[11-12]。N. A. Syed等[13]最早提出了支持向量机的增量学习概念,给出增量学习策略;Shen Furao等[14]提出了自组织增量学习神经网络(SOINN)对数据流进行增量式的学习。

本文采用基于分类正确率的概念漂移检测机制和基于支持向量机增量学习的方法构造制冷系统诊断模型自适应系统,具有监测机组环境变化、自适应更新模型能力,以适时、及时地适应冷水机组新的运行状态和工作模式,使故障诊断系统始终工作在较佳的运行状态。

1 基于诊断正确率的概念漂移检测方法

制冷系统部件种类繁多,系统物质形态多样,运行工况复杂多变,制冷系统的智能故障诊断一直是难点。通常建立诊断模型的数据来源于特定的实验机组及运行工况,通过故障模拟实验得到。

将该模型应用于实际制冷系统中,系统的如下情况可能对诊断模型的诊断性能产生影响:1)系统部件变化,部件出现不同程度的老化、更换部件等;2)运行工况变化,出现未知工况、未知故障等;3)外界环境变化,季节、热负荷、使用场合等的变化。

制冷系统采集的数据是以数据流的形式实时、连续到来,上述情况的发生可能导致数据流所隐含的目标概念发生变化,与之前数据中的概念产生矛盾、不一致,诊断模型无法有效识别,从而导致诊断性能下降,出现误报、漏报增加等情况,无法达到令人满意的效果,该现象被称为概念漂移。

概念漂移数学描述如下:假设一个数据集可以被划分为n个数据流,用D1,D2,…,Dn分别表示,且它们之间是按照时间的先后关系排列,则对任意一个数据流Di,假设其分布概率是Pi(Di),且与其他数据流分布概率是相互独立的,那么概念漂移可以看成Pi(Di)与Pi+1(Di+1)之间相似程度的度量[15-16]。构造的诊断模型若不适用于一个数据流,最直接的表现是诊断性能严重下降,通过对比在线采集的数据流所隐含的概念与之前数据中的概念相似程度或一致程度,可以判断数据流是否发生概念漂移,不一致则发生了概念漂移。

本文采用基于正确率检测概念漂移的方法。正确率指新采集数据流样本中被正确诊断的样本所占的比例,正确率检测阈值为判断数据流发生概念漂移的检测标准。若被诊断数据流正确率高于检测阈值,则未发生概念漂移;低于检测阈值,则认为发生概念漂移,需要更新模型。确定正确率检测阈值的方法:现有样本数据分为训练集和验证集,训练集用于获得初始诊断模型,验证集用于验证模型的诊断性能并确定正确率阈值λ。确定阈值时,验证集又可分为n组,计算平均正确率和标准误差:

(1)

(2)

λ=Avg(Acc)-WStdErr(Acc)

(3)

式中:n为验证集划分的组数;Acci为验证集第i组的诊断正确率;Avg(Acc)为诊断平均正确率;StdErr(Acc)为标准误差;W为置信区间,本文取值为5[17];λ为诊断正确率阈值。

2 支持向量机增量学习

检测到数据流发生概念漂移,诊断模型需要自适应和再学习数据流新知识从而更好地适应当前机组环境。本文采用支持向量机增量学习算法[13]进行诊断模型更新,用ISVM(Incremental SVM)标记。

支持向量机(support vector machine, SVM)是Vapnik领导的研究小组提出的一种新型通用的有监督的机器学习方法[18]。它建立在结构最小化原则基础之上,具有很强的学习能力和泛化性能,能够较好的解决小样本、高维数、非线性、局部极小等问题,可以有效的分类、回归、密度估计等。支持向量机算法适用于制冷系统故障诊断,可取得较理想的故障诊断效果[19-21]。

设H为历史样本集,也称为初始样本集,I为增量样本集,也称为新增样本集。为了得H∪I的分类超平面,最直接的方法就是对所有样本进行学习,为支持向量机的经典学习方法,会增加运算时间和存储空间,不利于模型的在线应用。支持向量机增量学习方法(ISVM)则利用了先验知识,只选择可能对分类结果有重要贡献的样本训练,如支持向量与诊断错误集,其余样本不参与训练,可极大地节约训练时间和计算成本[22],在此方面具有较大优势。

图1 ISVM二次学习流程图Fig.1 ISVM secondary learning process

初始样本集H训练SVM,得初始诊断器ψ1,其中的支持向量集Hsv1完全代表了历史样本集的学习能力和泛化能力,在增量学习后成为支持向量的概率相当大[22]。增量样本集I经初始诊断器ψ1初诊断后,可分为两类样本:诊断正确样本集Iok1和诊断错误样本集Ierr1,后者对分类结果的影响最大,很可能成为新的支持向量;而Iok1中有些样本与分类超平面是邻近的,主要影响支持向量机的泛化能力,也有部分可能成为新的支持向量。此外,当新增样本违背KKT条件,则原样本集H中非支持向量可能转化为支持向量[23],支持向量毕竟只代表了分类超平面不能代表样本集本身,用数目较少的支持向量来代替原样本集可能会使样本集对分类的影响降低,增量学习中,只考虑原支持向量集和错误分类样本集,可能丢失原样本集H中的信息而降低泛化能力。

增量学习算法中,先对Hsv1∪Ierr1进行新的模型训练,得到诊断器ψ2及新的支持向量集Hsv2和非支持向量集Hoth2;再利用原样本集H中非支持向量集Hoth1和增量样本集I中正确诊断的样本集Iok1构成新的增量样本集I2,并用新的诊断器ψ2对I2进行诊断,以确定哪些样本可以正确诊断(Iok2),哪些样本无法正确诊断(Ierr2)。Ierr2作为潜在的支持向量候选样本,与Hsv2合并后进行第二次增量学习。此增量学习过程可以继续,但太多的增量学习会增加运算复杂度。一般地,两次增量学习即可获得很好的学习效果[24]。若一次学习效果达到要求,训练正确率恢复到设置的正确率阈值以上,可以不进行第二次增量学习。

ISVM自适应增量学习算法步骤如下:

1)在初始训练集H上训练SVM得到初始诊断器ψ1,训练集H可以分为支持向量机Hsv1与剩余样本Hoth1;根据诊断器ψ1,可以将增量样本集I分离出诊断错误集Ierr1和诊断正确集Iok1;

2)第一次增量学习,集合Hsv1∪Ierr1作为新的训练集H1,得到一个新的诊断器ψ2和SV集Hsv2;

3)第二次增量学习,Hoth1∪Iok1作为新的增量样本集I2,根据诊断器ψ2,对I2分离出Ierr2和Iok2,集合Hsv1∪Ierr1∪Hsv2∪Ierr2作为新的训练集H2,得到最终的诊断器ψ。

3 基于正确率阈值的概念漂移检测与支持向量机增量学习算法的集成模型

本文将上述基于正确率阈值的概念漂移检测机制与支持向量机增量学习方法相结合,生成集成模型(accuracy based concept drift detection & increment support vector machine,A-CDD-ISVM),使诊断模型动态适应制冷系统运行状态,如图2所示。

图2 A-CDD-ISVM算法流程Fig.2 Structure of A-CDD-ISVM strategy

表1 实验数据说明Tab.1 Information on experimental data

1)初始化:选取制冷系统历史数据,包含故障和正常类型,训练初始故障诊断模型,验证集用于验证模型的稳定性与可靠性,并获得正确率检测阈值λ;

2)对在线连续到达的数据流DSi(i∈1,…,n):诊断模型诊断DSi,得到诊断结果和DSi的诊断正确率Acci;根据阈值λ进行判断,若Acci≤λ,则判断为发生概念漂移,用ISVM算法重新训练模型:(1)根据诊断模型可以将DSi分为诊断错误集和诊断正确集;(2)选取诊断错误集、支持向量集作为训练数据,交叉验证优化模型参数建立新诊断模型;(3)用已有数据验证新模型的诊断效果,若正确率>Avg(Acc),则增量学习结束;若正确率

4 实验与性能分析

4.1 实验数据集的选取

为验证A-CDD-ISVM方法对制冷系统数据流自适应学习效果,本文数据来自ASHRAE(美国采暖制冷与空调工程师学会)的制冷系统故障模拟实验[25]。该实验对象是一台约316 kW的离心式制冷机组,制冷剂为R134a,冷凝器和蒸发器均为壳管式换热器。实验模拟了27个工况,获取参数64个(其中48个为传感器直接测得,16个为VisSim软件实时计算)。本文选取了正常状态、制冷剂泄漏、制冷剂过量3种类别,分别1 400、1 400、1 500个样本数据(故障含4个等级)。实验假设正常状态、制冷剂泄漏故障为已知信息,制冷剂过量故障为未知信息,模拟在线数据流。实验模拟出现新的故障而导致的概念漂移,实验数据安排如表1所示。DS0为初始训练集(2 000),包含正常和泄漏两种类别的各1 000个数据;DS1~DS3为验证集,验证初始诊断模型的稳定性并确定检测阈值λ;DS4~DS10模拟在线采集的制冷系统运行数据流,为新出现的故障或未知故障,本文为制冷剂过量样本,各200个;另设置测试集Test(各100个,共计300个样本)作为独立的样本集测试所得诊断模型的诊断性能。

4.2 实验性能分析

实验过程与结果如表2、表3、图3及图4所示。表2所示为初始诊断模型Model-0的训练、验证、测试情况及确定检测正确率阈值λ。采用DS0的2 000个数据训练支持向量机(SVM)得到初始诊断模型Model-0,用该模型分别诊断数据流DS1、DS2、DS3得到验证正确率,通过式(3)计算,得到Avg(Acc)=99%,检测阈值λ=96.96%。因测试集Test中含有新故障信息(制冷剂过量故障),因而测试正确率仅为66%。

表2 训练初始诊断模型Tab.2 Training initial diagnosis model

图3所示为基于表1实验数据的A-CDD-ISVM实验流程。竖直方向上,算法可分为3个部分,诊断模型对数据流进行诊断、基于正确率阈值的概念漂移检测及概念漂移后基于ISVM的自适应模型更新。水平方向上,模拟实验按照图中箭头方向进行,从DS4至DS10(本文),直至DSn(可拓展)。Model-0诊断数据流DS4,其诊断正确率低于阈值λ,发生概念漂移,采用ISVM更新诊断模型得到Model-1;用Model-1诊断后续数据流DS5未发生漂移,不更新模型;继续诊断DS6,发生概念漂移,采用ISVM更新诊断模型得到Model-2;用Model-2诊断后续数据流DS7……如此重复,过程同上。该实验过程相应的正确率等情况表述于表3及图4中。

图3 A-CDD-ISVM实验流程Fig.3 A-CDD-ISVM experiment process

表3所示为A-CDD-ISVM诊断模型对制冷系统数据流概念漂移检测与增量学习的结果。训练集是指ISVM更新诊断模型所使用的数据集,以Model-0的模型更新为例,历史数据集为DS0、增量样本集为DS4,按照ISVM方法进行增量学习,增量学习后的训练正确率99.32%为新模型Model-1对训练集DS0∪DS4的诊断正确率。在更新模型过程中,可能会增量学习一次或两次,体现在训练正确率一列中,两次增量学习则将第一次增量学习的正确率示于括号中,如Model-1增量学习到Model-2时第一次增量学习的正确率为72.27%,第二次增量学习后达到99.46%。对DS4、DS7只进行一次增量学习即得到较好的诊断性能,模型训练时间更短、效率更高。最后一列为对测试集Test的测试正确率,增量学习后,该正确率相较于表2中Model-0的66%显著提升,Model-1的测试正确率即高达89%,Model-3的更达97.67%,增长了37.67%。在实际应用中,传统的静态数据学习方法已不适用,A-CDD-ISVM在在线学习上具有较大优势。

DS4~DS10数据流通过A-CDD时共检测到3次概念漂移,分别为DS4、DS6和DS7,诊断正确率均低于检测阈值λ(见图4)。图4通过颜色设置更加直观地展示了DS4~DS10数据流的增量学习过程及相应性能,红色虚线为检测阈值线,虚线以下表明发生数据流概念漂移。DS4为新加入的制冷剂过量故障,为未知故障,诊断模型无法识别,正确率为0;增量学习后的Model-1诊断DS4的正确率高达100%(图4),对训练集DS0∪DS4的正确率率为99.32%(表3)。数据流DS6、DS7诊断正确率分别为66%和76%,低于阈值(96.96%),因为实验数据包含27种工况,4个故障等级,数据流DS6、DS7虽同样为制冷剂过量故障,所含有的部分样本信息可能是诊断模型Model-1、Model-2所无法识别或没有学习过的,故诊断正确率低,发生了概念漂移。检测到概念漂移后,进行支持向量机增量学习,更新诊断模型,得到的3个新的诊断模型分别为Model-1、Model-2和Model-3,对表3所示训练集的训练正确率均达到99 %以上,说明模型已经很好地学习了训练样本所隐含的目标概念。

表3 A-CDD-ISVM实验结果Tab.3 A-CDD-ISVM experimental results

图4 数据流增量学习过程Fig.4 Data flow incremental learning process

在此次模拟实验中,通过A-CDD方法共检测3次概念漂移,诊断模型只需要更新3次诊断模型,即制冷系统制冷剂过量故障中1 400个数据而模型共学习600(DS4+DS6+DS7)个过量故障样本,后通过ISVM方法进一步学习这600个样本,便可以实现对制冷剂过量故障的学习。该方法保证了最终模型(Model-3)较佳的诊断性能,其对DS7~DS10数据流的诊断性能稳定在99%以上(图4),此时诊断模型已较好地学习到制冷剂过量故障的诊断知识,表明A-CDD-ISVM集成模型展现出较佳的自适应学习效果。

5 结论

为解决因在线数据流发生概念漂移而导致诊断模型诊断性能下降或波动等情况,本文针对制冷系统实际运行中可能出现新故障的情况设计了一种基于正确率检测的概念漂移机制(A-CDD)与支持向量机增量学习(ISVM)相结合的集成模型,并以新故障为制冷剂过量故障为例进行研究。经模拟实验,得到如下结论:

1)通过A-CDD方法共检测3次概念漂移,诊断模型更新3次,从而减少样本学习数量和模型更新频率。即1 400个制冷剂过量故障数据中,模型只需学习600个样本,后通过ISVM方法进一步学习这600个样本,便可以实现对制冷剂过量故障的学习。最终模型(Model-3)具有较佳的诊断性能,正确率高达99%,测试正确率随模型的更新而逐渐提高,从66%增至97.67%。

2)相较于经典SVM更新诊断模型,ISVM算法更新模型时,进行保留先验知识的选择性学习,大量节省训练时间,具有较大优势。尤其当只需要增量学习一次时,如对数据流DS4、DS7学习,仅增量学习一次训练正确率即可达99%,可实现高效、快速、准确地再学习,自适应性能优良。

3)当制冷系统出现新的故障种类时,A-CDD-ISVM集成模型可实现对新故障的有效学习与诊断,且保证较佳的诊断性能。随着学习的深入,诊断性能提升。该算法通过基于正确率阈值的概念漂移检测机制与基于支持向量机增量学习的诊断模型更新相结合,两次优化过滤数据流信息,从而凝练并提取未知信息,可实现更加快速高效的诊断模型更新,适应新环境,在制冷系统故障的在线诊断及自我学习上具有较大优势。

猜你喜欢
诊断模型制冷系统数据流
R290/R170单级压缩回热制冷系统模拟研究
汽车维修数据流基础(下)
CD4细胞计数联合IGRA预测AIDS/Ⅲ型TB影像诊断模型分析
甘肃科技(2020年20期)2020-04-13 00:30:56
一种提高TCP与UDP数据流公平性的拥塞控制机制
一种电网通信网络的故障检测方法及系统
奥迪A6L车制冷系统工作异常
基于数据流聚类的多目标跟踪算法
北医三院 数据流疏通就诊量
中国卫生(2014年7期)2014-11-10 02:32:54
对于电站锅炉燃烧经济性诊断模型的研究
制冷系统节电控制改造的研究
河南科技(2014年10期)2014-02-27 14:09:20